Giter Site home page Giter Site logo

Comments (12)

binwang777 avatar binwang777 commented on June 3, 2024

你好,可以用额外数据,但不可以用unseen类别。比赛结束后选手需上传模型及方案,并公布额外数据来源。

from ovd_contest.

wusize avatar wusize commented on June 3, 2024
  1. 可以使用unseen类别去过滤公开/爬取的数据集吗?
  2. 所以对额外数据集使用的限制到底是哪些?不可以使用unseen类别去获取数据,算是很重要的限制了,初赛都要结束了才明确下来。可能有些人很多天都白干了。能否把详细的规则公布一下?

from ovd_contest.

wusize avatar wusize commented on June 3, 2024
  1. 在现有的OVD 的setting中,有很多方法在训练过程中都预设已知unseen类比,比如Detic/object-centric-ovd在预处理Caption和分类数据的时候会过滤掉不包含LVIS类别的图片。
  2. 在5月21号的回答中,主办方表示没有限制,这直接决定了很多人的技术路线(额外数据 而不是 蒸馏)。现在初赛结束还不到一个月,突然改变规则,对使用相关路线的队伍极不公平。

from ovd_contest.

yuxie11 avatar yuxie11 commented on June 3, 2024

unseen类数据的使用需要遵循的原则是不破坏OVD问题的定义,否则就会变成已知类别的目标检测而失去本次竞赛的意义。对于额外数据的使用限制,您可以参照以下规则:

  1. 参赛者可以用unseen类别去过滤公开/爬取的数据
  2. 数据集的使用需要明确地不包含人工标注的unseen类的位置信息,包括但不限于参赛者清洗的数据集、公开/网络的数据集,主办方提供的训练集、主办方提供的测试集等

from ovd_contest.

wusize avatar wusize commented on June 3, 2024

unseen类数据的使用需要遵循的原则是不破坏OVD问题的定义,否则就会变成已知类别的目标检测而失去本次竞赛的意义。对于额外数据的使用限制,您可以参照以下规则:

  1. 参赛者可以用unseen类别去过滤公开/爬取的数据
  2. 数据集的使用需要明确地不包含人工标注的unseen类的位置信息,包括但不限于参赛者清洗的数据集、公开/网络的数据集,主办方提供的训练集、主办方提供的测试集等

額外的數據裏不能包含unseen類的位置信息(bbox)可以理解, 否則就成了有標注的目標檢測;

但是如果只是用unseen類別的名字作爲搜索引擎的關鍵字爬取圖片呢? 這和先爬取,再用unseen類別的名字去過濾篩選,本質上沒有區別,都利用了unseen類別名稱.

目前的OVD 論文,主要有兩種,一種是利用弱監督的數據,比如分類數據和caption數據,這些數據有image-level的標簽,但沒有bbox的標注,如ov-rcnn, detic, object-centric-ovd. 根據unseen類別名稱爬取圖片構造分類數據作爲弱監督的信號可以算為這一種;

另外一種不利用任何額外的弱監督數據,只利用CLIP,對其蒸餾或直接基於CLIP搭建檢測器,比如ViLD和BARON, 以及F-VLM.

from ovd_contest.

wusize avatar wusize commented on June 3, 2024

第一種裏面,有些人會利用unseen類別來清理數據,如detic,object-centric-ovd; 也有的在訓練過程中完全對unseen類別完全不可知,只從caption裏解析noun, 比如VLDet.

請問這次比賽對於弱監督信號的限制是哪一種? (我認爲用unseen類別篩選爬取的數據和直接用unseen類別去爬取數據是等價的,後者可以做到和前者一樣,無非是時間更長一點; 對於公開的分類數據集,這兩者就是一回事).

from ovd_contest.

wusize avatar wusize commented on June 3, 2024

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是:使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似?即:使用的外部数据不能包含unseen类别的bbox,除此之外没有限制。

from ovd_contest.

yuxie11 avatar yuxie11 commented on June 3, 2024

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是:使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似?即:使用的外部数据不能包含unseen类别的bbox,除此之外没有限制。

上述提到的爬取过滤均不受限制,但使用的外部数据不能包含unseen类的位置信息

from ovd_contest.

wusize avatar wusize commented on June 3, 2024

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是:使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似?即:使用的外部数据不能包含unseen类别的bbox,除此之外没有限制。

上述提到的爬取过滤均不受限制,但使用的外部数据不能包含unseen类的位置信息

嗯嗯,感谢您的回复。
现在我的理解是:
可以用的数据: 弱监督数据,即只能允许有图像层级(image-level)的标注(caption和分类标签)
不可以用的数据:可能带有unseen类别位置信息的数据,即检测数据集,visual grounding数据集(phrase localization和refering comprehension)。
最后一个问题:在爬取互联网图片时使用unseen类别的名称作为关键字是允许的吗?

from ovd_contest.

yuxie11 avatar yuxie11 commented on June 3, 2024

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是:使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似?即:使用的外部数据不能包含unseen类别的bbox,除此之外没有限制。

上述提到的爬取过滤均不受限制,但使用的外部数据不能包含unseen类的位置信息

嗯嗯,感谢您的回复。 现在我的理解是: 可以用的数据: 弱监督数据,即只能允许有图像层级(image-level)的标注(caption和分类标签) 不可以用的数据:可能带有unseen类别位置信息的数据,即检测数据集,visual grounding数据集(phrase localization和refering comprehension)。 最后一个问题:在爬取互联网图片时使用unseen类别的名称作为关键字是允许的吗?

上述理解是对的,最后一个问题提到的方式是允许的。

from ovd_contest.

wusize avatar wusize commented on June 3, 2024

提出了OVD任务的OV-RCNN 对open-vocabulary的定义是:使用可能包含target类别的弱监督数据。这次比赛的原则是不是也类似?即:使用的外部数据不能包含unseen类别的bbox,除此之外没有限制。

上述提到的爬取过滤均不受限制,但使用的外部数据不能包含unseen类的位置信息

嗯嗯,感谢您的回复。 现在我的理解是: 可以用的数据: 弱监督数据,即只能允许有图像层级(image-level)的标注(caption和分类标签) 不可以用的数据:可能带有unseen类别位置信息的数据,即检测数据集,visual grounding数据集(phrase localization和refering comprehension)。 最后一个问题:在爬取互联网图片时使用unseen类别的名称作为关键字是允许的吗?

上述理解是对的,最后一个问题提到的方式是允许的。

好的,感谢回复

from ovd_contest.

GG-Bonds avatar GG-Bonds commented on June 3, 2024

所以,你们都是用了额外数据做的啊;难怪点数这么高

  • 可以使用unseen类别去过滤公开/爬取的数据集吗?
  • 所以对额外数据集使用的限制到底是哪些?不可以使用unseen类别去获取数据,算是很重要的限制了,初赛都要结束了才明确下来。可能有些人很多天都白干了。能否把详细的规则公布一下?

from ovd_contest.

Related Issues (18)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.