首頁 > 科技要聞 > 科技> 正文

沈向洋官宣通用視覺大模型!無需提示,就能識別萬物

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-25 15:26

無需用戶提示,AI就可以識別萬物!

而且精度更高、速度更快。

IDEA研究院創(chuàng)院理事長沈向洋官宣IDEA研究院最新成果:通用視覺大模型DINO-X

它實現(xiàn)視覺任務(wù)大一統(tǒng),支持各種開發(fā)世界感知和目標理解任務(wù),包括開放世界對象檢測與分割、短語定位、視覺提示計數(shù)、姿態(tài)估計、無提示對象檢測與識別、密集區(qū)域字幕等。

這背后得益于,他們構(gòu)建了超過一億高質(zhì)量樣本的大型數(shù)據(jù)集Grounding-100M。

與之前DINO家族中類似,DINO-X 也分為DINO-X Pro模型和DINO-X Edge模型。

前者可為各種場景提供更強的感知能力,后者經(jīng)過優(yōu)化,推理速度更快,更適合部署在邊緣設(shè)備上。

實驗結(jié)果表明,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零鏡頭物體檢測基準測試中分別獲得了 56.0 AP、59.8 AP和 52.4 AP 的成績。

尤其是在 LVIS-minival 和 LVIS-val 這兩個罕見類別的基準測試中實現(xiàn)新SOTA——

分別獲得了 63.3 AP 和 56.5 AP 的成績,都比之前的SOTA性能提高了 5.8 AP。

這一結(jié)果表明,它在識別長尾物體方面的能力有了顯著提高。

在開放世界,AI識別萬物

總結(jié)來看,DINO-X主要有四個方面的特點。

首先就是全面檢測,幾乎可識別所有物體。DINO-X稱得上目前業(yè)界檢測最全的通用視覺模型,甚至無需用戶提示。

然后是泛化和通用性。在面對未見過的物體或環(huán)境時,模型仍能保持高水平的檢測性能。

細粒度目標理解:DINO-X通過統(tǒng)一多個視覺任務(wù),實現(xiàn)了多樣化輸出,包括邊界框、分割掩碼、關(guān)鍵點和描述文本,提升了模型在復雜場景下的理解能力。

多任務(wù)感知與理解:DINO-X整合了多個感知頭,支持包括分割、姿態(tài)估計、區(qū)域描述和基于區(qū)域的問答在內(nèi)的多種區(qū)域級別任務(wù),讓感知到理解逐步成為了現(xiàn)實。

長尾目標檢測優(yōu)化:為了支持長尾目標的檢測任務(wù),DINO-X不僅支持文本提示和視覺提示,還支持經(jīng)過視覺提示優(yōu)化的自定義提示。

跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比,此次通用視覺大模型DINO-X 進一步增強了語言理解能力,同時在密集物體檢測場景中表現(xiàn)出色。

如何做到?

DINO-X可接受文本提示、視覺提示和自定義提示,并能同時生成從粗略的表示(如邊框)到精細的細節(jié)(包括遮罩、關(guān)鍵點和對象標題)等各種輸出。

DINO-X Pro的核心架構(gòu),與Grounding DINO 1.5類似,利用預先訓練好的 ViT 模型作為主要的視覺骨干,并在特征提取階段采用了深度早期融合策略。

但不同的是,他們擴大了DINO-X Pro在輸入階段的提示支持,除了文本,還支持視覺提示和自定義提示,以滿足包括長尾物體在內(nèi)的各種檢測需求。

而對于DINO-X Edge版本,他們利用 EfficientViT作為高效特征提取的骨干,并采用了類似Transformer編碼器-解碼器架構(gòu)。

此外,為了提高 DINO-X Edge 模型的性能和計算效率,他們還對模型結(jié)構(gòu)和訓練技術(shù)做了幾個方面的改進。

更強的文本提示編碼器,采用了與pro模型相同的 CLIP 文本編碼器。

知識提煉:從 Pro 模型中提煉知識,以提 Edge 模型的性能。具體來說,團隊利用基于特征的蒸餾和基于響應(yīng)的蒸餾,分別調(diào)整Edge模型和 Pro模型之間的特征和預測對數(shù)。

改進FP16推理:采用浮點乘法歸一化技術(shù),在不影響精度的情況下將模型量化為 FP16。

擁有了對開放世界的視覺感知

DINO-X的萬物識別能力,讓其擁有了對開放世界(Open World)的視覺感知,可以輕松應(yīng)對真實世界中的眾多不確定性和開放環(huán)境。

IDEA研究院創(chuàng)院理事長沈向洋提到了具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動標注、視障人士服務(wù)等這幾個場景。

對具身智能而言,開發(fā)環(huán)境感知和理解是核心能力,這其中的視覺感知更是機器和物理世界交互的基礎(chǔ)。近期,聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實驗室正式掛牌,該實驗室正式由IDEA研究院與騰訊合作組建,致力于打造最前沿的具身智能創(chuàng)新平臺。

多模態(tài)模型通常需要處理大量的圖片并生成圖文對,而僅依靠人工標注的方式不僅耗時、成本高,而且在面對海量數(shù)據(jù)時難以保障標注的一致性和效率。DINO-X的萬物識別能力,可以幫助標注公司快速完成大批量的高質(zhì)量圖像標注或者為標注員提供自動化的輔助結(jié)果,從而降低手工標注的工作量。

視障人士獨立性和生活質(zhì)量的提升對信息獲取與感知等方面有著極高的要求,DINO-X的萬物識別能力恰逢其時地為助盲工具開發(fā)帶來福音,為視障人士的未來生活帶來美好希望。

在自動駕駛、智能安防、工業(yè)檢測等領(lǐng)域,DINO-X使得系統(tǒng)能夠應(yīng)對各種復雜場景,識別出傳統(tǒng)模型難以檢測的物體,為產(chǎn)業(yè)升級和社會發(fā)展注入新的活力。

IDEA研究院一系列視覺大模型,為解決業(yè)務(wù)場景現(xiàn)存的小模型繁多、維護迭代成本高昂、準確率不足等問題,提供了可行的方案。

Dino-X基座大模型零樣本檢測能力,為廣大中小企業(yè)客戶提供便捷高效的計數(shù)和標注工具

目前,IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場景的探索研究工作,在視覺大模型的落地方面取得了實質(zhì)性進展。

一方面,有別于市場上的以語言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法, 通過在物體級別的理解上加入語言模塊優(yōu)化大模型幻覺問題。

另一方面結(jié)合自研的“視覺提示優(yōu)化”方法,無需更改模型結(jié)構(gòu),不用重新訓練模型,實現(xiàn)小樣本下的場景化定制。

IDEA研究院通用視覺大模型行業(yè)平臺架構(gòu)

論文鏈接: https://arxiv.org/abs/2411.14347

官網(wǎng)鏈接:https://deepdataspace.com/home

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部