無需用戶提示,AI就可以識別萬物! 而且精度更高、速度更快。 IDEA研究院創(chuàng)院理事長沈向洋官宣IDEA研究院最新成果:通用視覺大模型DINO-X。 它實現(xiàn)視覺任務(wù)大一統(tǒng),支持各種開發(fā)世界感知和目標理解任務(wù),包括開放世界對象檢測與分割、短語定位、視覺提示計數(shù)、姿態(tài)估計、無提示對象檢測與識別、密集區(qū)域字幕等。 這背后得益于,他們構(gòu)建了超過一億高質(zhì)量樣本的大型數(shù)據(jù)集Grounding-100M。 與之前DINO家族中類似,DINO-X 也分為DINO-X Pro模型和DINO-X Edge模型。 前者可為各種場景提供更強的感知能力,后者經(jīng)過優(yōu)化,推理速度更快,更適合部署在邊緣設(shè)備上。 實驗結(jié)果表明,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零鏡頭物體檢測基準測試中分別獲得了 56.0 AP、59.8 AP和 52.4 AP 的成績。 尤其是在 LVIS-minival 和 LVIS-val 這兩個罕見類別的基準測試中實現(xiàn)新SOTA—— 分別獲得了 63.3 AP 和 56.5 AP 的成績,都比之前的SOTA性能提高了 5.8 AP。 這一結(jié)果表明,它在識別長尾物體方面的能力有了顯著提高。 在開放世界,AI識別萬物 總結(jié)來看,DINO-X主要有四個方面的特點。 首先就是全面檢測,幾乎可識別所有物體。DINO-X稱得上目前業(yè)界檢測最全的通用視覺模型,甚至無需用戶提示。 然后是泛化和通用性。在面對未見過的物體或環(huán)境時,模型仍能保持高水平的檢測性能。 細粒度目標理解:DINO-X通過統(tǒng)一多個視覺任務(wù),實現(xiàn)了多樣化輸出,包括邊界框、分割掩碼、關(guān)鍵點和描述文本,提升了模型在復雜場景下的理解能力。 多任務(wù)感知與理解:DINO-X整合了多個感知頭,支持包括分割、姿態(tài)估計、區(qū)域描述和基于區(qū)域的問答在內(nèi)的多種區(qū)域級別任務(wù),讓感知到理解逐步成為了現(xiàn)實。 長尾目標檢測優(yōu)化:為了支持長尾目標的檢測任務(wù),DINO-X不僅支持文本提示和視覺提示,還支持經(jīng)過視覺提示優(yōu)化的自定義提示。 跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比,此次通用視覺大模型DINO-X 進一步增強了語言理解能力,同時在密集物體檢測場景中表現(xiàn)出色。 如何做到? DINO-X可接受文本提示、視覺提示和自定義提示,并能同時生成從粗略的表示(如邊框)到精細的細節(jié)(包括遮罩、關(guān)鍵點和對象標題)等各種輸出。 DINO-X Pro的核心架構(gòu),與Grounding DINO 1.5類似,利用預先訓練好的 ViT 模型作為主要的視覺骨干,并在特征提取階段采用了深度早期融合策略。 但不同的是,他們擴大了DINO-X Pro在輸入階段的提示支持,除了文本,還支持視覺提示和自定義提示,以滿足包括長尾物體在內(nèi)的各種檢測需求。 而對于DINO-X Edge版本,他們利用 EfficientViT作為高效特征提取的骨干,并采用了類似Transformer編碼器-解碼器架構(gòu)。 此外,為了提高 DINO-X Edge 模型的性能和計算效率,他們還對模型結(jié)構(gòu)和訓練技術(shù)做了幾個方面的改進。 更強的文本提示編碼器,采用了與pro模型相同的 CLIP 文本編碼器。 知識提煉:從 Pro 模型中提煉知識,以提 Edge 模型的性能。具體來說,團隊利用基于特征的蒸餾和基于響應(yīng)的蒸餾,分別調(diào)整Edge模型和 Pro模型之間的特征和預測對數(shù)。 改進FP16推理:采用浮點乘法歸一化技術(shù),在不影響精度的情況下將模型量化為 FP16。 擁有了對開放世界的視覺感知 DINO-X的萬物識別能力,讓其擁有了對開放世界(Open World)的視覺感知,可以輕松應(yīng)對真實世界中的眾多不確定性和開放環(huán)境。 IDEA研究院創(chuàng)院理事長沈向洋提到了具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動標注、視障人士服務(wù)等這幾個場景。 對具身智能而言,開發(fā)環(huán)境感知和理解是核心能力,這其中的視覺感知更是機器和物理世界交互的基礎(chǔ)。近期,聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實驗室正式掛牌,該實驗室正式由IDEA研究院與騰訊合作組建,致力于打造最前沿的具身智能創(chuàng)新平臺。 多模態(tài)模型通常需要處理大量的圖片并生成圖文對,而僅依靠人工標注的方式不僅耗時、成本高,而且在面對海量數(shù)據(jù)時難以保障標注的一致性和效率。DINO-X的萬物識別能力,可以幫助標注公司快速完成大批量的高質(zhì)量圖像標注或者為標注員提供自動化的輔助結(jié)果,從而降低手工標注的工作量。 視障人士獨立性和生活質(zhì)量的提升對信息獲取與感知等方面有著極高的要求,DINO-X的萬物識別能力恰逢其時地為助盲工具開發(fā)帶來福音,為視障人士的未來生活帶來美好希望。 在自動駕駛、智能安防、工業(yè)檢測等領(lǐng)域,DINO-X使得系統(tǒng)能夠應(yīng)對各種復雜場景,識別出傳統(tǒng)模型難以檢測的物體,為產(chǎn)業(yè)升級和社會發(fā)展注入新的活力。 IDEA研究院一系列視覺大模型,為解決業(yè)務(wù)場景現(xiàn)存的小模型繁多、維護迭代成本高昂、準確率不足等問題,提供了可行的方案。 △Dino-X基座大模型零樣本檢測能力,為廣大中小企業(yè)客戶提供便捷高效的計數(shù)和標注工具目前,IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場景的探索研究工作,在視覺大模型的落地方面取得了實質(zhì)性進展。 一方面,有別于市場上的以語言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法, 通過在物體級別的理解上加入語言模塊優(yōu)化大模型幻覺問題。 另一方面結(jié)合自研的“視覺提示優(yōu)化”方法,無需更改模型結(jié)構(gòu),不用重新訓練模型,實現(xiàn)小樣本下的場景化定制。 △IDEA研究院通用視覺大模型行業(yè)平臺架構(gòu)論文鏈接: https://arxiv.org/abs/2411.14347 官網(wǎng)鏈接:https://deepdataspace.com/home 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選
在一個月前的CES 2025中,松下還帶來了Mini LED Z95B等一系列電視機型。但僅相隔一個月,松下就再次帶來了一條重磅消息。2月4日,松下控股公司表示將會啟動大規(guī)模改革,將白色家電、空調(diào)、照明等業(yè)務(wù)重組并拆分為三家獨立子公司。而在其中,社長兼集團CEO楠見雄規(guī)表示,盡管公司尚未決定出售電視業(yè)務(wù),但“如果有必要,我們已做好出售的準備”。