首頁 > 科技要聞 > 科技> 正文

多模態(tài)版DeepSeek-R1:評測表現(xiàn)超GPT-4o,模態(tài)穿透反哺文本推理能力!北大港科大出品,已開源

量子位 整合編輯:太平洋科技 發(fā)布于:2025-02-06 11:47

如果把DeepSeek-R1震撼硅谷的深度推理表現(xiàn),運用到多模態(tài)場景,那會怎樣?

此前DeepSeek自家的Janus-Pro-7B沒有結(jié)合推理能力,但現(xiàn)在,國內(nèi)有研究團(tuán)隊先做到了——

基于自研全模態(tài)框架Align-Anything,北大聯(lián)合港科大團(tuán)隊推出多模態(tài)版DeepSeek-R1

Align-DS-V,它在部分視覺理解表現(xiàn)評測集上超越GPT-4o。

當(dāng)圖文結(jié)合地詢問它減肥時更適合喝哪一款飲品時,Align-DS-V精確地指出圖中飲品的款數(shù)、飲品名稱,以及減脂時最適合飲用的是“低糖原味豆奶”。

不僅如此,它還額外指出,圖中的原味豆奶同樣適合減脂期飲用。

更重要的是,在讓DeepSeek-R1“長眼睛”的過程中,研究人員還發(fā)現(xiàn)了模態(tài)穿透對于模型文本模態(tài)推理能力的提升效果。

具體來說,團(tuán)隊在DeepSeek-R1的全模態(tài)化嘗試中發(fā)現(xiàn),多模態(tài)訓(xùn)練之后,模型不僅在文本模態(tài)任務(wù)上的表現(xiàn)有所提升,在科學(xué)任務(wù)、復(fù)雜推理、數(shù)學(xué)代碼等方面的表現(xiàn)亦均有提升。

尤為顯著的是,在ARC-Challenge(5-shot)上,成績從單模態(tài)的21.4提升到了多模態(tài)的40.5。

基于此,團(tuán)隊認(rèn)為當(dāng)下多模態(tài)大模型已具備強(qiáng)大的跨模態(tài)穿透與融合的感知能力,能夠通過結(jié)合世界知識與上下文學(xué)習(xí)能力,實現(xiàn)多種模態(tài)(如圖像、文本、音頻、視頻等)的高效推理與協(xié)同輸出。

通過深度融合世界知識,模型在文本模態(tài)下的推理邊界得以拓展。

全模態(tài)對齊Align-Anything,涌現(xiàn)模態(tài)穿透能力

人類在日常生活中接收到的信息往往是全模態(tài)的,如何將“強(qiáng)推理慢思考”從單文本模態(tài)進(jìn)一步推廣到更多模態(tài)甚至是全模態(tài)場景,不可否認(rèn)是大勢所趨

在此基礎(chǔ)上,如何將全模態(tài)大模型與人類的意圖相對齊,也是一個極具前瞻性且至關(guān)重要的挑戰(zhàn)。

在單一文本模態(tài)場景下,許多復(fù)雜推理任務(wù)可以通過基于規(guī)則的獎勵提供監(jiān)督信號,作為人類意圖和偏好的載體。

而當(dāng)從文本模態(tài)擴(kuò)展到多模態(tài)甚至全模態(tài)場景下時,許多問題會隨之浮現(xiàn)

隨著模態(tài)數(shù)量增加,傳統(tǒng)二元偏好或規(guī)則獎勵是否能夠捕捉人類意圖的多元偏好或?qū)哟位茫?/p>

當(dāng)多模態(tài)擴(kuò)展到全模態(tài)空間,模態(tài)交互更加復(fù)雜,RL方法需要做哪些改進(jìn)?

不同模態(tài)下,模態(tài)特有與模態(tài)共有的信息如何統(tǒng)一在獎勵信號建模中?

……

輸入輸出空間的分布更加廣泛,幻覺現(xiàn)象加劇,這都使得全模態(tài)對齊變得更加復(fù)雜。

為進(jìn)一步促進(jìn)多模態(tài)對齊研究,研究團(tuán)隊提出了Align-Anything框架,致力于使全模態(tài)大模型與人類意圖和價值觀對齊。

這里的全模態(tài)包括文生文、文生圖、文圖生文、文生視頻等任意到任意的輸入與輸出模態(tài)。

總體而言,框架設(shè)計了具備高度的模塊化、擴(kuò)展性以及易用性的對齊訓(xùn)練框架,支持由文本、圖片、視頻、音頻四大基本模態(tài)衍生出的任意模態(tài)模型對齊微調(diào),并驗證了框架對齊算法的實現(xiàn)正確性。

該框架具有以下特點:

高度模塊化:對不同算法類型的抽象化和精心設(shè)計的API,用戶能夠為不同的任務(wù)修改和定制代碼,以及定制化模型與數(shù)據(jù)集注冊等高級擴(kuò)展用法;

支持跨任意模態(tài)模型的微調(diào):包含對如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多種模態(tài)生成與理解的大模型的微調(diào)能力;

支持不同的對齊方法:支持任意模態(tài)上的多種對齊算法,既包括SFT、DPO、PPO等經(jīng)典算法,也包括ORPO, SimPO和KTO等新算法;

支持多種開、閉源對齊評估:支持了30多個多模態(tài)評測基準(zhǔn),包括如MMBench、VideoMME等多模態(tài)理解評測,以及如FID、HPSv2等多模態(tài)生成評測。

也就是說,Align-Anything團(tuán)隊從數(shù)據(jù)集、算法、評估以及代碼庫四個維度貢獻(xiàn)了開源力量:

數(shù)據(jù):200k包含人類語言反饋和二元偏好的數(shù)據(jù)集,包含圖、文、視頻、語音全模態(tài)。

算法:從語言反饋中學(xué)習(xí)的合成數(shù)據(jù)范式,大幅提升RLHF后訓(xùn)練方法的表現(xiàn)。

評估:面向全模態(tài)模型的模態(tài)聯(lián)動與模態(tài)選擇評估。

代碼庫:支持圖、文、視頻、語音全模態(tài)訓(xùn)練與評估的代碼框架。

同時,為了促進(jìn)對全模態(tài)對齊模型的進(jìn)一步開發(fā),研究團(tuán)隊發(fā)布首個全模態(tài)人類偏好數(shù)據(jù)集Align-Anything

與專注于單個模態(tài)且質(zhì)量參差不齊的現(xiàn)有偏好數(shù)據(jù)集不同,Align-Anything提供了高質(zhì)量的數(shù)據(jù),包括了輸入和輸出中的任何模態(tài)。

這旨在提供詳細(xì)的人類偏好注釋以及用于批評和改進(jìn)的精細(xì)語言反饋,從而實現(xiàn)跨模態(tài)的全面評估和改進(jìn)。

多模態(tài)場景加持的Deepseek-R1:Align-DS-V

接下來,團(tuán)隊開始攻堅多模態(tài)場景加持下的Deepseek-R1會有怎樣的表現(xiàn)。

借鑒LLaVA的訓(xùn)練思路,通過訓(xùn)練投影層(Projector),Align-Anything團(tuán)隊將視覺編碼器(Vision Encoder)輸出映射到語言表征空間,從而擴(kuò)展了DeepSeek-R1的視覺模態(tài)。

在Align-Anything庫中,團(tuán)隊開源了訓(xùn)練的全部流程。

首先,基于Deepseek-R1系列模型,構(gòu)建“文本 + 圖片-> 文本”架構(gòu)。例如以下腳本:

在新的多模態(tài)模型中,輸入圖像Xv經(jīng)過視覺編碼器提取特征,生成中間表示Zv,然后通過投影層進(jìn)行映射,得到視覺表征Hv

與此同時,語言指令Xq經(jīng)過處理,生成語言表征Hq。

這些視覺和語言特征共同輸入到語言模型,語言模型將兩種信息結(jié)合進(jìn)行推理,最終生成文本回復(fù)。

在構(gòu)建好模態(tài)擴(kuò)展的DeepSeek-R1架構(gòu)后,具體的訓(xùn)練分成兩個步驟:

第一步,凍結(jié)除投影層Projector外所有模型參數(shù),對投影層Projector進(jìn)行預(yù)訓(xùn)練,使得投影層Projector能夠?qū)⒔?jīng)過視覺編碼器的視覺表征映射到語言表征空間。

第二步,同時微調(diào)投影層Projector和大語言模型,激發(fā)語言模型多模態(tài)推理能力。

訓(xùn)練成功后,研究人員將多模態(tài)版本的DeepSeek-R1系列模型命名為Align-DS-V。

以下是Align-DS-V在不同視覺理解表現(xiàn)評測集上的表現(xiàn)(對比GPT-4o)

可以看到,Align-DS-V在部分評測集(如llava-bench-coco)上的表現(xiàn)超過了GPT-4o。

除此之外,更重要的是團(tuán)隊還發(fā)現(xiàn)了模態(tài)穿透對于模型文本模態(tài)推理能力的提升效果。

具體來說,團(tuán)隊在DeepSeek-R1的全模態(tài)化嘗試中發(fā)現(xiàn),經(jīng)過多模態(tài)訓(xùn)練之后,模型在文本模態(tài)任務(wù)上的表現(xiàn)有所提升,在科學(xué)任務(wù)、復(fù)雜推理、數(shù)學(xué)代碼等方面的表現(xiàn)均有提升。

尤為顯著的是,在ARC-Challenge(5-shot)上,成績從單模態(tài)的21.4提升到了多模態(tài)的40.5。

由此團(tuán)隊認(rèn)為,基于“慢思考強(qiáng)推能力”的持續(xù)自我進(jìn)化,模型能力已經(jīng)突破了單一模態(tài)的局限性,跨模態(tài)穿透深度顯著提升。

通過深度融合世界知識,模型在文本模態(tài)下的推理邊界得以拓展。

為驗證全模態(tài)推理大模型在垂域應(yīng)用的能力,研發(fā)團(tuán)隊對Align-DS-V面向進(jìn)行香港地區(qū)價值觀的本地化對齊,令A(yù)lign-DS-V適應(yīng)粵語/英語/普通話混合語言輸入。

這一過程深度整合港鐵動態(tài)、臺風(fēng)預(yù)警及八達(dá)通繳費等香港本土生活場景。

在面對包含繁體字的圖文數(shù)學(xué)問題時,Align-DS-V能夠準(zhǔn)確聯(lián)動圖文模態(tài)信息。

如圖所示,它逐步使用嚴(yán)密的數(shù)學(xué)推導(dǎo)展示求解過程,展示了被應(yīng)用于教育等行業(yè)的可信前景。

北大&港科大聯(lián)合開發(fā)、開源、維護(hù)

Align-Anything和Align-DS-V由北京大學(xué)聯(lián)合香港科技大學(xué)開發(fā)。

目前,Align-Anything框架,以及DeepSeek-R1的多模態(tài)版本Align-DS-V,均已開源,團(tuán)隊將攜手對其進(jìn)行長期維護(hù)(文末附地址直通車)。

聯(lián)合研究團(tuán)隊中的北京大學(xué)對齊團(tuán)隊,專注于人工智能系統(tǒng)的安全交互與價值對齊。

團(tuán)隊指導(dǎo)老師為北京大學(xué)人工智能研究院助理教授楊耀東。

聯(lián)合研究團(tuán)隊中的香港生成式人工智能研發(fā)中心(HK Generative AI R&D Center,HKGAI)成立于2023年10月,致力于推動香港人工智能生態(tài)系統(tǒng)的發(fā)展。

由香港科技大學(xué)首席副校長,郭毅可院士領(lǐng)銜擔(dān)任中心主任。

量子位了解到,在Align-DS-V的基礎(chǔ)上,北大-靈初聯(lián)合實驗室已經(jīng)著手在VLA(Vision Language Action Model,視覺語言動作模型)領(lǐng)域方面做更深度的探索

靈初正在研發(fā)的VLA模型,在大腦端利用多模態(tài)大模型進(jìn)行對齊和微調(diào),并向小腦端的控制器輸出action token;而后,小腦端的控制器再根據(jù)輸入的token和其他模態(tài)的信息,輸出具體的機(jī)器人控制指令。

這兩個過程都需要運用針對多模態(tài)大模型的后訓(xùn)練(post-training)和微調(diào)(fine-tuning)技術(shù)。

北大-靈初聯(lián)合實驗室表示,Align-DS-V的多模態(tài)強(qiáng)推理能力是VLA模型大腦端的核心,接下來的研究訓(xùn)練計劃,是利用多模態(tài)推理模型的跨模態(tài)穿透能力,實現(xiàn)action穿透,最終實現(xiàn)真正高效的VLA模型。

同樣的后訓(xùn)練技術(shù)也可以應(yīng)用于小腦端控制器的微調(diào),實現(xiàn)更高的成功率、泛化性和魯棒性。

Align-Anything框架開源地址:
https://github.com/PKU-Alignment/align-anything
Align-DS-V開源地址:
https://huggingface.co/PKU-Alignment/Align-DS-V

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部