首頁 > 科技要聞 > 科技> 正文

豆包1.5 Pro重磅更新!7倍MoE性能杠桿,“不使用任何其他模型數(shù)據(jù)”

量子位 整合編輯:趙凱松 發(fā)布于:2025-01-23 15:20

春節(jié)前這一波大模型瘋狂加更,字節(jié)也出手了,最新登場的是豆包全新基礎(chǔ)模型——

Doubao-1.5-pro。

豆包“演技精湛”的真人級語音對話功能剛刷屏,僅隔一天,背后基礎(chǔ)模型字節(jié)也給抖落出來了。

基礎(chǔ)模型登場,背后團(tuán)隊不僅放出細(xì)節(jié)滿滿的技術(shù)博客,還親自給劃了重點:

MoE架構(gòu),僅用較小激活參數(shù),就能達(dá)到世界一流模型性能,性能杠桿達(dá)到7倍

數(shù)據(jù)生產(chǎn)體系高度自主,不使用任何其他模型數(shù)據(jù)

多模態(tài)能力全面提升

更妙的是,Doubao-1.5-pro官宣即上線,火山方舟體驗網(wǎng)址同步開放,同時也在豆包APP灰度上線。

這還等什么,當(dāng)然是第一時間上手實測啦。

就著技術(shù)博客,我們也來扒一扒背后更多技術(shù)細(xì)節(jié),一起往下看~

實測豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型綜合能力有顯著增強(qiáng),在知識、代碼、推理、中文等多個權(quán)威測評基準(zhǔn)上都達(dá)到SOTA。

那么首先,來看現(xiàn)在大模型圈最卷的推理能力。

推理能力實測

先簡單來道邏輯判斷題,看看Doubao-1.5-pro能不能接住。

某校食堂發(fā)生了一起嚴(yán)重的食物中毒事故,關(guān)于事故的原因,有如下四種說法:甲:事故是由食物過期引起的乙:如果事故是由食物過期引起的,那么食堂管理方面一定存在著監(jiān)管不到位的現(xiàn)象丙:事故確實是由食物過期引起,但食堂管理方面并不存在監(jiān)管不到位的現(xiàn)象。菏鹿什皇怯墒澄镞^期引起的,但食堂管理方面存在監(jiān)管不到位的現(xiàn)象

如果上述四種說法中只有一種是真的,由此可以推出A. 乙為真,且食堂存在監(jiān)管不到位的現(xiàn)象B. 乙為真,但食堂沒有存在監(jiān)管不到位的現(xiàn)象C. 甲為真D. 丙為真

Doubao-1.5-pro的回答是醬嬸的:

思路梳理得非常清晰,答案也是準(zhǔn)確的。

加大一點難度,給豆包上點計算量,結(jié)果又會如何?

一個外星人來到地球后,第一天有相等的可能選擇以下四件事中的一件完成:1、自我毀滅;2、分裂成兩個外星人;3、分裂成三個外星人;4、什么都不做。此后每天,每個外星人均會做一次選擇,且彼此之間相互獨立,求地球上最終沒有外星人的概率

來看Doubao-1.5-pro的應(yīng)對:

相同的提示詞下,Claude 3.5 Sonnet一通輸出,卻在最后給答案的時候翻車了:

這一題,Doubao-1.5-pro也順利過關(guān)。

值得一提的是,豆包大模型團(tuán)隊提到,Doubao-1.5-pro還經(jīng)過了視覺、語音等多模態(tài)能力的“特訓(xùn)”。那么最后,我們再加試一道圖片推理題:

看來跟豆包用表情包聊天,是不成問題了(doge)。

代碼能力實測

測完推理能力,再來看看程序員們最關(guān)心的代碼能力。

第一題,來個當(dāng)時被o1-pro直接拒絕回答的離譜需求:

只用HTML代碼復(fù)刻經(jīng)典游戲《毀滅戰(zhàn)士》。

Doubao-1.5-pro也表示:這不合理。

盡管如此,Doubao-1.5-pro還是試圖滿足我們“五彩斑斕的黑”的需求,主動提出解決方案:

可以使用HTML結(jié)合CSS和JavaScript來創(chuàng)建一個簡化的、具有《毀滅戰(zhàn)士》風(fēng)格元素的小游戲示例。

運行這些代碼,就能得到一個簡單的射擊小游戲界面,盡管認(rèn)真要跑起來還需要微調(diào)細(xì)節(jié),但大體框架并沒有什么問題。

端到端語音功能

語音多模態(tài)方面,在Doubao-1.5-pro的加持下,豆包APP已經(jīng)全量上線了新版實時語音對話功能。

未使用任何其他模型蒸餾數(shù)據(jù)

一波實測下來,豆包大模型1.5 Pro不愧是壓軸出場的角色,綜合能力沒有讓大家伙兒失望。

而多個公開評測基準(zhǔn)上的亮眼成績,也從更客觀的角度體現(xiàn)了Doubao-1.5-pro現(xiàn)在的身位。

可以看到,Doubao-1.5-pro已經(jīng)達(dá)到業(yè)界領(lǐng)先水平,在中文能力上,更是超過了GPT-4o和Claude 3.5 Sonnet等國外大模型。

另外,在視覺和語音等多模態(tài)能力上,Doubao-1.5-pro同樣取得了亮眼的成績。

比如在視覺推理任務(wù)中,Doubao-1.5-pro的表現(xiàn)不遜色于GPT-4o:

值得關(guān)注的是,這一次模型上新,豆包大模型團(tuán)隊也在官方博客中釋出了更多技術(shù)細(xì)節(jié)。

接下來,咱們就來劃拉劃拉重點。

性能杠桿提升至7倍

從Tokens使用量來看,截至12月中旬,豆包大模型的日均Tokens使用量已經(jīng)超過4萬億,印證了Doubao API和豆包產(chǎn)品的海量推理需求。

為此,豆包團(tuán)隊從預(yù)訓(xùn)練階段就堅持訓(xùn)練-推理一體設(shè)計,以平衡模型性能和推理成本。

具體而言,Doubao-1.5-pro采用稀疏MoE架構(gòu),團(tuán)隊通過對稀疏度Scaling Law的研究,確定了性能和效率比較平衡的稀疏比例,并根據(jù)MoE Scaling Law確定小參數(shù)量激活的模型就能達(dá)到世界一流模型的性能。

在預(yù)訓(xùn)練階段,僅用較小參數(shù)激活的MoE模型,性能即可超過Llama3.1-405B等超大稠密預(yù)訓(xùn)練模型。

同時,在完全相同的部分訓(xùn)練數(shù)據(jù)(9T tokens)對比驗證下,激活參數(shù)僅為1/7稠密模型參數(shù)量的MoE模型,表現(xiàn)超過了稠密模型,性能杠桿提升可達(dá)7倍。

此前,業(yè)界在這一新能杠桿上的普遍水平為不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B總參數(shù)的稠密模型,性能比值約為2.5倍。

高效后訓(xùn)練流程

在近來大模型們集中精力卷的PostTraining上,豆包大模型團(tuán)隊構(gòu)建了一套高度自主的數(shù)據(jù)生產(chǎn)體系。

其中最值得關(guān)注的一點是:不使用任何其他模型的蒸餾數(shù)據(jù),確保數(shù)據(jù)來源的獨立性和可靠性。

SFT階段,團(tuán)隊開發(fā)了一套算法驅(qū)動的訓(xùn)練數(shù)據(jù)優(yōu)化系統(tǒng),涵蓋訓(xùn)練數(shù)據(jù)多樣性優(yōu)化,以及精確人題匹配功能,并結(jié)合模型自演進(jìn)(Self-evolve)技術(shù),提升數(shù)據(jù)標(biāo)注的多樣性和難度,形成了模型性能提升的良性循環(huán)。

獎勵模型(Reward Model)部分,團(tuán)隊建立了包含prompt分布優(yōu)化、response篩選、多輪迭代和active learning的完整數(shù)據(jù)生產(chǎn)pipeline。

在此基礎(chǔ)之上,為了實現(xiàn)模型在數(shù)學(xué)、編程、知識、對話等多維度能力的均衡提升,團(tuán)隊通過深度融合Verlfier和獎勵模型,構(gòu)建了統(tǒng)一的Reward框架。

此外,基于梯度篩選和迭代過濾技術(shù),豆包大模型團(tuán)隊用25%的數(shù)據(jù),能夠達(dá)到近似全量的訓(xùn)練效果。

強(qiáng)化學(xué)習(xí)(RL)階段,團(tuán)隊攻克了價值函數(shù)訓(xùn)練難點,實現(xiàn)了token-wise穩(wěn)定建模,在高難度任務(wù)上的性能提升超過10個絕對點。并通過對比學(xué)習(xí)方法,有效提升了模型表現(xiàn),顯著緩解了reward hacking問題。在數(shù)據(jù)、算法、模型層面全面實現(xiàn)了 Scaling 。

字節(jié)最擅長的AB Test經(jīng)驗也被引入了豆包大模型的Post-Training全流程;诙拱拇笠(guī)模用戶反饋,研發(fā)團(tuán)隊構(gòu)建了從問題發(fā)現(xiàn)、數(shù)據(jù)挖掘、人機(jī)結(jié)合標(biāo)注到快速迭代的閉環(huán)優(yōu)化系統(tǒng),以讓用戶數(shù)據(jù)飛輪能持續(xù)作用于模型實際使用體驗的提升。

One More Thing

另外,豆包官方還低調(diào)透露了一嘴“深度思考模式”的消息。

研發(fā)團(tuán)隊在完全不使用其他模型數(shù)據(jù)的條件下,通過RL算法突破和工程優(yōu)化,充分發(fā)揮test time scaling的算力優(yōu)勢,已經(jīng)實現(xiàn)了豆包深度思考模型。

團(tuán)隊表示,隨著RL的持續(xù),模型能力還在不斷提升中:

在這一過程中,我們也看到了推理能力在不同領(lǐng)域的泛化,智能的邊界正在被慢慢拓寬。

如此說來,下一個版本的豆包更新,可以期待起來了。

豆包的遠(yuǎn)謀

總結(jié)一下豆包1.5背后的技術(shù)思路,有兩個關(guān)鍵詞浮出水面:高效,以及“不走捷徑”。

采用頂級模型蒸餾數(shù)據(jù),在業(yè)內(nèi)已經(jīng)是心照不宣的法門,連C端用戶,也對A模型口吐“我是B模型”之語見怪不怪。

OpenAI CEO奧特曼自己也曾暗示,復(fù)刻o1并沒有實現(xiàn)o1本身那么難:

一方面,是在技術(shù)創(chuàng)新角度上,從0到1遠(yuǎn)比從1到100困難得多。

另一方面,大量的學(xué)術(shù)論文和產(chǎn)業(yè)實踐已經(jīng)驗證,蒸餾頂級模型數(shù)據(jù)對于訓(xùn)練基礎(chǔ)模型而言,可以說是一條“捷徑”。

當(dāng)然,這條捷徑上也并非沒有坑。

首先是數(shù)據(jù)安全問題。

蒸餾其他模型的數(shù)據(jù),對于模型開發(fā)者而言,天然存在不可控的風(fēng)險。教師模型的偏見、錯誤以及版權(quán)問題等,都可能會被傳遞給學(xué)生模型。

另外,這一技術(shù)方案也可能限制模型的性能上限。

近期就有一線大模型創(chuàng)業(yè)者表達(dá)了類似觀點:如果一定要把模型去對齊一個別的模型,比如GPT的結(jié)果,會有一些能力受限。

如此看來,此番豆包公開強(qiáng)調(diào)“不使用任何其他模型數(shù)據(jù)”,背后透露出的是國內(nèi)第一梯隊大模型產(chǎn)品更長遠(yuǎn)的布局思路:

不走捷徑,確保數(shù)據(jù)來源的獨立性、可靠性、可控性。在追求更高智能的長期突破的過程中,把主動權(quán)更多地把握在自己手中。

現(xiàn)在,這種自主技術(shù)、長期主義的思路,也正在市場上得到正反饋:

火山引擎Tokens日均消耗量的月均復(fù)合增長率超過60%,2024年12月日均Tokens市場份額占比已超50%,坐上大模型商用年度頭把交椅。

體驗地址:https://www.volcengine.com/

文章來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部