首頁 > 科技要聞 > 科技> 正文

豆包發(fā)布大模型 1.5 Pro ,實(shí)測后我發(fā)現(xiàn)這個(gè)國產(chǎn) AI 用最「笨」的方法干翻了 GPT-4o

appso 整合編輯:趙凱松 發(fā)布于:2025-01-23 12:27

這幾天海外科技圈最受關(guān)注的有兩件事,一個(gè)是一眾科技大佬齊聚特朗普就職典禮,川普還拉上 OpenAI、軟銀等公司成立一家叫「星際之門」(Stargate Project)的 AI 公司,未來 4 年要投資 5000 億美元,掀起了新一輪 AI 軍備競賽。

另外就是以 DeepSeek R1 為代表的國產(chǎn)推理模型給硅谷 AI 圈帶來的震撼,趕超 OpenAI 是所有 AI 公司的課題,但 DeepSeek 只用 2048 塊GPU、近 600 萬美元在 2 個(gè)月時(shí)間做到。

一些外媒將這波國產(chǎn) AI 的發(fā)布視為中國 AI 逼近甚至趕上美國的標(biāo)志也并不奇怪,而且這股浪潮還在繼續(xù)。

今天,字節(jié)跳動(dòng)旗下的豆包大模型 1.5 Pro 正式亮相,不僅全面升級(jí)了模型的核心能力,也融合并進(jìn)一步提升了多模態(tài)能力,在多項(xiàng)公開評(píng)測基準(zhǔn)中也是全球領(lǐng)先水平。

豆包團(tuán)隊(duì)還強(qiáng)調(diào),模型訓(xùn)練過程中并未使用任何其他模型生成的數(shù)據(jù)。

這次發(fā)布的豆包大模型 1.5 系列產(chǎn)品線包括:

Doubao-1.5-pro:多項(xiàng)基準(zhǔn)測試綜合得分優(yōu)于 GPT-4o、Claude 3.5 Sonnet 等業(yè)界一流模型,創(chuàng)歷史最佳成績

Doubao-1.5-lite:用輕量級(jí)成本實(shí)現(xiàn)旗艦級(jí)性能,綜合性能持平或超越 GPT-4omini,Cluade 3.5 Haiku。

Doubao-1.5-vision-pro:定位專業(yè)視覺理解模型,在保持強(qiáng)大性能的同時(shí),回復(fù)更簡潔友好,多模態(tài)能力超越了 GPT-4o-0806

Doubao-1.5-realtime-voice-pro:真正實(shí)現(xiàn)端到端語音對(duì)話,具備低時(shí)延、對(duì)話中可隨時(shí)打斷、自然的情緒表達(dá)等特性,即將開放 API 服務(wù)

字節(jié)團(tuán)隊(duì)告訴 APPSO,Doubao-1.5-pro 目前已經(jīng)在豆包 APP 灰度上線,由于對(duì)話是先接意圖識(shí)別,所以用戶大概率沒法確定在使用時(shí)是否分流到 1.5 Pro,不過開發(fā)者也可在火山引擎直接調(diào)用 API。

附上體驗(yàn)鏈接:https://www.volcengine.com/

漂亮的參數(shù)背后是否有真材實(shí)料?我們也第一時(shí)間在火山引擎體驗(yàn)了豆包大模型 1.5 系列。

先來看看 Doubao-1.5-pro-32k 模型。盡管「9.11 和 9.8 哪個(gè)大」以及「Strawberry 里有幾個(gè) r」已經(jīng)是常規(guī)測試環(huán)節(jié)了,但我們還是要走一遍流程,而模型都順利通過了考驗(yàn)。

接下來,我們向模型提出了一個(gè)較有挑戰(zhàn)性的問題——尋找古代名人中姓名末字與「峰」字發(fā)音接近的例子。

前半部分答案稱得上出色,起碼「翁」精確識(shí)別了與「峰」字發(fā)音相近的韻母(eng、ong),但后半段的關(guān)聯(lián)性則較為牽強(qiáng)。

繼續(xù)上一道電車難題,這個(gè)涉及道德倫理的經(jīng)典思考題,考驗(yàn)的不僅是模型的邏輯分析能力,更是其對(duì)復(fù)雜道德議題的理解深度。

而 Doubao-1.5-pro-32k 并沒有簡單給出答案,分析深入透徹,指出這類問題并無標(biāo)準(zhǔn)答案,不同的道德觀念和個(gè)人價(jià)值觀會(huì)導(dǎo)致不同的決策。

在完成上述測試后,我們將目光轉(zhuǎn)向了更強(qiáng)大的 Doubao-1.5-pro-256k 模型。

這是一款基于 Doubao-1.5-Pro 全面升級(jí)版的模型,整體效果大幅提升 10%,支持 256k 上下文窗口的推理,輸出長度支持最大 12k tokens。

為測試其解題能力,我們提出了一個(gè)古早的經(jīng)典邏輯推理題,它的回答再次展現(xiàn)出了清晰的思維邏輯。

「據(jù)說有人給酒肆的老板娘出了一個(gè)難題:此人明明知道店里只有兩個(gè)舀酒的勺子,分別能舀 7 兩和 11 兩酒,卻硬要老板娘賣給他 2 兩酒。聰明的老板娘毫不含糊,用這兩個(gè)勺子在酒缸里舀酒,并倒來倒去,居然量出了 2 兩酒,請(qǐng)問是怎么做到的?」

那文本功底如何呢?我們也讓它創(chuàng)作一出劇本。題材是 2015 年 44 歲的埃隆·馬斯克與前 Google CEO 拉里·佩奇關(guān)于「AI 是否最終會(huì)取代人類」的對(duì)話。

與 GPT-4o 的回答相比,Doubao-1.5-pro-256k 的劇本創(chuàng)作更加細(xì)膩生動(dòng),不僅有具體的景別設(shè)計(jì)、畫面描述,還包含了細(xì)致的臺(tái)詞和時(shí)長安排。

如果你是一位經(jīng)常需要編寫劇本的創(chuàng)作者,那選誰作為你的劇本創(chuàng)作搭子應(yīng)該不用多說了吧。

而這種出色的創(chuàng)作能力,僅僅是豆包實(shí)力的一個(gè)縮影。實(shí)際上,此次更新中,Doubao-1.5-pro 基礎(chǔ)模型能力獲得全面提升,這一點(diǎn)從其在各大公開評(píng)測基準(zhǔn)上的表現(xiàn)就可見一斑。

Doubao-1.5-pro 采用稀疏 MoE 架構(gòu)實(shí)現(xiàn)了多項(xiàng)技術(shù)突破:通過深入研究稀疏度 Scaling Law,將性能杠桿從業(yè)界普遍的 3 倍提升至 7 倍,用僅占稠密模型七分之一的參數(shù)量就超越了 Llama-3.1-405B 等大模型的性能。

在訓(xùn)練流程上,團(tuán)隊(duì)堅(jiān)持完全自主的數(shù)據(jù)標(biāo)注路線,通過算法驅(qū)動(dòng)的數(shù)據(jù)優(yōu)化系統(tǒng)和 Verifier 與 Reward Model 的深度融合,建立了統(tǒng)一的評(píng)價(jià)框架。

豆包選擇了一條最艱難但最踏實(shí)的那條路,這也是這次技術(shù)突破值得夸贊的地方。

據(jù)悉,字節(jié)研究團(tuán)隊(duì)通過高效標(biāo)注團(tuán)隊(duì)與模型自提升相結(jié)合的方式持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量,嚴(yán)格遵循內(nèi)部標(biāo)準(zhǔn),不使用任何其他模型的數(shù)據(jù),確保數(shù)據(jù)來源的獨(dú)立性和可靠性。

并且,在 RL 階段突破了價(jià)值函數(shù)訓(xùn)練難點(diǎn),高難度任務(wù)性能提升超過 10 個(gè)百分點(diǎn),并通過用戶反饋閉環(huán)持續(xù)優(yōu)化模型表現(xiàn)。這些創(chuàng)新使模型在保持高性能的同時(shí)大幅提升了效率。

Doubao-1.5-pro 在多模態(tài)能力上實(shí)現(xiàn)了全面升級(jí),通過原生動(dòng)態(tài)分辨率架構(gòu)支持百萬級(jí)分辨率和任意長寬比圖像處理,實(shí)現(xiàn)了精準(zhǔn)的特征提取。

豆包團(tuán)隊(duì)自研的支持動(dòng)態(tài)分辨率的 Doubao ViT 在多種視覺分類任務(wù)中表現(xiàn)優(yōu)異,僅憑 2.4B 規(guī)模便在綜合評(píng)分上取得 SOTA 表現(xiàn),效果超越 7 倍于自身規(guī)模的模型。

在數(shù)據(jù)訓(xùn)練方面,模型采用了多樣化的合成管線,結(jié)合搜索引擎的圖文數(shù)據(jù)、渲染引擎和傳統(tǒng) CV 模型等多種方式生成高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。

通過在 VLM 訓(xùn)練階段混入純文本數(shù)據(jù)并動(dòng)態(tài)調(diào)整學(xué)習(xí)率,模型實(shí)現(xiàn)了視覺和語言能力的平衡。

在語音領(lǐng)域,團(tuán)隊(duì)創(chuàng)新性地提出了 Speech2Speech 端到端框架,突破了傳統(tǒng) ASR+LLM+TTS 的級(jí)聯(lián)模式,將語音和文本模態(tài)進(jìn)行深度融合,顯著提升了對(duì)話效果。

Doubao-1.5-pro 在語音和推理能力上取得重大突破:模型創(chuàng)新性地將語音和文本 Token 直接融合,摒棄了傳統(tǒng)的語音文本對(duì)齊方法,為語音多模態(tài)數(shù)據(jù)的 Scaling 奠定基礎(chǔ)。

在推理領(lǐng)域,通過大規(guī)模 RL 方法和 Test Time Scaling 的算力優(yōu)化,團(tuán)隊(duì)研發(fā)出 Doubao 深度思考模式。

最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基準(zhǔn)測試中已超越 o1-preview、o1 等主流推理模型,通過持續(xù)的 RL 優(yōu)化,模型的推理能力在多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的泛化性。

從這一系列突破性進(jìn)展來看,豆包無疑交出了一份令人滿意的答卷。更何況,在當(dāng)前「模型喂模型」盛行的環(huán)境下,堅(jiān)持原創(chuàng)的定力和勇氣本身就值得贊賞。

通過始終如一的自主研發(fā)、原創(chuàng)數(shù)據(jù)和持續(xù)優(yōu)化,豆包用實(shí)際成果證明了「慢工出細(xì)活」的價(jià)值。或許我們都應(yīng)該牢記,AI 賽道最大的彎道超車,應(yīng)該是堅(jiān)持不走捷徑。

文章來源:APPSO

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部