首頁 > 科技要聞 > 科技> 正文

32B擊敗DeepSeek-R1、o3-mini,成本暴降100倍!GRPO讓小模型稱霸推理

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-16 20:59

用上DeepSeek核心算法,也能擊敗R1。

在具有挑戰(zhàn)性的「時間線索」(Temporal Clue)邏輯謎題中,基于強化學(xué)習(xí)微調(diào)后的Qwen 2.5 32B,推理能力完全碾壓o1、o3-mini、R1。

甚至,它還追平了Claude 3.7 Sonnet,整個模型推理成本暴降100多倍!

「時間線索」邏輯謎題脫胎于經(jīng)典桌游Clue,并加入了when、why的兩個全新維度,堪稱邏輯推理的「珠穆朗瑪峰」。

它不僅能考驗?zāi)P突就评砟芰,更爆料頂級大模型軟肋?/span>

對此,前谷歌工程師,初創(chuàng)OpenPipe聯(lián)創(chuàng)Kyle Corbitt和團隊將其作為模型的「終極試煉場」,提出了一個大膽的假設(shè)——

小模型在復(fù)雜推理任務(wù)中,能否逆襲,達到或超越頂尖LLM?

他們選用開源的Qwen模型(14B和32B),通過GRPO強化學(xué)習(xí),對其進行了魔鬼式訓(xùn)練。

如前所見,這些小模型的推理性能,得到了顯著提升。

但震撼遠不止于此,團隊還發(fā)現(xiàn)了一些奇怪的現(xiàn)象:Qwen 14B的推理長度隨時間「隨機」增加,而Qwen 32B的推理長度卻在減少。

而且,這一切竟發(fā)生在獎勵機制完全不涉及長度的情況下。

傳統(tǒng)觀念認為,只有參數(shù)量足夠大的LLM,才能稱霸推理任務(wù)。

但這個最新證明,即便是14B/32B小而精的模型,用上巧妙的優(yōu)化策略——GRPO,同樣能站上巔峰。

網(wǎng)友評論區(qū)追問,QWQ 32B也有效嗎?

Kyle肯定道,那是一定的,它與Qwen 2.5 32B采用了同一個架構(gòu)。

AI推理新戰(zhàn)場:時間線索

去年,OpenAI推出劃時代o系列推理模型以來,在AI界掀起了一場強化學(xué)習(xí)(RL)的狂潮。

谷歌DeepMind、阿里、DeepSeek、Anthropic等巨頭紛紛入局,打造出進行長鏈?zhǔn)剿季S(CoT)推理的高級模型。

許多以往具有挑戰(zhàn)性的基準(zhǔn)測試——如數(shù)學(xué)和編碼領(lǐng)域——如今已接近飽和。

然而,即便是如今最頂尖模型,面對邏輯推理這塊硬骨頭,也常常會犯低級錯誤。

為此,OpenPipe兩位聯(lián)創(chuàng)決定挑戰(zhàn)這個未解之謎——用RL微調(diào)后的小模型,去挑戰(zhàn)復(fù)雜推理題。

基準(zhǔn)測試

為此,研究人員基于桌游Clue,打造了一個新基準(zhǔn)——時間線索,將其轉(zhuǎn)化為一個單人邏輯謎題,超越了傳統(tǒng)維度(who、what、where)。

這些謎題通過OR-Tools 的 CP-SAT 求解器隨機生成,并挑選出最精簡,卻致命的線索:

在一個寒冷的冬夜,富有且神秘的John Q. Boddy先生為幾位親密伙伴舉辦了一場小型但奢華的晚宴。然而,夜晚以悲劇收場——清晨,Boddy先生被發(fā)現(xiàn)死在都鐸莊園的某個房間內(nèi)。以下為涉案嫌疑人名單…

把子有了之后,研究人員先對頂尖大模型進行了測試,包括DeepSeek-R1、o1、o3-mini,以及Claude Sonnet 3.7,以及開源的Qwen 14B和32B。

結(jié)果如下圖所示,有64k token思考預(yù)算的Claude Sonnet 3.7,表現(xiàn)最優(yōu)。

開源DeepSeek-R1幾乎與o1、o3-mini性能相當(dāng)。然而,未經(jīng)調(diào)優(yōu)的Qwen 2.5 Instruct模型表現(xiàn)平平。

那么,如何將這些較小的開源模型訓(xùn)練到前沿水平?

小模型逆襲秘訣:GRPO

答案就是,強化學(xué)習(xí)——允許智能體在受控環(huán)境中從自身經(jīng)驗中學(xué)習(xí)。

這里,LLM是智能體,而謎題則是環(huán)境。

研究人員通過讓LLM為每個謎題生成多個響應(yīng)來引導(dǎo)它們的學(xué)習(xí),探索問題的空間。并且,強化那些導(dǎo)向正確答案的推理,并對導(dǎo)致模型偏離正確路徑的推理進行懲罰。

在多種RL方法中,他們選擇了由DeepSeek開發(fā)的流行的GRPO算法。與傳統(tǒng)的PPO等方法相比,GRPO簡化了訓(xùn)練過程,同時仍能提供強大的性能。

為了加速實驗,團隊省略了Kullback-Leibler(KL)散度懲罰。

從高層次來看,模型的訓(xùn)練循環(huán)遵循以下基本步驟:

生成模型對謎題任務(wù)的響應(yīng)

對響應(yīng)進行評分,并估計每組對話完成的優(yōu)勢(這是GRPO中「分組相對比較」的部分)

使用由這些優(yōu)勢估計指導(dǎo)的裁剪策略梯度對模型進行微調(diào)

使用新的謎題和最新版本的模型重復(fù)這些步驟,直到達到峰值性能

在生成響應(yīng)時,研究人員使用了流行的vLLM推理引擎,通過調(diào)整了參數(shù)選擇,以最大化吞吐量并最小化啟動時間。

Prefix caching尤為重要,因為作者為每個任務(wù)采樣了許多響應(yīng),緩存提示有助于避免冗余計算。

他們觀察到,向vLLM發(fā)送過多請求,會導(dǎo)致正在進行中的請求被搶占或交換。

為了解決這個問題,他們使用信號量(semaphore)限制請求,以保持高KV緩存利用率,同時最小化交換。

更高級的調(diào)度機制可能會在支持靈活生成長度的同時,進一步提高利用率。

在采樣后,研究人員使用標(biāo)準(zhǔn)的HuggingFace Transformers AutoTokenizer處理完成內(nèi)容。

其聊天模板功能將消息對象渲染為提示字符串,并包含一個助手掩碼(assistant mask),用于確定LLM生成的token。

他們發(fā)現(xiàn)模型的默認模板中,缺少必要的「% generation %」標(biāo)簽 ,因此在分詞步驟中對其進行了修改。

生成的助手掩碼被包含在用于微調(diào)的張量字典中,以識別哪些位置需要計算損失。

在分詞響應(yīng)并獲取助手掩碼后,研究人員對數(shù)據(jù)進行打包以進行微調(diào)。除了在每個打包序列中包含多個提示/響應(yīng)對外,我們還識別了共享的提示token,并為每個token分配了一個Parent ID,以及Group ID。

特別是對于像「時間線索」這樣的任務(wù)——每個謎題平均超過1,000個token——為每個任務(wù)生成大量響應(yīng)并高效打包張量顯著減少了冗余。

一旦打包了所有必要信息,便可以將訓(xùn)練數(shù)據(jù)集可視化為2D形式,每一行都是一個token序列,可能包含多個提示和完成內(nèi)容:

有了緊密打包的數(shù)據(jù)后,就可以開始微調(diào)了。

Qwen模型已經(jīng)經(jīng)過了預(yù)訓(xùn)練和指令微調(diào),具備相當(dāng)?shù)闹悄芩,并且擅長遵循指令。

然而,它們還無法可靠地解決「時間線索」謎題。盡管如此,它們偶爾也能成功,而這已經(jīng)足夠了。

通過增加良好推理的概率并減少「不良」推理的概率,研究人員逐步將模型引導(dǎo)至「偵探大師」級的水平。

他們使用標(biāo)準(zhǔn)的機器學(xué)習(xí)技術(shù)實現(xiàn)了這一點,采用策略梯度方法計算損失并有益地調(diào)整權(quán)重。

在訓(xùn)練過程中,他們使用了PyTorch團隊提供的torchtune庫。Torchtune為包括Llama、Gemma、Phi等流行模型提供了高效的僅解碼器(decoder-only)Transformer實現(xiàn)。

雖然在這個項目中,他們主要使用了Qwen模型,但也對8B和70B的Llama模型進行了實驗。

Torchtune還提供了節(jié)省內(nèi)存和提升性能的工具,包括:

激活檢查點(Activation Checkpointing)

激活卸載(Activation Offloading)

量化(Quantization)

參數(shù)高效微調(diào)(PEFT),例如低秩適應(yīng)(LoRA)

此外,Torchtune支持多設(shè)備(以及現(xiàn)在的多節(jié)點)訓(xùn)練,使其非常適合更大的模型。它支持全分片數(shù)據(jù)并行(FSDP)和張量并行(TP)訓(xùn)練,并且可以結(jié)合使用。

他們還提供了十幾種訓(xùn)練recipes,鼓勵用戶復(fù)制并根據(jù)自己的用例進行定制。研究人員在此創(chuàng)建了一個修改版的完整微調(diào)配方,支持以下功能:

多設(shè)備和單設(shè)備訓(xùn)練

參考模型加載和權(quán)重交換,用于計算KL散度

使用組ID和父ID進行高級因果掩碼計算

GRPO損失集成和組件日志記錄

未來,他們希望添加張量并行支持,并探索PEFT和量化。

RL訓(xùn)練過程涉及選擇大量的超參數(shù)。在訓(xùn)練模型時,研究人員測試了各種配置,并最終確定了以下設(shè)置:

模型:Qwen 2.5 Instruct 14B和32B

每次迭代的任務(wù)數(shù):32

每次迭代每個任務(wù)的樣本數(shù):50

每次迭代的總樣本數(shù):32*50=1600

學(xué)習(xí)率:6e-6

Micro-Batch大。14B模型為4個序列,32B模型為8個序列

批大。嚎勺,取決于序列數(shù)量

批大小是可變的,因為在訓(xùn)練過程中響應(yīng)長度可能會變化,序列打包效率每次迭代都會波動,并且優(yōu)勢為零的響應(yīng)會被丟棄。

在一次實驗中,研究人員嘗試了動態(tài)調(diào)整學(xué)習(xí)率,使其與批大小成反比,但這導(dǎo)致小批大小的學(xué)習(xí)率過高,需要設(shè)置上限。

設(shè)置上限后的版本與使用恒定學(xué)習(xí)率沒有顯著差異,但調(diào)整批大小和學(xué)習(xí)率仍然是未來實驗的一個有趣方向。

此外,研究人員還進行了簡短的實驗,增加每次迭代的任務(wù)數(shù)同時減少每個任務(wù)的樣本數(shù),反之亦然,保持每次迭代的總樣本數(shù)大致相同。

在較短的訓(xùn)練時間內(nèi),這些變化沒有顯示出顯著差異,表明配方對任務(wù)數(shù)和每個任務(wù)的樣本數(shù)之間的不同平衡具有魯棒性。

100次迭代,實現(xiàn)SOTA

結(jié)果顯示,模型在經(jīng)歷超過100次迭代訓(xùn)練后,實現(xiàn)了SOTA級的演繹推理能力。

從下圖中可以看到,模型的性能在訓(xùn)練初期迅速提升,并在之后逐漸放緩;然而到了末期,準(zhǔn)確率卻開始出現(xiàn)退化,甚至急劇下降。

在最佳狀態(tài)下,14B模型在16k tokens的上下文窗口下接近Claude Sonnet 3.7的性能,而32B模型在更大的64k上下文容量下幾乎匹配了Sonnet的結(jié)果。

訓(xùn)練過程中,性能提升遵循冪律分布,在對數(shù)-對數(shù)坐標(biāo)圖上呈現(xiàn)線性關(guān)系(在性能開始下降之前)。

研究人員推測,之所以出現(xiàn)這種現(xiàn)象,有可能是因為模型過早地收斂于初期就有效的貪婪策略,從而限制了長期的發(fā)展?jié)摿Α?/span>

此外,還可以觀察到,輸出的長度在訓(xùn)練期間也呈現(xiàn)出了一種有趣的變化模式。

剛開始的時候響應(yīng)長度會逐步增加,然后趨于穩(wěn)定;而在訓(xùn)練后期,則出現(xiàn)了明顯的分化現(xiàn)象——14B模型的響應(yīng)變得更長,而32B模型的響應(yīng)長度顯著減少,特別是在達到峰值性能后。

為了定性評估邏輯推理能力的提升,團隊決定使用最新的Claude Sonnet 3.7來對Qwen 32B模型的解謎推理能力進行分析。

在未經(jīng)訓(xùn)練的基礎(chǔ)模型中,Sonnet識別出了6個推理結(jié)論,其中5個被判定為錯誤

在經(jīng)過100多次迭代訓(xùn)練后的模型中,Sonnet識別出了7個推理結(jié)論,其中6個被判定為符合邏輯

接下來,團隊根據(jù)Fireworks AI的無服務(wù)器定價方案估算了Qwen模型的成本。(假設(shè)能獲得足夠的計算吞吐量)

通過將準(zhǔn)確率與每個響應(yīng)平均推理成本的自然對數(shù)進行對比,團隊發(fā)現(xiàn),沒有經(jīng)過微調(diào)的模型存在著明顯的線性帕累托最優(yōu)前沿(表示在這條曲線上,無法同時提高準(zhǔn)確率和降低成本)。

而團隊提出的方法,不僅將開源模型訓(xùn)練到了SOTA級的準(zhǔn)確率,而且還極大地改善了成本與準(zhǔn)確率之間的權(quán)衡關(guān)系。

值得一提的是,團隊還在最后為大家留了一個特別令人興奮的發(fā)現(xiàn)——僅使用16個訓(xùn)練樣例就能實現(xiàn)高達10-15%的顯著性能提升。

這意味著,不需要大量數(shù)據(jù)即可開始,開發(fā)者只需對自己想解決的問題有一些基本的直覺認識即可。

在文章的最后,團隊寫道:

隨著工作的圓滿完成,我們彼此相視一笑,隨即叫了一輛雙輪馬車返回貝克街——這里正是復(fù)盤「案情」的絕佳場所。

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部