首頁 > 科技要聞 > 科技> 正文

32B擊敗DeepSeek-R1、o3-mini,成本暴降100倍!GRPO讓小模型稱霸推理

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-16 20:59

用上DeepSeek核心算法,也能擊敗R1。

在具有挑戰(zhàn)性的「時間線索」(Temporal Clue)邏輯謎題中,基于強化學習微調(diào)后的Qwen 2.5 32B,推理能力完全碾壓o1、o3-mini、R1。

甚至,它還追平了Claude 3.7 Sonnet,整個模型推理成本暴降100多倍!

「時間線索」邏輯謎題脫胎于經(jīng)典桌游Clue,并加入了when、why的兩個全新維度,堪稱邏輯推理的「珠穆朗瑪峰」。

它不僅能考驗模型基本推理能力,更爆料頂級大模型軟肋。

對此,前谷歌工程師,初創(chuàng)OpenPipe聯(lián)創(chuàng)Kyle Corbitt和團隊將其作為模型的「終極試煉場」,提出了一個大膽的假設——

小模型在復雜推理任務中,能否逆襲,達到或超越頂尖LLM?

他們選用開源的Qwen模型(14B和32B),通過GRPO強化學習,對其進行了魔鬼式訓練。

如前所見,這些小模型的推理性能,得到了顯著提升。

但震撼遠不止于此,團隊還發(fā)現(xiàn)了一些奇怪的現(xiàn)象:Qwen 14B的推理長度隨時間「隨機」增加,而Qwen 32B的推理長度卻在減少。

而且,這一切竟發(fā)生在獎勵機制完全不涉及長度的情況下。

傳統(tǒng)觀念認為,只有參數(shù)量足夠大的LLM,才能稱霸推理任務。

但這個最新證明,即便是14B/32B小而精的模型,用上巧妙的優(yōu)化策略——GRPO,同樣能站上巔峰。

網(wǎng)友評論區(qū)追問,QWQ 32B也有效嗎?

Kyle肯定道,那是一定的,它與Qwen 2.5 32B采用了同一個架構。

AI推理新戰(zhàn)場:時間線索

去年,OpenAI推出劃時代o系列推理模型以來,在AI界掀起了一場強化學習(RL)的狂潮。

谷歌DeepMind、阿里、DeepSeek、Anthropic等巨頭紛紛入局,打造出進行長鏈式思維(CoT)推理的高級模型。

許多以往具有挑戰(zhàn)性的基準測試——如數(shù)學和編碼領域——如今已接近飽和。

然而,即便是如今最頂尖模型,面對邏輯推理這塊硬骨頭,也常常會犯低級錯誤。

為此,OpenPipe兩位聯(lián)創(chuàng)決定挑戰(zhàn)這個未解之謎——用RL微調(diào)后的小模型,去挑戰(zhàn)復雜推理題。

基準測試

為此,研究人員基于桌游Clue,打造了一個新基準——時間線索,將其轉(zhuǎn)化為一個單人邏輯謎題,超越了傳統(tǒng)維度(who、what、where)。

這些謎題通過OR-Tools 的 CP-SAT 求解器隨機生成,并挑選出最精簡,卻致命的線索:

在一個寒冷的冬夜,富有且神秘的John Q. Boddy先生為幾位親密伙伴舉辦了一場小型但奢華的晚宴。然而,夜晚以悲劇收場——清晨,Boddy先生被發(fā)現(xiàn)死在都鐸莊園的某個房間內(nèi)。以下為涉案嫌疑人名單…

把子有了之后,研究人員先對頂尖大模型進行了測試,包括DeepSeek-R1、o1、o3-mini,以及Claude Sonnet 3.7,以及開源的Qwen 14B和32B。

結(jié)果如下圖所示,有64k token思考預算的Claude Sonnet 3.7,表現(xiàn)最優(yōu)。

開源DeepSeek-R1幾乎與o1、o3-mini性能相當。然而,未經(jīng)調(diào)優(yōu)的Qwen 2.5 Instruct模型表現(xiàn)平平。

那么,如何將這些較小的開源模型訓練到前沿水平?

小模型逆襲秘訣:GRPO

答案就是,強化學習——允許智能體在受控環(huán)境中從自身經(jīng)驗中學習。

這里,LLM是智能體,而謎題則是環(huán)境。

研究人員通過讓LLM為每個謎題生成多個響應來引導它們的學習,探索問題的空間。并且,強化那些導向正確答案的推理,并對導致模型偏離正確路徑的推理進行懲罰。

在多種RL方法中,他們選擇了由DeepSeek開發(fā)的流行的GRPO算法。與傳統(tǒng)的PPO等方法相比,GRPO簡化了訓練過程,同時仍能提供強大的性能。

為了加速實驗,團隊省略了Kullback-Leibler(KL)散度懲罰。

從高層次來看,模型的訓練循環(huán)遵循以下基本步驟:

生成模型對謎題任務的響應

對響應進行評分,并估計每組對話完成的優(yōu)勢(這是GRPO中「分組相對比較」的部分)

使用由這些優(yōu)勢估計指導的裁剪策略梯度對模型進行微調(diào)

使用新的謎題和最新版本的模型重復這些步驟,直到達到峰值性能

在生成響應時,研究人員使用了流行的vLLM推理引擎,通過調(diào)整了參數(shù)選擇,以最大化吞吐量并最小化啟動時間。

Prefix caching尤為重要,因為作者為每個任務采樣了許多響應,緩存提示有助于避免冗余計算。

他們觀察到,向vLLM發(fā)送過多請求,會導致正在進行中的請求被搶占或交換。

為了解決這個問題,他們使用信號量(semaphore)限制請求,以保持高KV緩存利用率,同時最小化交換。

更高級的調(diào)度機制可能會在支持靈活生成長度的同時,進一步提高利用率。

在采樣后,研究人員使用標準的HuggingFace Transformers AutoTokenizer處理完成內(nèi)容。

其聊天模板功能將消息對象渲染為提示字符串,并包含一個助手掩碼(assistant mask),用于確定LLM生成的token。

他們發(fā)現(xiàn)模型的默認模板中,缺少必要的「% generation %」標簽 ,因此在分詞步驟中對其進行了修改。

生成的助手掩碼被包含在用于微調(diào)的張量字典中,以識別哪些位置需要計算損失。

在分詞響應并獲取助手掩碼后,研究人員對數(shù)據(jù)進行打包以進行微調(diào)。除了在每個打包序列中包含多個提示/響應對外,我們還識別了共享的提示token,并為每個token分配了一個Parent ID,以及Group ID。

特別是對于像「時間線索」這樣的任務——每個謎題平均超過1,000個token——為每個任務生成大量響應并高效打包張量顯著減少了冗余。

一旦打包了所有必要信息,便可以將訓練數(shù)據(jù)集可視化為2D形式,每一行都是一個token序列,可能包含多個提示和完成內(nèi)容:

有了緊密打包的數(shù)據(jù)后,就可以開始微調(diào)了。

Qwen模型已經(jīng)經(jīng)過了預訓練和指令微調(diào),具備相當?shù)闹悄芩,并且擅長遵循指令。

然而,它們還無法可靠地解決「時間線索」謎題。盡管如此,它們偶爾也能成功,而這已經(jīng)足夠了。

通過增加良好推理的概率并減少「不良」推理的概率,研究人員逐步將模型引導至「偵探大師」級的水平。

他們使用標準的機器學習技術實現(xiàn)了這一點,采用策略梯度方法計算損失并有益地調(diào)整權重。

在訓練過程中,他們使用了PyTorch團隊提供的torchtune庫。Torchtune為包括Llama、Gemma、Phi等流行模型提供了高效的僅解碼器(decoder-only)Transformer實現(xiàn)。

雖然在這個項目中,他們主要使用了Qwen模型,但也對8B和70B的Llama模型進行了實驗。

Torchtune還提供了節(jié)省內(nèi)存和提升性能的工具,包括:

激活檢查點(Activation Checkpointing)

激活卸載(Activation Offloading)

量化(Quantization)

參數(shù)高效微調(diào)(PEFT),例如低秩適應(LoRA)

此外,Torchtune支持多設備(以及現(xiàn)在的多節(jié)點)訓練,使其非常適合更大的模型。它支持全分片數(shù)據(jù)并行(FSDP)和張量并行(TP)訓練,并且可以結(jié)合使用。

他們還提供了十幾種訓練recipes,鼓勵用戶復制并根據(jù)自己的用例進行定制。研究人員在此創(chuàng)建了一個修改版的完整微調(diào)配方,支持以下功能:

多設備和單設備訓練

參考模型加載和權重交換,用于計算KL散度

使用組ID和父ID進行高級因果掩碼計算

GRPO損失集成和組件日志記錄

未來,他們希望添加張量并行支持,并探索PEFT和量化。

RL訓練過程涉及選擇大量的超參數(shù)。在訓練模型時,研究人員測試了各種配置,并最終確定了以下設置:

模型:Qwen 2.5 Instruct 14B和32B

每次迭代的任務數(shù):32

每次迭代每個任務的樣本數(shù):50

每次迭代的總樣本數(shù):32*50=1600

學習率:6e-6

Micro-Batch大。14B模型為4個序列,32B模型為8個序列

批大。嚎勺儯Q于序列數(shù)量

批大小是可變的,因為在訓練過程中響應長度可能會變化,序列打包效率每次迭代都會波動,并且優(yōu)勢為零的響應會被丟棄。

在一次實驗中,研究人員嘗試了動態(tài)調(diào)整學習率,使其與批大小成反比,但這導致小批大小的學習率過高,需要設置上限。

設置上限后的版本與使用恒定學習率沒有顯著差異,但調(diào)整批大小和學習率仍然是未來實驗的一個有趣方向。

此外,研究人員還進行了簡短的實驗,增加每次迭代的任務數(shù)同時減少每個任務的樣本數(shù),反之亦然,保持每次迭代的總樣本數(shù)大致相同。

在較短的訓練時間內(nèi),這些變化沒有顯示出顯著差異,表明配方對任務數(shù)和每個任務的樣本數(shù)之間的不同平衡具有魯棒性。

100次迭代,實現(xiàn)SOTA

結(jié)果顯示,模型在經(jīng)歷超過100次迭代訓練后,實現(xiàn)了SOTA級的演繹推理能力。

從下圖中可以看到,模型的性能在訓練初期迅速提升,并在之后逐漸放緩;然而到了末期,準確率卻開始出現(xiàn)退化,甚至急劇下降。

在最佳狀態(tài)下,14B模型在16k tokens的上下文窗口下接近Claude Sonnet 3.7的性能,而32B模型在更大的64k上下文容量下幾乎匹配了Sonnet的結(jié)果。

訓練過程中,性能提升遵循冪律分布,在對數(shù)-對數(shù)坐標圖上呈現(xiàn)線性關系(在性能開始下降之前)。

研究人員推測,之所以出現(xiàn)這種現(xiàn)象,有可能是因為模型過早地收斂于初期就有效的貪婪策略,從而限制了長期的發(fā)展?jié)摿Α?/span>

此外,還可以觀察到,輸出的長度在訓練期間也呈現(xiàn)出了一種有趣的變化模式。

剛開始的時候響應長度會逐步增加,然后趨于穩(wěn)定;而在訓練后期,則出現(xiàn)了明顯的分化現(xiàn)象——14B模型的響應變得更長,而32B模型的響應長度顯著減少,特別是在達到峰值性能后。

為了定性評估邏輯推理能力的提升,團隊決定使用最新的Claude Sonnet 3.7來對Qwen 32B模型的解謎推理能力進行分析。

在未經(jīng)訓練的基礎模型中,Sonnet識別出了6個推理結(jié)論,其中5個被判定為錯誤

在經(jīng)過100多次迭代訓練后的模型中,Sonnet識別出了7個推理結(jié)論,其中6個被判定為符合邏輯

接下來,團隊根據(jù)Fireworks AI的無服務器定價方案估算了Qwen模型的成本。(假設能獲得足夠的計算吞吐量)

通過將準確率與每個響應平均推理成本的自然對數(shù)進行對比,團隊發(fā)現(xiàn),沒有經(jīng)過微調(diào)的模型存在著明顯的線性帕累托最優(yōu)前沿(表示在這條曲線上,無法同時提高準確率和降低成本)。

而團隊提出的方法,不僅將開源模型訓練到了SOTA級的準確率,而且還極大地改善了成本與準確率之間的權衡關系。

值得一提的是,團隊還在最后為大家留了一個特別令人興奮的發(fā)現(xiàn)——僅使用16個訓練樣例就能實現(xiàn)高達10-15%的顯著性能提升。

這意味著,不需要大量數(shù)據(jù)即可開始,開發(fā)者只需對自己想解決的問題有一些基本的直覺認識即可。

在文章的最后,團隊寫道:

隨著工作的圓滿完成,我們彼此相視一笑,隨即叫了一輛雙輪馬車返回貝克街——這里正是復盤「案情」的絕佳場所。

本文來源:新智元

新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部