一篇多機構聯(lián)合發(fā)表的論文,在AI圈引起轟動。 憑借重新思考計算最優(yōu)的測試時Scaling,1B模型竟然超越了405B? 隨著OpenAI o1證明了測試時擴展(TTS)可以通過在推理時分配額外算力,大幅增強LLM的推理能力。測試時計算,也成為了當前提升大模型性能的最新范式。 那么,問題來了: 在不同的策略模型、過程獎勵模型和問題難度級別下,如何最優(yōu)地擴展測試時計算? 擴展計算在多大程度上可以提高大語言模型在復雜任務上的表現(xiàn),較小的語言模型能否通過這種方法實現(xiàn)對大型模型的超越? 對此,來自清華、哈工大、北郵等機構的研究人員發(fā)現(xiàn),使用計算最優(yōu)TTS策略,極小的策略模型也可以超越更大的模型—— 在MATH-500和AIME24上,0.5B模型的表現(xiàn)優(yōu)于GPT-4o;3B模型超越了405B模型;7B模型直接勝過o1和DeepSeek-R1,還具有更高的推理性能。 論文地址:https://arxiv.org/abs/2502.06703 這就表明,TTS是增強LLM推理能力的一種極有前途的方法。 同時,這也體現(xiàn)了研究真正的「弱到強」方法,而非當前的「強到弱」監(jiān)督,對策略優(yōu)化的重要性。 重新思考「計算最優(yōu)」的測試時Scaling 計算最優(yōu)的擴展策略應當是獎勵感知的計算最優(yōu)的測試時Scaling,旨在為每個問題分配最優(yōu)計算資源。 根據此前的研究,一種方法是使用單一的PRM作為驗證器在策略模型的響應上訓練PRM并將其用作驗證器,以對同一策略模型進行TTS;另一種方法則是使用在不同策略模型上訓練的PRM來進行TTS。 從強化學習(RL)的角度來看,前者獲得的是在線PRM,后者則是離線PRM。 在線PRM能為策略模型的響應產生更準確的獎勵,而離線PRM由于分布外(OOD)問題往往會產生不準確的獎勵。 對于計算最優(yōu)TTS的實際應用而言,為每個策略模型訓練一個用于防止OOD問題的PRM在計算上是昂貴的。 因此,研究人員在更一般的設置下研究計算最優(yōu)的TTS策略,即PRM可能是在與用于TTS的策略模型不同的模型上訓練的。 對于基于搜索的方法,PRM指導每個響應步驟的選擇,而對于基于采樣的方法,PRM在生成后評估響應。 這表明:(1)獎勵影響所有方法的響應選擇;(2)對于基于搜索的方法,獎勵還會影響搜索過程。 為分析這些要點,團隊使用Llama-3.1-8BInstruct作為策略模型,RLHFlow-PRM-Mistral-8B和RLHFlow-PRM-Deepseek-8B作為PRM,進行了一項初步的案例研究。 獎勵會顯著影響生成的過程和結果 RLHFlow-PRM-Mistral-8B對短響應給予高獎勵,卻產生了錯誤的答案;而使用RLHFlow-Deepseek-PRM-8B進行搜索雖然產生正確答案,但使用了更多token。 基于以上發(fā)現(xiàn),研究人員提出獎勵應該被整合到計算最優(yōu)的TTS策略中。將獎勵函數表示為ℛ,獎勵感知計算最優(yōu)TTS策略表述如下: 其中Target(, , , ℛ)表示在計算預算和提示詞條件下,由獎勵函數ℛ調整的策略模型輸出分布。對于基于采樣的擴展方法,Target(, , , ℛ) = Target(, , )。 這種獎勵感知策略確保計算最優(yōu)擴展能夠適應策略模型、提示詞和獎勵函數,從而為實際的TTS提供了一個更具普適性的框架。 絕對問題難度標準比分位數更有效團隊發(fā)現(xiàn),使用來自MATH的難度等級或基于Pass@1準確率分位數的oracle標簽并不有效,這是因為不同的策略模型存在不同的推理能力。 如下圖所示,Qwen2.5-72B-Instruct在76.2%的MATH-500問題上實現(xiàn)了超過80%的Pass@1準確率。 因此,團隊選擇使用絕對閾值,而不是分位數來衡量問題難度。即基于Pass@1準確率,定義三個難度等級:簡單(50%~100%)、中等(10%~50%)和困難(0%~10%)。 如何最優(yōu)地Scaling測試時計算? Q1:如何通過不同的策略模型和PRM來提升TTS?對于Llama-3.1-8B-Instruct模型,研究團隊使用Skywork和Qwen2.5-Math PRM的搜索方法在計算預算增加時性能顯著提升,而使用Math-Shepherd和RLHFlow PRM的搜索方法則效果較差。 對于Qwen2.5-7B-Instruct模型,使用Skywork-PRM-7B和Qwen2.5-Math PRM的搜索方法性能隨計算預算增加而提升,而使用其他的PRM性能仍然較差。 在AIME24數據集上,雖然兩個策略模型的Pass@k準確率隨著計算預算的增加而提高,但TTS的性能改進仍然有限。這表明PRM在不同策略模型和任務間的泛化能力是一個挑戰(zhàn),尤其是在更復雜的任務上。 研究團隊發(fā)現(xiàn)當使用Math-Shepherd和RLHFlow PRM時,Best-of-N (BoN) 方法通常優(yōu)于其他策略。而當使用Skywork和Qwen2.5-Math PRM時,基于搜索的方法表現(xiàn)更好。 這種差異可能源于PRM在處理OOD(超出分布)策略響應時效果不佳,因為PRM在不同策略模型間的泛化能力有限。使用OOD PRM進行每一步的選擇時可能會導致答案陷入局部最優(yōu),從而降低性能。 不過,PRM的基礎模型也可能是一個影響因素,例如,使用Qwen2.5-Math-7B-Instruct訓練的PRM比使用Mistral和Llama作為基礎模型的PRM泛化能力更好。 下圖4和5說明了PRM的選擇對于TTS的效果至關重要,并且最佳的TTS策略會隨著使用的PRM的不同而改變,同時驗證了PRM在不同策略模型和數據集之間的泛化能力也是一個挑戰(zhàn)。 研究團隊發(fā)現(xiàn),TTS的性能與PRM的過程監(jiān)督能力之間存在正相關。具體來說,PRM的過程監(jiān)督能力越強,其在TTS中通常能帶來更好的性能。 團隊擬合了一個函數來描述這種關系,結果說明了 PRM 的過程監(jiān)督能力對TTS性能的重要性。 下圖6表明,PRM的過程監(jiān)督能力是決定其在TTS中性能的關鍵因素。這為開發(fā)更有效的PRM提供了方向:應該注重提高PRM的過程監(jiān)督能力,而不僅僅是增加參數量。 為了得到最優(yōu)的TTS方法,研究中使用了Qwen2.5系列的不同大小LLM(從0.5B到72B)進行實驗。 結果顯示,對于小型策略模型,基于搜索的方法優(yōu)于BoN3。而對于大型策略模型,BoN比基于搜索的方法更有效。 這可能是因為大型模型具有更強的推理能力,不需要驗證器逐步選擇。而小型模型則依賴于驗證器來選擇每一步,以確保中間步驟的正確性。 下圖7表明最優(yōu)的TTS方法依賴于策略模型的大小,在選擇TTS方法時需要考慮模型的推理能力。 Q2:TTS在不同難度問題上的改進情況如何?如前所述,團隊基于Pass@1準確率的絕對值將難度級別分為三組:簡單(50%~100%)、中等(10%~50%)和困難(0%~10%)。 最優(yōu)的TTS方法隨難度級別的不同而變化,結果如下圖所示。 對于小規(guī)模策略模型(參數少于7B),BoN在簡單問題上表現(xiàn)更優(yōu),而束搜索在較難問題上效果更好。 對于參數在7B到32B之間的策略模型,DVTS在簡單和中等問題上表現(xiàn)出色,而束搜索更適合困難問題。 對于具有72B參數的策略模型,BoN是適用于所有難度級別的最佳方法。 上下滑動查看 Q3:偏好獎勵模型PRM是否對特定響應長度存在偏差或對投票方法敏感?PRM對步驟長度存在偏差研究團隊發(fā)現(xiàn),即使在實驗中使用相同的計算預算進行TTS,使用不同PRM在推理中產生的token數量差異顯著。 例如,在相同預算和相同策略模型的情況下,使用RLHFlow-PRM-Deepseek-8B進行擴展的推理token數量始終比使用RLHFlow-PRM-Mistral-8B多近2倍。 這種差異與 PRM 的訓練數據有關。RLHFlow系列PRM的訓練數據來自不同的大語言模型,這可能導致它對輸出長度產生偏差。 為了驗證這一觀點,研究團隊分析了RLHFlow-PRM-Mistral-8B3和RLHFlow-PRM-Deepseek-8B4訓練數據的幾個特性。 如表1所示,DeepSeek-PRM-Data的每個響應平均token數和每個步驟平均token數都大于Mistral-PRM-Data,這表明RLHFlow-PRM-Deepseek-8B的訓練數據比RLHFlow-PRM-Mistral-8B的更長。這可能導致對輸出長度的偏差。 研究團隊還發(fā)現(xiàn),使用Qwen2.5-Math-7B進行擴展的推理token數量大于使用Skywork-PRM-7B的數量,但性能非常接近,這表明使用Skywork-PRM-7B進行搜索更有效率。 PRM對投票方法具有敏感性從表2的結果可以看出,Skywork-PRM-7B使用PRM-Vote比使用PRM-Max效果更好,而Qwen2.5-Math-PRM-7B對投票方法不太敏感。 這主要是因為Qwen2.5-Math PRM的訓練數據經過了LLM-as-a-judge(將大語言模型作為判斷器)處理,該處理移除了訓練數據中被標記為正樣本的錯誤中間步驟,使得輸出的高獎勵值更可能是正確的。 這表明PRM的訓練數據對提升其在搜索過程中發(fā)現(xiàn)錯誤的能力具有重要意義。 「計算最優(yōu)」的測試時Sclaing 在計算最優(yōu)TTS策略下,研究人員就另外三大問題,進行了實驗評估。 Q4:較小的策略模型,能否在計算最優(yōu)TTS策略下優(yōu)于較大的模型?對小型策略模型進行測試時計算的擴展,對提升LLM的推理性能至關重要。 那么,較小的策略模型能否通過計算最優(yōu)的TTS策略,超越更大的模型,如GPT-4o、o1、DeepSeek-R1? 如下表3所示,研究人員得出了4點關鍵的洞察: 1. 采用計算最優(yōu)TTS策略后,在兩大數學基準MATH-500和AIME24上,Llama-3.2-3B-Instruct性能碾壓Llama-3.1-405B-Instruct。 從這點可以看出,較小模型通過計算最優(yōu)TTS策略,可超越大135倍的模型。 與此前谷歌Charlie Snell團隊等TTS相關研究相比,新方法將結果提升了487.0%(23倍→135倍)。 2. 將計算預算增加到N=512,同樣采用計算最優(yōu)TTS的Llama-3.2-1B-Instruct,在MATH-500基準上擊敗了Llama-3.1-405B-Instruct。 奇怪的是,在AIME24上,它的性能又不如Llama-3.1-405B-Instruct。 3. 采用計算最優(yōu)TTS,Qwen2.5-0.5B-Instruct、Llama-3.2-3B-Instruct均超越了GPT-4o。 這表明,小模型可以通過計算最優(yōu)TTS策略,也能一舉超越GPT級別的大模型。 4. 在同樣策略和基準下,DeepSeek-R1-Distill-Qwen-1.5B竟能碾壓o1-preview、o1-mini。 同時,DeepSeek-R1-Distill-Qwen-7B還能擊敗o1和DeepSeek-R1。 以上這些結果表明,經過推理增強的小模型可以,通過計算最優(yōu)TTS策略超越前沿推理大模型。 再來看下這些模型FLOPS比較,如下表4所示,小型策略模型即使在使用更少推理FLOPS的情況下,也能超越大型模型,并將總FLOPS減少了100-1000倍。 Q5:計算最優(yōu)TTS與CoT和多數投票相比有何改進?如下表5展示了,每個策略模型在MATH-500上的計算最優(yōu)TTS結果。 結果發(fā)現(xiàn),計算最優(yōu)TTS的效率可以比多數投票高256倍,并且相比CoT提升了154.6%的推理性能。 這些結果表明,計算最優(yōu)TTS顯著增強了LLM的推理能力。 然而,隨著策略模型參數數量的增加,TTS的改進效果逐漸減小。這表明,TTS的有效性與策略模型的推理能力直接相關。 具體來說,對于推理能力較弱的模型,Scaling測試時計算會帶來顯著改進;而對于推理能力較強的模型,提升效果則較為有限。 Q6:TTS是否比基于長CoT的方法更有效?如下表6所示,研究人員發(fā)現(xiàn),在MATH-500和AIME24基準上,使用Qwen2.5-7B-Instruct的TTS都優(yōu)于rStar-Math、Eurus-2、SimpleRL和Satori。 然而,雖然TTS在MATH-500上的表現(xiàn),接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上表現(xiàn)出明顯下降。 這些結果表明,TTS比直接在MCTS生成數據上,應用RL或SFT的方法更有效,但不如從強大的推理模型中進行蒸餾的方法有效。 另外,TTS在較簡單的任務上,比在更復雜的任務上更有效。 作者介紹 Runze Liu Runze Liu是清華大學深圳國際研究生院的二年級碩士生,導師是Xiu Li教授。他曾于2023年6月獲得山東大學的榮譽學士學位。 目前,他也在上海AI Lab大模型中心擔任研究實習生,由Biqing Qi博士指導。 Runze Liu的研究重點是大模型和強化學習(RL)。目前,他對提高大模型的推理和泛化能力特別感興趣,同時也在探索將大模型整合以增強RL算法的潛力,特別是在人類/AI反饋強化學習(RLHF/RLAIF)情況下。 參考資料: https://arxiv.org/abs/2502.06703 https://ryanliu112.github.io/compute-optimal-tts/ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網友評論
聚超值•精選