開源推理大模型新架構(gòu)來了,采用與Deepseek-R1/OpenAI o1截然不同的路線: 拋棄長思維鏈和人類的語言,直接在連續(xù)的高維潛空間用隱藏狀態(tài)推理,可自適應(yīng)地花費(fèi)更多計(jì)算來思考更長時間。 例如問題:Claire每天早餐都會做一個3個雞蛋的煎蛋卷。她在4周內(nèi)會吃多少個雞蛋? 從新模型Huginn的思考軌跡可視化中,可以看到對數(shù)字3等重要token不斷旋轉(zhuǎn),最終收斂到正確答案對應(yīng)的位置,但在不關(guān)鍵的人物名字Cla-ire上沒有這個現(xiàn)象。 除旋轉(zhuǎn)之外還能觀察到更多豐富的幾何模式,研究團(tuán)隊(duì)認(rèn)為這表明該模型正在獨(dú)立學(xué)習(xí)利用潛空間的高維性質(zhì)以新的方式做推理。 由于不使用長思維鏈推理范式,新方法還有幾個額外優(yōu)勢: 不需要任何專門的訓(xùn)練數(shù)據(jù) 可以在很小的上下文窗口下工作 能捕捉到難以用語言表達(dá)的推理類型 研究來自馬克思普朗克研究所、馬里蘭大學(xué)等團(tuán)隊(duì),他們使用美國橡樹嶺實(shí)驗(yàn)室的Frontier超算完成訓(xùn)練實(shí)驗(yàn),用到8個AMD GPU節(jié)點(diǎn)(4096塊GPU),沒有使用英偉達(dá)體系。 新架構(gòu)給Transformer加入循環(huán)模塊 新架構(gòu)仍然圍繞Decoder-only的Transformer block構(gòu)建,但分為三段: Prelude(前奏):使用多個transformer層將輸入數(shù)據(jù)嵌入到潛空間中 Recurrent Block(循環(huán)塊):循環(huán)計(jì)算單元,在潛在空間中修改狀態(tài) Coda(尾聲):從潛空間解碼,并包含模型的預(yù)測頭 在訓(xùn)練期間為每個輸入序列分配隨機(jī)數(shù)量的迭代次數(shù)。同時為了在訓(xùn)練時保持較低的計(jì)算和內(nèi)存,只反向傳播循環(huán)單元的最后k次迭代。 研究中可視化了模型在潛在空間中的推理軌跡,發(fā)現(xiàn)了這些有趣現(xiàn)象: 對一些簡單token,模型的隱狀態(tài)會快速收斂到穩(wěn)定點(diǎn) 但對一些關(guān)鍵token,如數(shù)學(xué)問題中的數(shù)字”3”,隱狀態(tài)會形成復(fù)雜的圓形軌道 還有一些token的隱狀態(tài)會沿特定方向”滑動”,可能用于計(jì)數(shù)循環(huán)次數(shù)
論文一作Jonas Geiping透露,他們的算力只夠一次大規(guī)模訓(xùn)練,也就是最后發(fā)布的3.5B參數(shù)的Huginn模型,在800B tokens數(shù)據(jù)上預(yù)訓(xùn)練。 沒有post/mid-training過程,但可以與7B參數(shù)、在2-3T tokens數(shù)據(jù)上訓(xùn)練的開源模型能力相匹配。 另外算上循環(huán)模塊中的計(jì)算,3.5B參數(shù)的模型訓(xùn)練時的計(jì)算量相當(dāng)于傳統(tǒng)的32B模型。 有人猜測OpenAI o3使用了類似的方法,通過循環(huán)來達(dá)到近似無限上下文,并且控制高中低三種推理時間設(shè)置。 有OpenAI研究員已經(jīng)注意到這個工作,把論文讀完了還在線捉bug。 也已經(jīng)有人準(zhǔn)備根據(jù)DeepSeek-R1開源的方法嘗試新思路,同時保留潛空間思考的推理能力,和CoT思考的可讀性。 論文: 參考鏈接: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選
在一個月前的CES 2025中,松下還帶來了Mini LED Z95B等一系列電視機(jī)型。但僅相隔一個月,松下就再次帶來了一條重磅消息。2月4日,松下控股公司表示將會啟動大規(guī)模改革,將白色家電、空調(diào)、照明等業(yè)務(wù)重組并拆分為三家獨(dú)立子公司。而在其中,社長兼集團(tuán)CEO楠見雄規(guī)表示,盡管公司尚未決定出售電視業(yè)務(wù),但“如果有必要,我們已做好出售的準(zhǔn)備”。