首頁 > 科技要聞 > 科技> 正文

一文讀懂|DeepSeek新模型大揭秘,為何它能震動全球AI圈

騰訊科技 整合編輯:趙凱松 發(fā)布于:2025-01-25 00:15

時隔不到一個月,DeepSeek又一次震動全球AI圈。

去年 12 月,DeepSeek推出的DeepSeek-V3在全球AI領(lǐng)域掀起了巨大的波瀾,它以極低的訓(xùn)練成本,實(shí)現(xiàn)了與GPT-4o和Claude Sonnet 3.5等頂尖模型相媲美的性能,震驚了業(yè)界。

騰訊科技曾對此模型進(jìn)行深度解讀,用最簡單直白的語言闡釋其實(shí)現(xiàn)低成本和高效能的技術(shù)背景(點(diǎn)擊可查看)

和上次不同的是,這次推出的新模型DeepSeek-R1不僅成本低,更是在技術(shù)上有了大福提升。

而且,它還是一個開源模型。

這款新模型延續(xù)了其高性價(jià)比的優(yōu)勢,僅用十分之一的成本就達(dá)到了GPT-o1級別的表現(xiàn)。

所以,很多業(yè)內(nèi)人士甚至喊出了“DeepSeek接班OpenAI”的口號。

比如,前Meta AI工作人員、知名AI論文推特作者Elvis就強(qiáng)調(diào),DeepSeek-R1的論文堪稱瑰寶,因?yàn)樗剿髁颂嵘笳Z言模型推理能力的多種方法,并發(fā)現(xiàn)了其中更明確的涌現(xiàn)特性。

另一位AI圈大V Yuchen Jin則認(rèn)為,DeepSeek-R1論文中提出的,模型利用純RL方法引導(dǎo)其自主學(xué)習(xí)和反思推理這一發(fā)現(xiàn),意義非常重大。

英偉達(dá)GEAR Lab項(xiàng)目負(fù)責(zé)人Jim Fan在推特中也提到了,DeepSeek-R1用通過硬編碼規(guī)則計(jì)算出的真實(shí)獎勵,而避免使用任何 RL 容易破解的學(xué)習(xí)獎勵模型。這使得模型產(chǎn)生了自我反思與探索行為的涌現(xiàn)。Jim Fan 甚至認(rèn)為,它們做了OpenAI本來應(yīng)該做的事,開源。

那么問題來了,他們所提到的純RL方法訓(xùn)練模型是指什么?模型出現(xiàn)的“Aha Moment”,又憑什么能證明AI具有了涌現(xiàn)能力?我們更想知道的是,DeepSeek-R1的這一重要創(chuàng)新對于AI領(lǐng)域未來的發(fā)展,究竟意味著什么?

用最簡單的配方,

回歸最純粹的強(qiáng)化學(xué)習(xí)

在o1推出之后,推理強(qiáng)化成了業(yè)界最關(guān)注的方法。

一般來說,一個模型在訓(xùn)練過程中只會嘗試一種固定訓(xùn)練方法來提升推理能力。

而DeepSeek團(tuán)隊(duì)在R1的訓(xùn)練過程中,直接一次性實(shí)驗(yàn)了三種截然不同的技術(shù)路徑:直接強(qiáng)化學(xué)習(xí)訓(xùn)練(R1-Zero)、多階段漸進(jìn)訓(xùn)練(R1)和模型蒸餾,還都成功了。多階段漸進(jìn)訓(xùn)練方法和模型蒸餾都包含著很多創(chuàng)新意義元素,對行業(yè)有著重要影響。

其中最讓人激動的,還是直接強(qiáng)化學(xué)習(xí)這個路徑。因?yàn)镈eepSeek-R1是首個證明這一方法有效的模型。

我們先來了解一下,訓(xùn)練AI的推理能力傳統(tǒng)的方法通常是什么:一般是通過在SFT(監(jiān)督微調(diào))加入大量的思維鏈(COT)范例,用例證和復(fù)雜的如過程獎勵模型(PRM)之類的復(fù)雜神經(jīng)網(wǎng)絡(luò)獎勵模型,來讓模型學(xué)會用思維鏈思考。

甚至?xí)尤朊商乜鍢渌阉鳎∕CTS),讓模型在多種可能中搜索最好的可能。

傳統(tǒng)的模型訓(xùn)練路徑但DeepSeek-R1-Zero選擇了一條前所未有的路徑“純”強(qiáng)化學(xué)習(xí)路徑,它完全拋開了預(yù)設(shè)的思維鏈模板(Chain of Thought)和監(jiān)督式微調(diào)(SFT),僅依靠簡單的獎懲信號來優(yōu)化模型行為。

這就像讓一個天才兒童在沒有任何范例和指導(dǎo)的情況下,純粹通過不斷嘗試和獲得反饋來學(xué)習(xí)解題。

DeepSeek-R1-Zero 有的只是一套最簡單的獎勵系統(tǒng),來激發(fā)AI的推理能力。

這個規(guī)則就兩條:

1. 準(zhǔn)確性獎勵:準(zhǔn)確性獎勵模型評估響應(yīng)是否正確。對了就加分,錯了扣分。評價(jià)方法也很簡單:例如,在具有確定性結(jié)果的數(shù)學(xué)問題中,模型需要以指定格式(如間)提供最終答案;對于編程問題,可以使用編譯器根據(jù)預(yù)定義的測試用例生成反饋。

2. 格式獎勵:格式獎勵模型強(qiáng)制要求模型將其思考過程置于標(biāo)簽之間。沒這么做就扣分,做了就加分。

為了準(zhǔn)確觀察模型在強(qiáng)化學(xué)習(xí)(RL)過程中的自然進(jìn)展,DeepSeek甚至有意將系統(tǒng)提示詞僅約束限制在這種結(jié)構(gòu)格式上,來避免任何內(nèi)容特定的偏見——例如強(qiáng)制讓模型進(jìn)行反思性推理或推廣特定的問題解決策略。

R1 Zero的系統(tǒng)提示詞

靠著這么一個簡單的規(guī)則,讓AI在GRPO(Group Relative Policy Optimization)的規(guī)則下自我采樣+比較,自我提升。

GRPO的模式其實(shí)比較簡單,通過組內(nèi)樣本的相對比較來計(jì)算策略梯度,有效降低了訓(xùn)練的不穩(wěn)定性,同時提高了學(xué)習(xí)效率。

簡單來說,你可以把它想象成老師出題,每道題讓模型同時回答多次,然后用上面的獎懲規(guī)則給每個答案打分,根據(jù)追求高分、避免低分的邏輯更新模型。這個流程大概是這樣的:輸入問題 → 模型生成多個答案 → 規(guī)則系統(tǒng)評分 → GRPO計(jì)算相對優(yōu)勢 → 更新模型這種直接訓(xùn)練方法帶來了幾個顯著的優(yōu)勢。首先是訓(xùn)練效率的提升,整個過程可以在更短的時間內(nèi)完成。其次是資源消耗的降低,由于省去了SFT和復(fù)雜的獎懲模型,計(jì)算資源的需求大幅減少。

更重要的是,這種方法真的讓模型學(xué)會了思考,而且是以“頓悟”的方式學(xué)會的。

用自己的語言,在“頓悟”中學(xué)習(xí)

我們是怎么看出模型在這種非!霸肌钡姆椒ㄏ,是真的學(xué)會了“思考”的呢?

論文記錄了一個引人注目的案例:在處理一個涉及復(fù)雜數(shù)學(xué)表達(dá)式 √a - √(a + x) = x 的問題時,模型突然停下來說"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、這是個值得標(biāo)記的啊哈時刻),隨后重新審視了整個解題過程。這種類似人類頓悟的行為完全是自發(fā)產(chǎn)生的,而不是預(yù)先設(shè)定的。

這種頓悟往往是模型思維能力躍升的時刻。

因?yàn)楦鶕?jù)DeepSeek的研究,模型的進(jìn)步并非均勻漸進(jìn)的。在強(qiáng)化學(xué)習(xí)過程中,響應(yīng)長度會出現(xiàn)突然的顯著增長,這些"跳躍點(diǎn)"往往伴隨著解題策略的質(zhì)變。這種模式酷似人類在長期思考后的突然頓悟,暗示著某種深層的認(rèn)知突破。

在這種伴隨著頓悟的能力提升下,R1-Zero在數(shù)學(xué)界享有盛譽(yù)的AIME競賽中從最初的15.6%正確率一路攀升至71.0%的準(zhǔn)確率。而讓模型對同一問題進(jìn)行多次嘗試時,準(zhǔn)確率甚至達(dá)到了86.7%。這不是簡單的看過了就會做了——因?yàn)锳IME的題目需要深度的數(shù)學(xué)直覺和創(chuàng)造性思維,而不是機(jī)械性的公式應(yīng)用。模型基本必須能推理,才可能有這樣的提升。

另一個模型確實(shí)通過這種方法學(xué)會了推理的另一個核心證據(jù),是模型響應(yīng)長度會根據(jù)問題的復(fù)雜度自然調(diào)節(jié)。這種自適應(yīng)行為表明,它不是在簡單地套用模板,而是真正理解了問題的難度,并相應(yīng)地投入更多的"思考時間"。就像人類面對簡單的加法和復(fù)雜的積分會自然調(diào)整思考時間一樣,R1-Zero展現(xiàn)出了類似的智慧。

最有說服力的或許是模型展現(xiàn)出的遷移學(xué)習(xí)能力。在完全不同的編程競賽平臺Codeforces上,R1-Zero達(dá)到了超過96.3%人類選手的水平。這種跨域表現(xiàn)表明,模型不是在死記硬背特定領(lǐng)域的解題技巧,而是掌握了某種普適的推理能力。

一個聰明,但口齒不清的天才

盡管R1-Zero展現(xiàn)出了驚人的推理能力,但研究者們很快發(fā)現(xiàn)了一個嚴(yán)重的問題:它的思維過程往往難以被人類理解。

論文坦誠地指出,這個純強(qiáng)化學(xué)習(xí)訓(xùn)練出來的模型存在"poor readability"(可讀性差)和"language mixing"(語言混雜)的問題。

這個現(xiàn)象其實(shí)很好理解:R1-Zero完全通過獎懲信號來優(yōu)化其行為,沒有任何人類示范的"標(biāo)準(zhǔn)答案"作為參考。就像一個天才兒童自創(chuàng)了一套解題方法,雖然屢試不爽,但向別人解釋時卻語無倫次。它在解題過程中可能同時使用多種語言,或者發(fā)展出了某種特殊的表達(dá)方式,這些都讓其推理過程難以被追蹤和理解。

正是為了解決這個問題,研究團(tuán)隊(duì)開發(fā)了改進(jìn)版本DeepSeek-R1。通過引入更傳統(tǒng)的"cold-start data"(冷啟動數(shù)據(jù))和多階段訓(xùn)練流程,R1不僅保持了強(qiáng)大的推理能力,還學(xué)會了用人類易懂的方式表達(dá)思維過程。這就像給那個天才兒童配了一個溝通教練,教會他如何清晰地表達(dá)自己的想法。

在這一調(diào)教下之后,DeepSeek-R1展現(xiàn)出了與OpenAI o1相當(dāng)甚至在某些方面更優(yōu)的性能。在MATH基準(zhǔn)測試上,R1達(dá)到了77.5%的準(zhǔn)確率,與o1的77.3%相近;在更具挑戰(zhàn)性的AIME 2024上,R1的準(zhǔn)確率達(dá)到71.3%,超過了o1的71.0%。在代碼領(lǐng)域,R1在Codeforces評測中達(dá)到了2441分的水平,高于96.3%的人類參與者。

然而,DeepSeek-R1 Zero的潛力似乎更大。它在AIME 2024測試中使用多數(shù)投票機(jī)制時達(dá)到的86.7%準(zhǔn)確率——這個成績甚至超過了OpenAI的o1-0912。這種"多次嘗試會變得更準(zhǔn)確"的特征,暗示R1-Zero可能掌握了某種基礎(chǔ)的推理框架,而不是簡單地記憶解題模式。

論文數(shù)據(jù)顯示,從MATH-500到AIME,再到GSM8K,模型表現(xiàn)出穩(wěn)定的跨域性能,特別是在需要創(chuàng)造性思維的復(fù)雜問題上。這種廣譜性能提示R1-Zero可能確實(shí)培養(yǎng)出了某種基礎(chǔ)的推理能力,這與傳統(tǒng)的特定任務(wù)優(yōu)化模型形成鮮明對比。

所以,雖然口齒不清,但也許DeepSeek-R1-Zero才是真正理解了推理的“天才”。

純粹強(qiáng)化學(xué)習(xí),

也許才是通向AGI的意外捷徑

之所以DeepSeek-R1的發(fā)布讓圈內(nèi)人的焦點(diǎn)都投向了純強(qiáng)化學(xué)習(xí)方法,因?yàn)樗耆梢哉f得上是打開了AI 進(jìn)化的一條新路徑。

R1-Zero——這個完全通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的AI模型,展現(xiàn)出了令人驚訝的通用推理能力。它不僅在數(shù)學(xué)競賽中取得了驚人成績。

更重要的是,R1-Zero不僅是在模仿思考,而是真正發(fā)展出了某種形式的推理能力。

因?yàn)樵谶^往的訓(xùn)練方法中,尤其在監(jiān)督微調(diào)中使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來評估質(zhì)量的話,模型可能學(xué)會觸發(fā)獎勵模型的特定模式,生成對獎勵模型"口味"的內(nèi)容,而不是真正提升推理能力。換句話說,AI系統(tǒng)找到了獲得高獎勵但實(shí)際上違背訓(xùn)練目標(biāo)的投機(jī)取巧方式。這就是我們常說的獎勵欺騙(reward hacking)。但R1-Zero用極簡的獎勵規(guī)則基本避免了獎勵欺騙的可能性——規(guī)則太簡單了,沒有什么“口味”可以去模仿。模型在這個情況下發(fā)展出的推理能力更可信,也更自然。

這個發(fā)現(xiàn)可能會改變我們對機(jī)器學(xué)習(xí)的認(rèn)識:傳統(tǒng)的AI訓(xùn)練方法可能一直在重復(fù)一個根本性的錯誤,我們太專注于讓AI模仿人類的思維方式了,業(yè)界需要重新思考監(jiān)督學(xué)習(xí)在AI發(fā)展中的角色。通過純粹的強(qiáng)化學(xué)習(xí),AI系統(tǒng)似乎能夠發(fā)展出更原生的問題解決能力,而不是被限制在預(yù)設(shè)的解決方案框架內(nèi)。

雖然R1-Zero在輸出可讀性上存在明顯缺陷,但這個"缺陷"本身可能恰恰印證了其思維方式的獨(dú)特性。就像一個天才兒童發(fā)明了自己的解題方法,卻難以用常規(guī)語言解釋一樣。這提示我們:真正的通用人工智能可能需要完全不同于人類的認(rèn)知方式。

這才是真正的強(qiáng)化學(xué)習(xí)。就像著名教育家皮亞杰的理論:真正的理解來自于主動建構(gòu),而不是被動接受。

文章來源:騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部