馬上就要過年了,差評(píng)君這幾天還正忙著辦年貨,結(jié)果回家剛拿起手機(jī),就被 AI 刷屏了。 還記得前幾周跟六代機(jī)前后腳的 DeepSeek 不?他家那個(gè) V3 模型震驚硅谷還沒幾天,現(xiàn)在又整出來一個(gè)絕世狠活。
如果說上次的 V3 模型,是讓硅谷對(duì)中國(guó) AI 側(cè)目的話,那這次就直接是被掀了桌子了,他們發(fā)布了一個(gè)叫 DeepSeek-R1 的大模型,完全比得上 OpenAI-o1 那種,結(jié)果亮相以后引起的反響比上次還要大!
Meta 聯(lián)合創(chuàng)始人看了都直呼改變歷史,不惜溢美之詞,還在后面的推文里跟 DeepSeek 的黑子對(duì)噴。
參投過 OpenAI 、 Databricks 、 Character.AI 等知名企業(yè)的風(fēng)投大佬馬克 · 安德森也對(duì) DeepSeek-R1 一頓猛夸,說它最令人驚嘆、最印象深刻,是對(duì)世界的一份深刻饋贈(zèng)。
而其他 AI 愛好者和網(wǎng)友們也是紛紛選擇用腳投票,每月幾百塊的 ChatGPT 拜拜了您內(nèi)!
哥們這就下載免費(fèi)的 DeepSeek !
然后就跟之前小紅書爆火類似, DeepSeek 的應(yīng)用商店排名迅速上升,現(xiàn)在已經(jīng)成了 APPSTORE 排名第一的軟件。
不僅美國(guó)人被搞得友邦驚詫, DeepSeek 現(xiàn)在在國(guó)內(nèi)更是紅的沒邊。
這幾天微博熱搜上跟它相關(guān)的,每天都要掛好幾個(gè)。
甚至不少 AI 行業(yè)的圈外人都深有感觸,比如做黑神話的馮驥,也在微博上感慨良多,說這是 “ 國(guó)運(yùn)級(jí)別的科技成果 ” 。
就連差評(píng)編輯部的主編老師,體驗(yàn)完以后都直呼好用,能拿來做培訓(xùn)了。
其他網(wǎng)友們實(shí)際體驗(yàn)下來,也紛紛表示這玩意確實(shí)牛逼。
不說別的,就拿跟 OpenAI-o1 對(duì)比來看,某網(wǎng)友讓這倆分別寫個(gè)腳本,要用 python 畫一個(gè)紅球在旋轉(zhuǎn)的三角形里彈跳,結(jié)果左邊 OpenAI 搞出來一坨,右邊的 DeepSeek 倒是表現(xiàn)的相當(dāng)流暢。
一句話, o1 辦得了的它能辦, o1 辦不了的它也能辦,這簡(jiǎn)直是踢館行為,一腳踹飛了國(guó)產(chǎn) AI 只能屈居人后的牌匾。
不過除了揚(yáng)眉吐氣以外,估計(jì)不少差友也跟差評(píng)君一樣有點(diǎn)疑問,畢竟 DeepSeek 這么一個(gè)以前都沒怎么聽說過的小廠,咋突然就能支棱起來、名揚(yáng)世界了呢?
在暗涌采訪 DeepSeek 創(chuàng)始人梁文鋒的報(bào)道中,咱還是找到了一部分原因,因?yàn)檫@是一個(gè)相當(dāng)重視創(chuàng)新的公司。
就拿之前在行業(yè)內(nèi)大放異彩的 V2 、 V3 模型來說,這里面有一個(gè)非常重要的多頭注意力機(jī)制,而這個(gè)技術(shù)最開始只是來自團(tuán)隊(duì)內(nèi)一位年輕開發(fā)者的創(chuàng)意,隨后大家一起在這個(gè)方案上鉆研才最終搞定。
而這種創(chuàng)新驅(qū)動(dòng)的技術(shù)突破在這個(gè)團(tuán)隊(duì)內(nèi)并不罕見。
不過比起單個(gè)技術(shù)點(diǎn)的突破,這次 R1 牛的地方卻在于路徑創(chuàng)新,甚至能改變整個(gè) AI 領(lǐng)域的技術(shù)路線。
這么說吧,傳統(tǒng)大模型訓(xùn)練里邊,非常注重標(biāo)注數(shù)據(jù)微調(diào)( SFT ),也就是讓大模型先按人類標(biāo)注好的標(biāo)準(zhǔn)答案來學(xué)習(xí),學(xué)著說人話;如果想要大模型性能強(qiáng)些,那還要再在 SFT 基礎(chǔ)上加一些強(qiáng)化學(xué)習(xí)( RL ),讓大模型的理解能力更好。
換句話說,傳統(tǒng)大廠搞AI 就像應(yīng)試教育:先給海量標(biāo)注數(shù)據(jù)搞填鴨式教學(xué)( SFT ),再拿強(qiáng)化學(xué)習(xí)( RL )做考前突擊。結(jié)果就是訓(xùn)練出 GPT-4o 這種 " 別人家孩子 " ——解題步驟工整規(guī)范,但總感覺少了點(diǎn)靈性。
而更要命的是,這種訓(xùn)練需要花大量的資源,很多時(shí)間和資金都得花在數(shù)據(jù)標(biāo)注跟微調(diào)上。
但 DeepSeek 牛的地方在于,他們這個(gè)推理模型的核心全靠強(qiáng)化學(xué)習(xí),完事用一個(gè)叫 GRPO 的算法給模型的回答打分,然后繼續(xù)優(yōu)化,這些步驟里一點(diǎn) SFT 都不帶用的。
這就相當(dāng)于把孩子扔到魷魚游戲這種大逃殺劇本里,逼著模型自己琢磨最優(yōu)路徑,要是開擺做不出題就寄了。
于是在這種高強(qiáng)度的淬煉中,一個(gè)只花了 600 萬美元,兩個(gè)月時(shí)間鍛造出來的宗門天才,出場(chǎng)就達(dá)到了世家大族花了幾個(gè)億資金練了幾年的水平。
實(shí)際上,早在幾周前, DeepSeek 團(tuán)隊(duì)的研究人員就用這種思路,在原先那個(gè) V3 的基礎(chǔ)上完全靠強(qiáng)化學(xué)習(xí)搞出來了一個(gè) R1-Zero 版本
前幾天 DeepSeek 放出來的的技術(shù)報(bào)告里提到, Zero 版本在訓(xùn)練中進(jìn)化速度非常明顯,很快就能跟 OpenAI-o1 掰掰手腕了,在部分測(cè)試項(xiàng)目中甚至還高于 o1 。
除了推理能力在明顯進(jìn)步,Zero 甚至在推理中表現(xiàn)出了主動(dòng)復(fù)盤反思糾錯(cuò)的行為,在做題的過程中它突然就意識(shí)到自己做錯(cuò)了,然后開始回頭演算。
官方的備注里說,大模型在這里突然用了一個(gè)擬人化的說法 aha moment ( 頓悟時(shí)刻 ),不僅 Zero“ 頓悟了 ” 了,研究人員看到這的時(shí)候也 “ 頓悟了 ” 。
當(dāng)其他 AI 還在背公式時(shí), Zero 已經(jīng)學(xué)會(huì)在草稿紙上畫輔助線了,這完全可以說是 AI 推理上的里程碑事件:
沒有預(yù)先的數(shù)據(jù)標(biāo)注、沒有微調(diào),僅僅只靠模型的強(qiáng)化學(xué)習(xí),模型就可以涌現(xiàn)出這個(gè)程度的推理能力。
這相當(dāng)于給全世界搞 AI 的人上了一課,原來還可以這么玩。。。
雖然推理能力已經(jīng)被證明了,不過 Zero 的缺點(diǎn)也很明顯。
純強(qiáng)化學(xué)習(xí)養(yǎng)出來的 AI ,活脫脫就是個(gè)鋼鐵直男,模型輸出的可讀性較差,或者說,講話不怎么符合人類預(yù)期。
這就好比一個(gè)偏科天才,數(shù)學(xué)題解得出神入化,但表達(dá)能力堪憂,讓它寫篇小作文,分分鐘給你整出《 三體 》 ETO 既視感。
這時(shí)候就到了 SFT 上場(chǎng)表演的時(shí)候了, DeepSeek 團(tuán)隊(duì)在 Zero 強(qiáng)而有力的推理基礎(chǔ)上,又增加了一部分 SFT 訓(xùn)練來讓模型會(huì)說人話,于是, DeepSeek-R1 堂堂誕生!
神奇的是,在 Zero 基礎(chǔ)上經(jīng)過這么一套 " 文理雙修 " 的騷操作后,優(yōu)化后的 R1 推理能力甚至還進(jìn)一步提高了,還是看測(cè)試數(shù)據(jù):
STEM 測(cè)評(píng)中的數(shù)學(xué)題目正確率達(dá)到了 97.3% ,比 OpenAI-o1 還高一點(diǎn),遙遙領(lǐng)先了屬于是;代碼測(cè)試中 R1 也高達(dá) 65.9% ,遠(yuǎn)超 Claude-3.5-Sonnet 的 38.9% 和 GPT-4o 的 32.9% ;
MMLU 和 AlpacaEval 2.0 綜合知識(shí)測(cè)試中, R1 的勝率分別達(dá)到 90.8% 和 87.6% ,力壓一眾閉源大模型。
用 Yann Lecun 的話說,這波是開源的偉大勝利!這下誰還敢說開源就是落后啊。( 戰(zhàn)術(shù)后仰 )
不過要說 R1 的成功還只是證明了開源模型的實(shí)力,那 R1 技術(shù)報(bào)告最后一部分才是最離譜的。。。 在這部分他們說到,把 R1 的 SFT 數(shù)據(jù)蒸餾,喂給其他小模型進(jìn)行 SFT ,會(huì)給其他開源模型來一波超級(jí)加強(qiáng)。
也就是說,只要把 R1 的 " 學(xué)習(xí)筆記 " 做成教輔資料,打包喂給其他的小模型 AI ,讓它們也跟著抄作業(yè),學(xué)會(huì)這些好學(xué)生的作業(yè)思路,結(jié)果居然能提高小模型的水平!
比如說把 R1 的錯(cuò)題本發(fā)給 Qwen 和 Llama 架構(gòu),結(jié)果抄完作業(yè)的 Qwen-7B 模型,在 AIME 測(cè)試中通過率達(dá)到了 55.5% ,已經(jīng)趕上了參數(shù)體量大了快 5 倍的 QwQ-32B-Preview ( 50.0% );
像 70B 參數(shù)版看完了學(xué)霸筆記以后也跟打通了任督二脈似的,在 GPQA Diamond ( 65.2% )、 LiveCodeBench ( 57.5% )等任務(wù)中甚至閉都能跟閉源模型 o1-mini 掰掰手腕。
換句話說, DeepSeek 這波這不僅驗(yàn)證了 " 小模型 + 好老師 " 的技術(shù)路線,更讓個(gè)人開發(fā)者也能調(diào)教出匹敵 GPT-4 的 AI 。 小模型只需要按優(yōu)秀大模型搞 SFT 抄作業(yè)就行了,壓根不需要再在上面搞機(jī)器學(xué)習(xí)燒顯卡。
于是現(xiàn)在全球開源社區(qū)已經(jīng)瘋了, HuggingFace 連夜成立項(xiàng)目組,準(zhǔn)備復(fù)刻整個(gè)訓(xùn)練流程。不少網(wǎng)友都說這特么的才算 Open !這個(gè)項(xiàng)目也被叫做 Open R1 。
也有網(wǎng)友算過賬:用 R1 方案訓(xùn)練 7B 模型,成本從百萬美元級(jí)直接砍到二十萬級(jí)別,顯卡用量比挖礦還省,這簡(jiǎn)直是真正的科技平權(quán)行為,活該它爆火!
巧合的是,跟 R1 這波爆火同時(shí),眾多賽博基建大廠們的股價(jià)開始下跌,英偉達(dá)盤前跌了 10% 以上。不少人覺得或許是因?yàn)?DeepSeek 的逆天訓(xùn)練成本,影響了投資人的判斷。 不過在海的這頭,這樣一個(gè)完全由中國(guó)團(tuán)隊(duì)做出來的爆火產(chǎn)品,卻再一次向世界證明了中國(guó)年輕人的潛力和開創(chuàng)精神。
就像梁文鋒說的, “ 我們經(jīng)常說中國(guó) AI 和美國(guó)有一兩年差距,但真實(shí)的 gap 是原創(chuàng)和模仿之差……有些探索也是逃不掉的。 ”
“ 中國(guó)AI 不可能永遠(yuǎn)處在跟隨的位置。 ”
順帶一提,今天小紅書上有網(wǎng)友被DeepSeek的性能嚇到了,擔(dān)心自己被AI取代,而當(dāng)她向DeepSeek 表達(dá)出擔(dān)憂后,它給出了這樣的回答: 本文來源:差評(píng)
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。