太平洋科技要聞

OpenAI科學(xué)家：現(xiàn)有模型+后訓(xùn)練足以產(chǎn)生黎曼猜想的新證明

量子位整合編輯：太平洋科技發(fā)布于：2024-12-30 18:08

一個(gè)全新的模型能力衡量指標(biāo)誕生了？！

OpenAI科學(xué)家塞巴斯蒂安・布貝克（Sebastien Bubeck）（下圖左）表示：

AI模型的能力可以用AGI時(shí)間來衡量：

GPT-4可以完成人類需要幾秒或幾分鐘的任務(wù)；o1 可以完成人類需要若干小時(shí)完成的任務(wù)，也就是可以用“AGI小時(shí)”衡量的任務(wù)；明年，模型可能會(huì)實(shí)現(xiàn)AGI日，并在3年后實(shí)現(xiàn)AGI周，能夠解決重大的開放問題。

看到AGI時(shí)間這個(gè)新概念，網(wǎng)友們也是立即就展開了熱烈的討論。

有人認(rèn)為，如果模型可以達(dá)到人類需要數(shù)周或數(shù)月才能完成的任務(wù)，也就代表它可以將長期推理和計(jì)劃結(jié)合起來，也就和真正的AGI差不多了：

不過也有人表示這個(gè)說法有點(diǎn)模糊，人腦也很難機(jī)械地把任務(wù)完成時(shí)間限定為幾個(gè)月、幾年：

而反方辯手湯姆·麥考伊（Tom Mccoy）則對LLM能否解決復(fù)雜的開放性問題持懷疑態(tài)度。

他表示，語言模型雖令人驚嘆，但能力源于訓(xùn)練數(shù)據(jù)，目前沒有證據(jù)顯示它們可以產(chǎn)生能解決開放問題的新范式。

讓兩位大佬爭論不休的問題，就是最近由世界知名理論計(jì)算機(jī)科學(xué)機(jī)構(gòu)Simons Institute提出的辯題：

當(dāng)前基于縮放定律的LLM，能否在未來幾年內(nèi)產(chǎn)生可以解決重大數(shù)學(xué)難題（如P≠NP、黎曼假設(shè)）的證明技術(shù)。

持正方觀點(diǎn)的塞巴斯蒂安・布貝克是應(yīng)用數(shù)學(xué)博士，曾在普林斯頓大學(xué)擔(dān)任助理教授，后在微軟研究院任職十年，主導(dǎo)開發(fā)了 Phi 系列小語言模型，也是Sparks of AGI（AGI的火花）論文的重要作者之一。

此次辯論中，塞巴斯蒂表示他堅(jiān)信LLM潛力無限，認(rèn)為以當(dāng)前模型的能力加上更多的數(shù)據(jù)和后期訓(xùn)練就足以解決數(shù)學(xué)難題。

反方辯手湯姆是認(rèn)知科學(xué)博士，現(xiàn)任耶魯大學(xué)語言學(xué)助理教授，

他也是“Embers of Autoregression（自回歸余燼）”論文的主要作者，文中他深刻剖析了當(dāng)前LLM的局限性。

同時(shí)參與這次討論的還有Anthropic的研究員Pavel Izmailov，和MIT諾伯特·維納（Norbert Wiener）數(shù)學(xué)教授Ankur Moitra。

在不改變原意的基礎(chǔ)上，量子位對本次辯論的主要觀點(diǎn)進(jìn)行了梳理總結(jié)，希望能帶給你更多的啟發(fā)和思考。

正方：o1已展現(xiàn)出自發(fā)的涌現(xiàn)模式

塞巴斯蒂安首先用數(shù)據(jù)回顧了LLM最近幾年的發(fā)展歷程，他表示GPT系列已在多領(lǐng)域的基準(zhǔn)測試上都表現(xiàn)亮眼。

比如在MMLU測試中，GPT-4 成績飆升至 86%，o1 模型更是逼近 95%，遠(yuǎn)超 GPT-3 的 50%，在高中科學(xué)知識(shí)問答方面已接近人類 90% 的水平。

在醫(yī)學(xué)診斷領(lǐng)域，GPT-4 準(zhǔn)確率高達(dá) 90%，遠(yuǎn)超人類醫(yī)生的 75%，有力證明了模型強(qiáng)大的學(xué)習(xí)與應(yīng)用能力，且這種提升趨勢為解決數(shù)學(xué)難題奠定基礎(chǔ)。

他進(jìn)一步指出：

智能發(fā)展層級遞進(jìn)顯著，GPT-4只有AGI秒級思考能力，而o1模型已達(dá)AGI分鐘甚至小時(shí)級別。

依此趨勢，未來實(shí)現(xiàn)AGI日級、周級思考時(shí)長指日可待，可能明年、后年就能達(dá)到。

屆時(shí)，模型將擁有充足時(shí)間和能力深入思考復(fù)雜數(shù)學(xué)問題，從而找到解決重大猜想的路徑。

同時(shí)他還強(qiáng)調(diào)了后訓(xùn)練技術(shù)的重要性：后訓(xùn)練技術(shù)是挖掘模型深層潛力的關(guān)鍵。

從GPT-3.5開始，模型就可以實(shí)現(xiàn)在后訓(xùn)練過程中提取智能。到了o1模型時(shí)代，其采用的強(qiáng)化學(xué)習(xí)等創(chuàng)新訓(xùn)練范式，使模型在復(fù)雜任務(wù)（比如編程、數(shù)學(xué)）處理上實(shí)現(xiàn)質(zhì)的飛躍。

尤其是在特定數(shù)學(xué)問題中，o1能迅速關(guān)聯(lián)看似不相關(guān)的知識(shí)概念，自發(fā)地涌現(xiàn)出一些新的思路，為解決難題提供新線索。

反方：當(dāng)前縮放定律依賴數(shù)據(jù)、存在幻覺，難以產(chǎn)生新思考模式

湯姆則認(rèn)為，目前LLM的發(fā)展存在3個(gè)明顯制約：

1.LLM受訓(xùn)練數(shù)據(jù)頻率限制嚴(yán)重：

在單詞計(jì)數(shù)和排序任務(wù)中，數(shù)據(jù)頻率影響清晰可見。如統(tǒng)計(jì)單詞數(shù)量時(shí)，對常見長度列表準(zhǔn)確率高，罕見長度則大幅下降；排序任務(wù)中，對常用的字母正序處理良好，逆序則表現(xiàn)不佳。

這表明模型在面對新證明技術(shù)這類低頻任務(wù)時(shí)，缺乏創(chuàng)造性突破的根基，難以跳出訓(xùn)練數(shù)據(jù)的固有模式。

而且，根據(jù)各種測評數(shù)據(jù)，模型能力與數(shù)據(jù)量級呈對數(shù)關(guān)系，未來想要提升模型能力需要新的指數(shù)級數(shù)據(jù)，而目前已有嚴(yán)重?cái)?shù)據(jù)瓶頸，在未來幾年很難迅速突破。

2.長推理過程中的幻覺問題是致命傷：

即使類o1模型在多步推理場景下進(jìn)步顯著，但LLM仍易生成錯(cuò)誤信息。隨著數(shù)學(xué)證明篇幅拉長，極低的錯(cuò)誤率也會(huì)因累積效應(yīng)使證明失效。

也就是人們常說的“薄弱環(huán)節(jié)會(huì)破壞整個(gè)推理鏈條”，嚴(yán)重阻礙模型解決復(fù)雜數(shù)學(xué)證明的能力。

o1已經(jīng)可以和人類專家合作，但想要獨(dú)自解決數(shù)學(xué)問題，必須做到超越人類，目前看起來比較困難，甚至還無法達(dá)到以穩(wěn)健的方式使用現(xiàn)有想法。

3.當(dāng)前縮放方法本質(zhì)缺陷難破：

基于語言預(yù)測的訓(xùn)練模式，使模型在處理數(shù)學(xué)問題時(shí)難以直接觸及深度推理和創(chuàng)新思維核心。

比如在數(shù)學(xué)符號(hào)處理和抽象邏輯推導(dǎo)方面，模型的處理方式與專業(yè)數(shù)學(xué)方法相比缺乏專業(yè)推導(dǎo)，需要從底層架構(gòu)和訓(xùn)練理念上進(jìn)行徹底變革。

隨后正方還對反方觀點(diǎn)進(jìn)行了駁斥。

塞巴斯蒂安表示，當(dāng)前很多人類的頂級成果是依靠組合現(xiàn)有知識(shí)產(chǎn)生的，而模型在這個(gè)方面的能力會(huì)通過強(qiáng)化學(xué)習(xí)進(jìn)一步發(fā)展。

而且人類在超過50頁的證明中也經(jīng)常會(huì)出錯(cuò)，未來可以讓不同的智能體進(jìn)行合作互相指正，可以有效減少這一方面的失誤。

其他專家：需結(jié)合證明驗(yàn)證器、符號(hào)空間探索等方式

Anthropic研究員帕維爾・伊斯梅洛夫也發(fā)表了觀點(diǎn)，他認(rèn)為LLM在識(shí)別數(shù)據(jù)結(jié)構(gòu)上確有優(yōu)勢，但數(shù)學(xué)領(lǐng)域?qū)I(yè)性強(qiáng)，需借助強(qiáng)化學(xué)習(xí)與Lean等證明驗(yàn)證器構(gòu)建有效訓(xùn)練機(jī)制。

鑒于數(shù)學(xué)的獨(dú)特性，探索類似AlphaGo式的非LLM智能搜索方法在符號(hào)空間的應(yīng)用，或許能為解決數(shù)學(xué)難題另辟蹊徑，突破語言模型固有局限。

針對觀眾的提問“飛機(jī)也不是完全模擬鳥類的飛行，為什么一定要要求LLM模擬人類思維”的問題，帕維爾首先表示贊同，AlphaGo帶給人類的一個(gè)驚喜正是來自于它可以用很多人類沒有的方法下棋。

但同時(shí)他也指出：

也許以人類的方式做事的唯一理由是，如果我們關(guān)心的是試圖理解證明、并提取一些定義之類的東西，那么我們希望它至少是類人或人類可讀的。但我認(rèn)為如果我們關(guān)心的是證明能力，比如能夠證明事物，那么不一定要以類人的方式。

MIT諾伯特·維納數(shù)學(xué)教授安庫爾・莫伊特拉（Ankur Moitra）也發(fā)表了自己的看法。

他也贊同重大數(shù)學(xué)問題的解決絕非簡單的能力堆疊：

我們關(guān)心數(shù)學(xué)難題，關(guān)心的不只是具體的證明細(xì)節(jié)，更希望可以在證明的過程中產(chǎn)生可以引發(fā)數(shù)學(xué)體系變革的新想法。

他認(rèn)為當(dāng)前LLM 雖在部分任務(wù)取得進(jìn)展，但與解決如黎曼假設(shè)這類問題所需的深度和創(chuàng)新性仍相距甚遠(yuǎn)。

安庫爾還提議，未來模型發(fā)展或許應(yīng)聚焦于知識(shí)在模型中的有效表示、數(shù)學(xué)家與模型間的高效協(xié)作模式等關(guān)鍵層面，探索新的突破方向。

現(xiàn)場還進(jìn)行了一次不記名投票，可以看到正反方的觀點(diǎn)基本還是持平的～

感興趣的朋友可以查看完整視頻和論文。

參考鏈接：
[1]辯論完整視頻：https://www.youtube.com/live/H3TnTxVKIOQ
[2]Sebastien Bubeck撰寫的論文Sparks of AGI：https://arxiv.org/abs/2303.12712
[3]Tom McCoy撰寫的論文Embers of Autoregression：https://arxiv.org/abs/2309.13638

本文來源：量子位

OpenAI LLM 數(shù)學(xué)難題

量子位

原創(chuàng)欄目