OpenAI轟轟烈烈搞出一場12天圣誕特別活動,結(jié)果期間發(fā)布最轟動成果的,居然是谷歌。 谷歌一發(fā)發(fā)密集的核彈,讓OpenAI分成12天的擠牙膏黯然失色,毫無還手之力。 原生多模態(tài)Gemini 2.0 Flash,demo驚艷的Project Astra,組團出道的AI智能體,效果吊打Sora掀起全網(wǎng)狂潮的Veo 2……顯得OpenAI的圣誕活動仿佛是個笑話。 到了最后一天,OpenAI好歹支棱起來,放出個大的。 奧特曼親自上場,在直播中揭秘OpenAI下一代推理模型o3,令人印象最為深刻的,就是它在難度極大的ARC-AGI基準上遙遙領先。 OpenAI模型在ARC-AGI得分的歷年表現(xiàn) 「從o1到o3要3個月。從o1 Pro到o3只要1個月! 這個對比,算是讓前段時間甚囂塵上的「Scaling Law撞墻論」打臉了,OpenAI總算揚眉吐氣了一回。 目前,o3只對安全研究員開放,而大家最關心的是:我們的GPT-5呢? 巧了不是,就在直播幾小時后,OpenAI直接被外媒踢爆負面消息:GPT-5問題不斷,遙遙無期! 華爾街日報發(fā)文曝料:OpenAI的新一代AI模型GPT-5的內(nèi)部開發(fā)項目「Orion」問題重重 文章標題明晃晃地指出「項目延期」、「成本高昂」,直接把奧特曼惹急了! 他暗暗諷刺道:o3發(fā)布沒多久,他們就說AI的下一個偉大飛躍進展緩慢,這合理嗎? 雖然o3的性能耀眼,但GPT-5究竟何時發(fā)布,目前還是未知數(shù)。 要知道,自從2023年3月發(fā)布的GPT-4到現(xiàn)在,已經(jīng)超過18個月了,市場和投資人的耐心,也快被磨沒了。 風頭機構Menlo Ventures的數(shù)據(jù)顯示,今年OpenAI在企業(yè)AI領域的市場份額,從50%暴降至34%,但老對手Anthropic的市場份額卻翻了一番,從12%漲至24%。 甚至今天還有消息曝出:因為OpenAI模型的性價比太低,微軟正計劃將非OpenAI模型集成到365 Copilot。 谷歌、Anthropic的步步緊逼,微軟的暗戳戳「背刺」,OpenAI的境遇,顯然已不是當初「贏者通吃」的一家獨大。 OpenAI在GPT-5的訓練上,問題不斷 根據(jù)華爾街日報的報道,微軟原本計劃在年中看到GPT-5, 但奧特曼在11月時表示,今年反正是不會發(fā)布了。 當然,這并不是說OpenAI什么都沒做。 據(jù)知情人士透露,OpenAI至少進行了2次大規(guī)模的訓練,每次都需要數(shù)月時間處理和分析海量數(shù)據(jù)。 但每次訓練都會有新的問題出現(xiàn),同時模型的表現(xiàn)也無法達到研究人員的預期——其性能的提升不足以證明維持新模型高昂的運行成本是值得的。 不僅如此,一次為期6個月的訓練成本也非常之高——僅計算部分就需要約5億美元。 大語言模型訓練日 OpenAI的ChatGPT模型參數(shù)規(guī)模巨大, 在測試持續(xù)的時期內(nèi),模型可以被輸入數(shù)萬億個token。 ChatGPT系列不同參數(shù)規(guī)模比較 一次大規(guī)模訓練可能需要在數(shù)據(jù)中心耗時數(shù)月,使用的頂級計算芯片達到數(shù)萬塊。 每次訓練,研究人員需要在電腦前持續(xù)工作數(shù)周甚至數(shù)月,努力將世界上大部分知識輸入到AI系統(tǒng)中。 奧特曼曾表示訓練GPT-4的成本超過1億美元。未來的AI模型訓練成本預計將突破10億美元。 訓練失敗令人痛心且代價高昂, 就像航天發(fā)射任務中火箭在升空后突然爆炸一樣。 為此,研究人員嘗試通過開展小規(guī)模實驗來降低這種失敗的風險——在正式訓練前進行預先測試(trial run)。 但沒想到的是,GPT-5在預先測試中就已經(jīng)暴露出了大量問題。 2023年中旬,OpenAI啟動代號為Arrakis的項目,作為Orion新設計方案的預先測試。 然而,這個過程的進展非常緩慢——也就是說,更大規(guī)模的訓練將需要極其長的時間,而成本也將會達到天文數(shù)字。 項目結(jié)果表明,開發(fā)GPT-5的道路將遠比預期更加曲折。 OpenAI的研究人員決定對Orion進行技術優(yōu)化,并著手去解決多樣化和高質(zhì)量訓練數(shù)據(jù)不足的問題。 從零開始構建數(shù)據(jù)為了讓Orion更智能,OpenAI需要擴大模型的規(guī)模,而這就需要更多的訓練數(shù)據(jù)。 但眾所周知,目前可用的優(yōu)質(zhì)數(shù)據(jù)已經(jīng)捉襟見肘。 對此,OpenAI的解決方案是:從頭創(chuàng)建數(shù)據(jù)集。 他們正在組建團隊為Orion提供學習材料,比如聘請軟件工程師編寫全新的軟件代碼,聘請數(shù)學家設計數(shù)學問題。這些專家還會向系統(tǒng)詳細解釋他們的解題思路和工作過程。 許多研究人員認為,程序代碼作為一種嚴謹?shù)挠嬎銠C語言,能夠幫助LLM學會處理它們此前從未遇到過的問題。 讓人們解釋他們的思維過程可以深化新創(chuàng)建的數(shù)據(jù)的價值。 這不僅為LLM提供了更多可學習的語言數(shù)據(jù),還為模型在未來解決類似問題提供了系統(tǒng)化的解決方案。 與OpenAI、Meta等科技巨頭都有合作的AI基礎設施公司Turing,就會要求軟件工程師編程序去高效解決復雜的邏輯問題,或讓數(shù)學家計算用一百萬個籃球堆成的金字塔的最大高度。 然后,這些答案,以及更重要的解題思路和步驟,都會被整合到AI的訓練數(shù)據(jù)當中。 此外,OpenAI還與理論物理等領域的專家展開合作,請他們詳細說明如何應對該領域中最具挑戰(zhàn)性的問題。這些專業(yè)知識也將助力提升Orion的智能水平。 這個過程,同樣非常緩慢…… 據(jù)估計,GPT-4的訓練使用了大約1.3×10¹³個token。即使組織一千人的團隊,每人每天撰寫5000字,要生成十億個token也需要數(shù)月時間。 與此同時,OpenAI也采用了「合成數(shù)據(jù)」來輔助訓練Orion。然而研究表明,這種AI創(chuàng)建數(shù)據(jù)再用于訓練AI的反饋循環(huán)往往會導致系統(tǒng)故障或產(chǎn)生毫無意義的答案。 據(jù)知情人士透露,OpenAI的科學家們認為,使用另一個AI模型o1生成的數(shù)據(jù),可以避免這些問題。 人才流失大模型訓練充滿挑戰(zhàn)。而公司內(nèi)部的劇烈動蕩和競爭對手持續(xù)以數(shù)百萬美元年薪挖角其頂尖研究人員,OpenAI的大模型訓練變得更加復雜。 去年,奧特曼突然被OpenAI董事會解職,這一事件讓許多研究人員對公司的未來產(chǎn)生疑慮。不過奧特曼很快被重新任命為首席執(zhí)行官,并隨即著手改革OpenAI的治理架構。 僅在今年一年,就有超過二十多名核心高管、研究人員和資深員工離開了OpenAI,包括聯(lián)合創(chuàng)始人兼首席科學家Ilya Sutskever和首席技術官Mira Murati。 在最近的一次人事變動中,著名研究員Alec Radford也宣布離職,他在公司服務近八年, 是多篇重要科研論文的主要作者。 重啟Orion項目 截至2024年初,OpenAI的高管們開始感受到越來越大的壓力。 GPT-4推出已滿一年,而競爭對手們正在快速追趕。 Anthropic公司推出的新一代大模型在業(yè)內(nèi)廣受好評,許多專家認為其性能已經(jīng)超越了GPT-4。 在2024年第二季度,谷歌又推出了智能筆記應用NotebookLM,這款AI輔助寫作工具迅速成為年度最受歡迎的人工智能應用。 面對Orion項目的研發(fā)瓶頸,OpenAI開始將資源分配到其他項目和應用的開發(fā)中。這些新項目包括開發(fā)GPT-4的輕量級版本,以及名為Sora的AI視頻生成產(chǎn)品。 據(jù)知情人士透露,為了爭奪有限的算力資源,負責新產(chǎn)品開發(fā)的團隊與Orion研究員之間產(chǎn)生了沖突。 AI實驗室之間的競爭已經(jīng)遠超科學界常態(tài),各大科技公司發(fā)表的最新研究成果和技術突破論文數(shù)量顯著減少。 自2022年大量資金涌入市場以來,科技公司開始將這些研究成果視為核心商業(yè)機密。一些研究人員對保密工作極其謹慎,甚至拒絕在飛機上、咖啡店或任何可能被他人窺視工作內(nèi)容的場所辦公。 這種過度保密的態(tài)度引發(fā)了許多資深AI研究者的不滿,其中包括Meta首席AI科學家Yann LeCun。他直言不諱地表示,OpenAI和Anthropic的工作本質(zhì)上已不能算作研究,而應該被視為「高級產(chǎn)品開發(fā)」。 在一次OpenAI幾乎缺席的AI會議上,LeCun表示:「如果是在商業(yè)開發(fā)周期的壓力下進行的,那就不能稱之為研究;如果是在完全保密的情況下進行的,那也不能稱之為研究! 再次踩坑2024年初,OpenAI準備借助改進后的數(shù)據(jù)再次啟動Orion項目。研究團隊在第一季度開展了數(shù)次小規(guī)模模型訓練,以積累經(jīng)驗并建立信心。 到5月,OpenAI的研究人員認為時機成熟,決定再次嘗試Orion的大規(guī)模模型訓練,預計整個過程將持續(xù)到11月。 然而,訓練開始后,研究人員發(fā)現(xiàn)了數(shù)據(jù)集存在的問題:數(shù)據(jù)的多樣性遠低于預期,這可能會嚴重制約Orion的學習能力。 這個問題在小規(guī)模測試中并未顯現(xiàn),直到大規(guī)模訓練啟動后才暴露出來?紤]到已投入的時間和資金成本過于巨大,OpenAI已無法從頭開始。 為此,研究團隊不得不在訓練過程中緊急尋找更多樣化的數(shù)據(jù)輸入模型。這種補救策略的效果目前仍未可知。 數(shù)據(jù)正在耗盡Orion項目遇到的這些問題向OpenAI內(nèi)部傳遞出一個信號:過去推動公司取得成功的「規(guī)模至上」策略可能已經(jīng)走到盡頭。 不只是OpenAI在擔憂發(fā)展遇到瓶頸。整個AI行業(yè)都在激烈討論一個問題:人工智能的技術進步是否已開始進入平臺期。 OpenAI前首席科學家Ilya Sutskever最近在NeurIPS 2024上明確表示,依靠海量數(shù)據(jù)推動AI發(fā)展的時代已經(jīng)終結(jié)。 「由于我們只有一個互聯(lián)網(wǎng),數(shù)據(jù)增長已經(jīng)到頭了。數(shù)據(jù)就像AI領域的化石能源一樣,即將枯竭! 全新策略:增加推理時間 在Orion項目的研發(fā)過程中,OpenAI研究人員發(fā)現(xiàn)了提升大語言模型智能的新途徑:強化推理能力。 研究人員表示,通過延長模型在推理時的「思考」時間,可以使其解決一些沒有訓練過的難題。 從技術實現(xiàn)角度來看,OpenAI o1采用多答案生成機制,即對每個問題生成多個候選答案,并通過分析篩選出最優(yōu)解。 由此,模型便可以處理更復雜的任務,如制定商業(yè)計劃或設計填字游戲,同時提供詳細的推理過程說明——這種機制使模型能夠從每次回答中持續(xù)學習優(yōu)化。 不過,蘋果的研究員在論文中對此提出了質(zhì)疑,認為包括o1在內(nèi)的推理模型很可能只是在復現(xiàn)訓練數(shù)據(jù)中的模式,而非真正具備解決新問題的能力。 論文鏈接:https://arxiv.org/abs/2410.05229 研究人員發(fā)現(xiàn),當在問題中添加無關信息時,模型性能會出現(xiàn)嚴重退化——例如,僅僅在一道關于獼猴桃的數(shù)學題中加入水果大小差異的描述,就會導致模型表現(xiàn)顯著下降。 在最近的TED演講中,OpenAI的高級研究科學家Noam Brown著重強調(diào)了推理能力的重要性。 Noam Brown表示:「我們的研究發(fā)現(xiàn),讓AI在撲克游戲中進行20秒的推理思考,就能獲得與將模型規(guī)模擴大100,000倍并延長訓練時間100,000倍相當?shù)男阅芴嵘。?/span> 一個更先進、更高效的推理模型可能成為Orion項目的核心基礎。 OpenAI的研究團隊正在深入探索這一方向,并計劃將其與傳統(tǒng)的數(shù)據(jù)擴充方法相結(jié)合,部分訓練數(shù)據(jù)將來自OpenAI的其他AI模型。 隨后,他們將利用人工生成的內(nèi)容來進一步優(yōu)化模型效果。 o3屠榜基準測試,但距離AGI有多遠? 隨著o3的「發(fā)布」,模型也在多項基準測試中,相比o1 pro取得了明顯的提升, 而這才過了1個月。 并且,在號稱通用人工智能「唯一正式進展基準」的ARC-AGI測試中, o3以20%+的優(yōu)勢遠超第二名。 具體來說,o3在半私有評估集上取得了突破性的75.7%高分,在高計算量模式(172倍計算量)下得分高達87.5%。 作為對比,ARC-AGI在此前的4年時間里,正確率僅增長了5%——從2020年GPT-3時的0%到2024年GPT-4o的5%。 o3顛覆了所有關于AI能力的直觀感受。 畢竟,就算在GPT-4上投入再多的計算,也無法獲得這樣的結(jié)果。 但問題在于,提高準確率的代價是巨大的:人類在完成ARC-AGI基準測試時,每項任務大約只需支付5美元,且只消耗幾美分的能量;而o3在低計算量模式下,每個任務需要17-20美元。 盡管87.5%這個更高得分排名性價比很低,但能證明隨著計算量的增加,模型的性能確實有所提升。 還不是AGI在ARC-AGI「公開評估」(Public Eval)中,有大約9%的任務,即便o3加大計算量也無法解決。但對于人類來說卻十分簡單。 擦擦眼睛,試試能否打敗目前最強的o3模型。 在嘗試前,請注意:在下面這個例子中,箭頭前的圖片(即上方圖片)表示輸入,箭頭后的圖片(下方的圖片)表示輸出,灰色部分表示數(shù)據(jù)集中的例子,綠色部分為o3的兩次錯誤嘗試,最后一部分為答案。 在第一個例子中,o3先是給出了一個錯到離譜的答案,然后在第二次輸出中生成了一大片黑色像素…… 這似乎是目前為止最差的一次結(jié)果,而且很難解釋為什會這樣。 第二個例子有點考驗眼力,雖然每一行都對了的,但網(wǎng)格卻沒有對齊。 第三個例子,o3沒有將藍色圖塊拉到左側(cè)邊欄。 最后一個例子,在兩次嘗試中,o3的預測中漏掉了幾行。看來,它很難記住有多少相同重復的行要輸出。 GPT-5將帶來「重大飛躍」? 在10月, 投資者給予OpenAI的1570億美元估值,很大程度上基于奧特曼預測GPT-5將在各類學科和任務上實現(xiàn)「重大飛躍」。 目前并沒有固定的標準,來判斷一個模型是否足夠智能到可以被稱為GPT-5。 普遍的看法是GPT-5能夠解鎖新的科學發(fā)現(xiàn),同時能完成日常任務(如門診預約或訂機票)。 研究人員希望它犯更少的錯誤,或至少能在犯錯時承認自己對答案也有所懷疑,即減少所謂的「AI幻覺」。 一位前OpenAI高管表示,如果說GPT-4的表現(xiàn)像個聰明的高中生,那么未來的GPT-5在某些任務上將相當于擁有博士學位水平。 今年早些時候,奧特曼在斯坦福大學的一次演講中告訴學生,OpenAI可以「以高度的科學確定性」說,GPT-5將比當前模型更加智能。 公司高管們主要基于經(jīng)驗判斷和技術評估,或者如許多技術專家所說的「整體表現(xiàn)」,來決定模型是否達到了GPT-5的水平。 但是,到目前為止,這種「整體表現(xiàn)」并不理想。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選