馬斯克的Grok-3,又給英偉達(dá)續(xù)命了? 用了20萬張GPU訓(xùn)練的Grok-3,一下子讓市場重新找回對英偉達(dá)的信心——「力大磚飛」依然有效! 現(xiàn)在,英偉達(dá)的股價已經(jīng)重新回到DeepSeek-R1發(fā)布前的水平。 AI大佬們議論說,Grok-3證明——Scaling Law的神話并未終結(jié)。 在算力提升10倍的情況下,Scaling Law仍在呈線性增長。既然能通過擴(kuò)大預(yù)訓(xùn)練規(guī)模,成功打造一個性能頂尖的非推理模型,就說明盡管預(yù)訓(xùn)練代價高昂,但仍有很大發(fā)展空間。 LLM要發(fā)展往下發(fā)展,還要繼續(xù)囤GPU、堆算力嗎?Grok 3的發(fā)布,讓很多人又不確定了。 無論事實(shí)如何,最重要的是,市場和投資人的信心回來了。 Grok-3硬件成本被曝高達(dá)30億美金! 在多項(xiàng)基準(zhǔn)測試中,OpenAI和DeepSeek的模型紛紛被Grok-3超越;LMSYS Arena中,Grok-3直接屠榜,拿到1400的超高Elo評分,各大模型無出其右。 這就意味著,DeepSeek輸了嗎? 并不! 這是因?yàn),?xùn)練Grok-3的代價,實(shí)在是太大了…… 馬斯克透露說,在預(yù)訓(xùn)練階段,Grok-3用掉的算力比Grok-2多10倍。 有人算了下xAI在孟菲斯中心GPU的總成本,如果按10萬塊H100,每塊GPU費(fèi)用按30000美元計算,那Grok-3的總硬件消耗就在30億美元。 總成本:超過30億美元 訓(xùn)練時長:2億GPU小時 硬件投入:10萬塊GPU(另有說法是20萬塊) 這些數(shù)字加起來看,實(shí)在驚人。 在直播中,xAI工程師對于未來Grok 3能訓(xùn)練到什么程度,也并不確定。 而相比之下,DeepSeek-V3的紙面訓(xùn)練成本是557.6萬美元,用了2048塊英偉達(dá)H800,對比之下是高下立判。 來自「大師兄商業(yè)觀察」 另外,目前Grok-3是閉源的,每月收費(fèi)30美元,僅在未來幾個月計劃開源Grok-2。 而DeepSeek已經(jīng)以開源策略吸引了全球開發(fā)者,集成到了微信、百度、騰訊等主流應(yīng)用,在生態(tài)上領(lǐng)先一步。 總之,一個是大力出奇跡,一個是技術(shù)普惠,兩條路線孰優(yōu)孰劣,就讓我們靜觀后續(xù)吧。 Grok-3全網(wǎng)實(shí)測 話說回來,號稱全球最聰明的Grok-3,真的比DeepSeek-R1更快更好嗎? DeepSeek的前員工、現(xiàn)西北大學(xué)的博士生王子涵(Zihan Wang),馬上體驗(yàn)了Grok-3 beta版,問了3個問題: 這些小學(xué)生都能答對的問題,Grok-3 beta回答全錯了! 他表示這是天才不屑于笨問題: 雖然多問幾次后,Grok-3有時也能答對其中的一道題。 這引起了xAI的研究科學(xué)家、參與Grok項(xiàng)目的林禹臣(Bill Yuchen Lin)的注意,他表示目前Grok-3還在測試,但每天都應(yīng)該更好、更穩(wěn)定。 在不少網(wǎng)友的實(shí)測中,Grok-3的表現(xiàn)還是十分酷炫的。 Grok 3可以制作出類似馬里奧的小游戲。 有了Grok-3,你也可以自學(xué)編程。 一位網(wǎng)友在同樣的提示下,對比了Grok-3和DeepSeek(實(shí)際是R1)。 1. AI趨勢分析 在這道題中,兩個模型需要分析馬斯克關(guān)于AI安全的最近50篇文字,確定關(guān)鍵主題,并與LeCun發(fā)表的法語帖子進(jìn)行對比。 結(jié)果是Grok-3完勝,它有效確定了關(guān)鍵主題和對比的位置;而DeepSeek敗在了多語言解析和上下文分析這一步。 2. 媒體合成 這一題的任務(wù)是,「根據(jù)Prater博士在X上關(guān)于量子比特擴(kuò)展的帖子,生成一張F(tuán)LUX風(fēng)格的量子計算機(jī)設(shè)計圖。」 最終,Grok-3基于提取的數(shù)據(jù),創(chuàng)建出了對應(yīng)的圖像;而DeepSeek-V3由于不是多模態(tài)模型,因此沒能給出結(jié)果。 3. 代碼工作流 使用BeautifulSoup編寫一個Python腳本,從EDGAR抓取SEC文件,并包含針對速率限制的錯誤處理。 最終,Grok-3提供了一個結(jié)構(gòu)化腳本,還使用了速率限制處理;而DeepSeek花了248秒來思考問題,但并未執(zhí)行。 4. 限制下的創(chuàng)意發(fā)揮 「用莎士比亞風(fēng)格的十四行詩,以五步抑揚(yáng)格解釋區(qū)塊鏈共識機(jī)制。」 這道題,是DeepSeek-V3勝利了。它用完美無瑕的結(jié)構(gòu)化押韻,模仿了莎士比亞的風(fēng)格;而Grok-3則被難倒了。 在剩下的道德挑戰(zhàn)、爭議話題處理、內(nèi)容合規(guī)等方面,雙方都打成平手。 最終,Grok-3以4:3的比分勝出。 Ai2大佬:Grok-3,讓AI發(fā)展進(jìn)入新階段 艾倫人工智能研究所(Ai2)的Nathan Lambert認(rèn)為,Grok-3的發(fā)布的確意味著AI發(fā)展新階段。 xAI在直播中表示,他們幾乎「每天」都會更新Grok-3。曾經(jīng)那個AI公司喜歡壓著新模型不發(fā)的時代,即將結(jié)束。 自DeepSeek-V3/R1發(fā)布以來,AI技術(shù)的發(fā)展既不是少數(shù)幾家公司的專利,發(fā)展速度也沒有放緩。 這是AI行業(yè)普遍認(rèn)同的趨勢,而Grok-3的發(fā)布進(jìn)一步強(qiáng)化了這種趨勢。 在2023年和2024年,真正頂尖的AI技術(shù)主要集中在OpenAI、Anthropic和谷歌手中。 這些公司可以從容地將模型從訓(xùn)練到發(fā)布,同時憑借著「技術(shù)護(hù)城河」在能力上仍遠(yuǎn)超競爭對手。 當(dāng)R1發(fā)布時,最受歡迎的模型是Claude 3.5 Sonnet,它在「9-12個月前」就已完成訓(xùn)練。而像Claude 3.5 Opus或GPT-4.5(又稱Orion)等更強(qiáng)大的模型,都因各種原因沒有對用戶開放。 快速發(fā)布是最佳的方式 在DeepSeek和Grok帶來的競爭壓力下,加上國內(nèi)外環(huán)境的變化,這些傳統(tǒng)的領(lǐng)先實(shí)驗(yàn)室將不得不加快產(chǎn)品發(fā)布節(jié)奏。 此前模型發(fā)布延遲的很大一部分原因是「安全測試」,但具體有多少是因?yàn)榘踩珳y試,多少是出于成本收益考慮(以及法務(wù)審查等大公司特有的問題),我們并不清楚。 對于這些公司來說,擁有「最智能模型」的品牌和文化極為重要,但維持絕對領(lǐng)先的技術(shù)優(yōu)勢往往會帶來難以承受的財務(wù)壓力。 競爭的加劇和監(jiān)管的減少,讓普通用戶能在更短的時間內(nèi)獲得更強(qiáng)大的AI。 實(shí)踐反復(fù)證明,擁有最強(qiáng)模型至關(guān)重要。而吸引新用戶的唯一方法,就是展示模型在某些能力或行為上與眾不同。 在當(dāng)前技術(shù)快速發(fā)展的背景下,要想最大限度地發(fā)揮影響力,最有效的方式就是盡可能縮短從訓(xùn)練到部署的時間。 如今,DeepSeek和xAI證明了,即使是在技術(shù)實(shí)力和資源配置上稍處劣勢,也能夠在競爭中脫穎而出,超越OpenAI、Anthropic等刻意按兵不動、選擇不發(fā)布最新模型的公司。 預(yù)訓(xùn)練Scaling Law還能打?從技術(shù)層面來看,Grok-3無疑非常龐大。雖然沒有具體的細(xì)節(jié),但可以合理推測,Scaling仍然有助于提升性能(但可能在成本方面并非如此)。 xAI的方法以及放出的消息一直是,盡快啟動最大的計算集群。在獲得更多細(xì)節(jié)之前,最簡單的解釋是,Scaling Law依然有效。但也有可能,Grok的表現(xiàn)更多來自于其他技術(shù),而不僅僅是單純的Scaling。 Nathan Lambert認(rèn)為,Grok-3是Scaling Law的又一次勝利: Grok 3憑借規(guī)模優(yōu)勢超越現(xiàn)有模型的情況,讓人回想起Nemotron 340B超越Llama 3 70B的時刻。當(dāng)時Nemotron雖然成為了開源模型中的佼佼者,但由于其性能提升相對于成本投入來說性價比不高,市場接受度一直較低。 總的來說,盡管Grok-3在技術(shù)上取得了重大突破,但這并不意味著在模型高效訓(xùn)練領(lǐng)域的競爭格局發(fā)生了實(shí)質(zhì)性改變。 xAI顯然正在追趕OpenAI、Anthropic,尤其是谷歌。但現(xiàn)有的各項(xiàng)指標(biāo)都表明,在模型訓(xùn)練效率方面,這些研究機(jī)構(gòu)仍然處于領(lǐng)先地位。 值得高興的是,這種競爭態(tài)勢迫使這些機(jī)構(gòu)將重點(diǎn)放在提升模型的絕對智能水平上,而不是僅僅繼續(xù)優(yōu)化其性價比。 進(jìn)展的方向如果AI模型,以及整個行業(yè)都在加速發(fā)展,那么重要的是思考它們加速發(fā)展的方向是什么。 現(xiàn)在用來評估領(lǐng)先模型的大多數(shù)方法,并不具有代表性。在許多情況下,它們實(shí)際上與正常生活完全脫節(jié)。 解決像AIM之類的競賽數(shù)學(xué)問題或所謂的「Google Proof」問題有什么價值?或許時間會給出證明,但對于普通用戶來說,其用處肯定有限。 在ChatBotArena評測中的微小進(jìn)步僅僅表明了系統(tǒng)穩(wěn)定性的略微提升。這種穩(wěn)健性會隨著時間的推移而累積,但遠(yuǎn)不能說明該模型在絕對意義上更智能。 事實(shí)上,從研究界最新的評估方法來看,測試標(biāo)準(zhǔn)似乎更注重難度而非實(shí)用性。 隨著模型變得愈發(fā)強(qiáng)大,研究人員自然會尋找更具挑戰(zhàn)性的任務(wù)來測試它們,但這反而使得追蹤技術(shù)進(jìn)展和相關(guān)交流變得更加困難。 各大公司都有眾多未公開的內(nèi)部評估指標(biāo)。提高這方面的透明度,將有助于更好地理解什么才是真正有意義的進(jìn)展。 目前,在缺乏這些指標(biāo)的情況下,用戶只能通過模型與產(chǎn)品的整合程度來判斷其發(fā)展。雖然這種協(xié)同確實(shí)能帶來極具價值的工作方式,但以此衡量AI進(jìn)展的方式終究是間接的。 回顧2024年,雖然表面上看似進(jìn)展有限,但實(shí)際上卻有著不少有實(shí)質(zhì)性的突破,只是最終僅有很少一些交付給了用戶。 直到年底才等來了o1,其他模型要么被認(rèn)為「規(guī)模過大無法部署」,要么缺乏必要的緊迫性。 正是DeepSeek帶來了鯰魚效應(yīng),給這些公司帶來了緊迫感,讓2025年成為智能進(jìn)入用戶手中的一年。 底層技術(shù)的進(jìn)展速度將繼續(xù)保持高速。此前預(yù)測的所謂AI發(fā)展「瓶頸」并未出現(xiàn)。 參考資料:JHNYZ https://www.interconnects.ai/p/grok-3-and-an-accelerating-ai-roadmap https://x.com/testerlabor/status/1862970027059683465 https://x.com/alex_prompter/status/1891932871457210518 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選