首頁(yè) > 科技要聞 > 科技> 正文

馬斯克“地表最強(qiáng)”Grok 3炸場(chǎng),競(jìng)技場(chǎng)首超1400分

量子位 整合編輯:太平洋科技 發(fā)布于:2025-02-19 15:47

2月18日,馬斯克xAI的Grok 3終于亮相(超300萬(wàn)人次圍觀)!

一出道即巔峰,競(jìng)技場(chǎng)(lmarena.ai)官方給出了這樣的評(píng)價(jià):

Grok 3是首個(gè)突破1400分的模型,并且在所有類(lèi)別中排名第一。

而且,Grok 3還是首個(gè)在10萬(wàn)張(后擴(kuò)展到20萬(wàn))H100集群上訓(xùn)練出的模型。

在發(fā)布預(yù)告消息的時(shí)候,馬斯克就對(duì)Grok 3大力夸贊,稱(chēng)其是“地球上最聰明的AI”。

發(fā)布之前,大神Karpathy獲得了搶先體驗(yàn)資格,玩了兩個(gè)小時(shí)之后發(fā)長(zhǎng)文詳述了自己的感受。

Karpathy認(rèn)為,Grok-3的思考能力達(dá)到了SOTA,推理水平和o1-pro差不多,略好于DeepSeek R1和Gemini的推理模型。

如果考慮到Grok 3是一年前從頭開(kāi)始訓(xùn)練的,取得這樣的成績(jī)屬實(shí)不可思議。

并且對(duì)于數(shù)字母、小數(shù)比大小這些經(jīng)典大模型“難題”,Grok 3在開(kāi)啟推理之后也都正確解決。

不過(guò)也人質(zhì)疑Grok的地位,有一位仿冒老黃的網(wǎng)友說(shuō),Grok 3即便真的是最強(qiáng),也最多只能強(qiáng)一周。

加上OpenAI也劇透了下一代GPT計(jì)劃,馬斯克和奧特曼的另一場(chǎng)推特大戰(zhàn)就要爆發(fā)了。

奧特曼昨晚也發(fā)推稱(chēng),GPT-4.5的測(cè)試讓他感受到了比預(yù)期更強(qiáng)烈的“feel the AGI”的感覺(jué)。

還有網(wǎng)友到評(píng)論區(qū)起哄,讓他在早上截胡馬斯克,直播發(fā)布GPT-4.5。

言歸正傳,我們來(lái)看直播都講了啥。

20萬(wàn)張H100,訓(xùn)出最強(qiáng)模型

這次直播一共有四人參與,除了馬斯克之外,較為醒目的就是坐在C位的兩位華人,他們都是xAI創(chuàng)始成員。

二人從左至右分別是:

Jimmy Ba,2023年斯隆獎(jiǎng)得主,Hinton手下的助理教授,本科到博士都在多倫多大學(xué)。

吳宇懷Yuhuai(Tony) Wu,斯坦福大學(xué)博士后,博士畢業(yè)于多倫多大學(xué)。

而最左邊的則是Igor Babuschkin,是xAI的一位工程師。

四人先是介紹了Grok 3的訓(xùn)練歷程。

去年馬斯克劇透,Grok 3在10萬(wàn)張H100上進(jìn)行訓(xùn)練,是首個(gè)達(dá)到如此訓(xùn)練集群規(guī)模的模型。

當(dāng)時(shí)就有網(wǎng)友稱(chēng)這簡(jiǎn)直是神經(jīng)網(wǎng)絡(luò)的超級(jí)工廠。

今天的發(fā)布會(huì)上又透露,到訓(xùn)練進(jìn)行到第92天時(shí),集群規(guī)模擴(kuò)展到了20萬(wàn)卡。

如此強(qiáng)大算力,xAI也是緊跟潮流在Grok 3中推出了思維鏈推理能力。

在此前迪拜的一場(chǎng)峰會(huì)上,馬斯克高調(diào)宣稱(chēng):

Grok 3具有強(qiáng)大推理能力,聰明程度超越目前所有已知模型。

這一波Grok 3有滿(mǎn)血和mini兩個(gè)版本,在數(shù)學(xué)、科學(xué)、代碼等數(shù)據(jù)集上表現(xiàn)均超過(guò)了GPT-4o、DeepSeek-V3等非推理模型。

并且Grok 3早期還化名“巧克力”打榜LMSYS,一舉奪魁并成為唯一一個(gè)得分超1400的模型

在Grok 3和mini的基礎(chǔ)之上,xAI團(tuán)隊(duì)還打造了兩款推理模型

其中基于mini的推理模型(Grok 3 mini Reasoning)已經(jīng)比較成熟,而基于滿(mǎn)血版的推理模型(Grok 3 Reasoning Beta)還處在Beta階段。

介紹成績(jī)之前,四人用馬斯克的賬號(hào)先讓Grok跑了兩個(gè)案例,分別和物理學(xué)以及游戲相關(guān)。

生成一段代碼,為從地球降落在火星,然后在下一個(gè)發(fā)射窗口返回地球的發(fā)射繪制三維動(dòng)畫(huà)圖表。

生成的過(guò)程中,有人開(kāi)玩笑說(shuō)什么時(shí)候能把Grok裝到SpaceX的火箭上,馬斯克也回應(yīng)說(shuō)可能再過(guò)2年。

馬斯克還表示,如果一切順利,SpaceX將在大約2025年11月左右,也就是下一個(gè)地球-火星轉(zhuǎn)移窗口期,用星艦把擎天柱機(jī)器人送上火星。

說(shuō)回Grok,在考慮了開(kāi)普勒定律并將其轉(zhuǎn)化為代碼之后,最終生成了可以繪制出這樣的動(dòng)畫(huà)的代碼:

第二個(gè)問(wèn)題開(kāi)啟了Big Brain模式,會(huì)讓模型用更多的計(jì)算資源去做更多的思考。

題目要求則是使用pygame組件,設(shè)計(jì)一款游戲,把俄羅斯方塊和寶石迷陣縫合到一起。

同時(shí)還提示代碼可能會(huì)很長(zhǎng),需要保存到一個(gè)文件當(dāng)中,并且要“insanely great”。

而Grok 3也不負(fù)眾望,把這兩款游戲成功結(jié)合,并介紹了合體版游戲的特點(diǎn):

運(yùn)行起來(lái)是醬嬸兒的,既有俄羅斯方塊的消除機(jī)制,又根據(jù)寶石迷陣的特點(diǎn)調(diào)整成了三個(gè)方塊消除一次。

再來(lái)看跑分結(jié)果,在數(shù)學(xué)、科學(xué)和代碼任務(wù)中,兩者都取得了不俗的成績(jī)。

并且如果讓他們“多思考”(柱狀圖上方淺色部分)之后,表現(xiàn)超越了DeepSeek-R1和高配版o3-mini。

不過(guò),目前很多模型都在Benchmark上出現(xiàn)了“過(guò)擬合”的現(xiàn)象,那么Grok 3的實(shí)際表現(xiàn)究竟咋樣呢?

研發(fā)團(tuán)隊(duì)讓它們挑戰(zhàn)了今年AIME 2025競(jìng)賽的試題,結(jié)果Grok-3 Reasoning Beta和mini Reasoning分別取得了93和90分的成績(jī),力壓其他推理模型。

除了Grok 3預(yù)訓(xùn)練模型和兩個(gè)推理模型之外,這次xAI團(tuán)隊(duì)還發(fā)布了一個(gè)AI Agent,叫做DeepSearch。

這個(gè)功能可以看做是xAI對(duì)OpenAI、谷歌等陸續(xù)推出的Deep Research功能的對(duì)標(biāo)。

簡(jiǎn)而言之,DeepSearch通過(guò)掃描互聯(lián)網(wǎng)和X來(lái)分析信息,并提供摘要來(lái)回答問(wèn)題。

至于權(quán)限方面,X的Premium+用戶(hù)今日起可以體驗(yàn)Grok 3。

獨(dú)立APP上,則需要訂閱SuperGrok——30美元/月300美元/年。

發(fā)布過(guò)程一波三折,語(yǔ)音模式推遲上線(xiàn)

而縱觀Grok 3問(wèn)世的整個(gè)過(guò)程,也可謂是一波三折。

去年8月,馬斯克接受知名訪談博主Lex Fridman采訪時(shí)曾說(shuō)過(guò),Grok 3在有望當(dāng)年年底發(fā)布。

結(jié)果一直到今年1月19號(hào),第一個(gè)測(cè)試實(shí)例才終于被公布,實(shí)際發(fā)布更是拖到了現(xiàn)在。

并且就在發(fā)布前的周末,xAI團(tuán)隊(duì)還在對(duì)Grok 3進(jìn)行緊急打磨。

xAI員工也現(xiàn)身說(shuō)法,周日晚11:30(北京時(shí)間周一下午3:30,也就是發(fā)布前不到24小時(shí))發(fā)帖表示還在熬夜趕工。

甚至到了發(fā)布會(huì)前一個(gè)半小時(shí),馬斯克突然宣布原本打算發(fā)布的語(yǔ)音功能需要延期。

馬斯克發(fā)推稱(chēng),語(yǔ)音模式還有些不穩(wěn)定,需要推遲到一周之后。

現(xiàn)場(chǎng)QA環(huán)節(jié)也有網(wǎng)友提問(wèn)具體發(fā)布時(shí)間,團(tuán)隊(duì)的回答是“很快會(huì)上線(xiàn)一個(gè)早期版本,然后逐步迭代”。

不過(guò),同屬馬斯克旗下的Neuralink高管Shivon Zilis曾體驗(yàn)過(guò)1個(gè)小時(shí)的Ara,并在北京時(shí)間今早發(fā)布了她的體驗(yàn)感受。

Shivon表示,那是她一生中最意外、最有意義的時(shí)刻之一。

她和Ara聊了生物學(xué)、量子糾纏等話(huà)題,還讓Ara出題檢驗(yàn)她的學(xué)習(xí)效果。

結(jié)果Shivon只答對(duì)了一半的問(wèn)題,但Ava非常耐心地向她解釋了其余的問(wèn)題,而且并不會(huì)嫌問(wèn)題問(wèn)得過(guò)于愚蠢。

當(dāng)時(shí)還有人在評(píng)論區(qū)追問(wèn),Ara是語(yǔ)音版本嗎,Shivon給出了肯定的回答。

尋求100億美元新融資,還要進(jìn)軍游戲

事實(shí)上,老馬選擇此時(shí)發(fā)布Grok 3難免有一點(diǎn)微妙。

就在上周五,彭博社爆料x(chóng)AI正尋求一輪約100億美元的新融資,公司估值達(dá)到約750億美元(5454.6億元人民幣)。

現(xiàn)有投資者包括紅杉資本、Andreessen Horowitz以及Valor Equity Partners,正在洽談參與此次融資。

由于還沒(méi)有最終敲定,新模型的發(fā)布大概率將對(duì)本輪融資產(chǎn)生一定影響。

一旦上述消息得到確認(rèn),顯然xAI的融資速度實(shí)在有點(diǎn)驚人了。

去年12月底,這家公司才剛完成了一輪60億美元的C輪融資,當(dāng)時(shí)公司估值510億美元。

短短不到兩個(gè)月,公司估值直接漲了約47%。而且再往前推,從B輪到C輪的融資,更是實(shí)現(xiàn)了半年內(nèi)估值翻倍。

可以說(shuō),僅成立不到兩年的xAI,已經(jīng)成長(zhǎng)為OpenAI的強(qiáng)大對(duì)手。

而有了充足資金的xAI,除了繼續(xù)發(fā)展模型,也官宣了其他方向——

押注游戲領(lǐng)域,成立AI游戲工作室。

這一消息最早在去年11月老馬就透露了,當(dāng)時(shí)他吐槽“過(guò)多游戲工作室掌握在大型企業(yè)手中”。

這下,老馬的商業(yè)版圖又將擴(kuò)展了。

One More Thing

就在Grok 3發(fā)布前幾日,還有一件非常抓馬的事引起熱議。

一位xAI工程師(現(xiàn)在是前員工了)公開(kāi)發(fā)帖將Grok 3與其他幾個(gè)競(jìng)品的代碼能力進(jìn)行了對(duì)比。

雖然清晰標(biāo)注了這是個(gè)人觀點(diǎn),但顯然他將自家模型Grok 3排在第4位(前三名都是OpenAI模型)的做法還是惹來(lái)了爭(zhēng)議。

隨后該員工爆料稱(chēng),公司要求他要么刪帖,要么被解雇,理由是這條帖子暴露了Grok 3的存在。

一聽(tīng)這話(huà),小哥覺(jué)得有點(diǎn)扯,畢竟Grok 3大家早就知道了,而且還甩出了馬斯克之前的發(fā)言截圖。

面對(duì)著xAI的這波小心眼,小哥也直接不慣著,帶著一篇洋洋灑灑的小作文,決定辭職了。

我會(huì)保持我的言辭和尊嚴(yán),找另一份工作,或者自己創(chuàng)業(yè)。回頭見(jiàn)。

對(duì)于這件事,老馬后來(lái)也回應(yīng)了“這很奇怪”,但后續(xù)沒(méi)有更多動(dòng)作傳出。

更戲劇的是,由于對(duì)工資支付產(chǎn)生爭(zhēng)議,小哥后來(lái)再次公開(kāi)發(fā)帖艾特老馬:

請(qǐng)做正確的事。

不過(guò),雖然已經(jīng)“分手”,但參與了Grok 3語(yǔ)音模式的小哥還是不計(jì)前嫌,多次幫忙宣傳Grok 3。

并且今天老馬宣布延期的語(yǔ)音模式,也是這位小哥所在團(tuán)隊(duì)的工作成果,即便已經(jīng)離職,小哥依然對(duì)這項(xiàng)工作感到自豪。

話(huà)說(shuō)回來(lái),你覺(jué)得這次的Grok 3如何?等到下一代GPT發(fā)布之后,老馬還能繼續(xù)保持領(lǐng)先嗎?

參考鏈接:
[1]https://x.com/i/broadcasts/1gqGvjeBljOGB
[2]https://x.com/karpathy/status/1891720635363254772
[3]https://x.com/shivon/status/1891587630854209768
[4]https://x.com/hyhieu226/status/1891390812795146746

本文來(lái)源:量子位

Grok 3    AI    OpenAI
量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類(lèi):破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類(lèi)小家電,漢美馳是這個(gè)品類(lèi)的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類(lèi)的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專(zhuān)訪漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部