首頁(yè) > 科技要聞 > 科技> 正文

Grok-3免費(fèi)上線!答對(duì)9.11和9.9誰(shuí)大,1分攻克MIT積分難題

新智元 整合編輯:太平洋科技 發(fā)布于:2025-02-23 00:15

世界首個(gè)20萬(wàn)塊GPU(另有說法是10萬(wàn))訓(xùn)出的Grok-3,官宣人人可用了!

DeepSearch、Think兩大模式,同時(shí)上線。唯獨(dú)遺憾的是,Big Brain還在雪藏。

Grok 3全部免費(fèi)開放,直到服務(wù)器崩潰為止

一邊,AI科技圈開發(fā)者激動(dòng)地奔走相告,另一邊,OpenAI和xAI直接打起來了。

先是本科輟學(xué)的OpenAI研究員Aidan McLaughlin,譴責(zé)Grok-3在評(píng)測(cè)中用基于64個(gè)樣本進(jìn)行多數(shù)投票刷分。

灰色陰影區(qū)域表示在64個(gè)樣本下的多數(shù)投票一致性表現(xiàn)

隨后,OpenAI應(yīng)用研究主管Boris Power更是絲毫不留情面,「看到Grok團(tuán)隊(duì)在評(píng)估中作弊和欺騙的動(dòng)機(jī),真令人失望。簡(jiǎn)而言之,o3-mini在每個(gè)評(píng)估中都優(yōu)于Grok-3。Grok-3確實(shí)是一個(gè)不錯(cuò)的模型,但沒有必要過度宣傳」。

對(duì)此,xAI高級(jí)工程師Igor Babuschkin,「完全不對(duì)。我們只是用了和你們一樣的方法」。

從下圖中不難看出,o1-preview和o1確實(shí)有同款「陰影」。

不過,根據(jù)McLaughlin的解釋道,OpenAI o3-mini并沒有使用這種方法。

OpenAI與xAI針鋒相對(duì),也不是一天兩天了,好在他們的競(jìng)爭(zhēng),利好所有人。

話不多說,直接上實(shí)測(cè)吧。

一波實(shí)測(cè)來了

就在昨天,「Grok-3答錯(cuò)9.11和9.9哪個(gè)大」這個(gè)話題,還一度沖到熱搜話題前幾。

我們實(shí)測(cè)發(fā)現(xiàn),果然,如果用同樣的方式問,Grok-3還是會(huì)答錯(cuò)。

而在開啟Think模式后,它只思考了4秒就輕松做對(duì)了!

有趣的是,如果把prompt換成「9.11和9.9誰(shuí)大」,Grok-3在普通模式下也能給出正確答案了。

然而,在開啟Think模式之后,Grok-3卻為了這個(gè)prompt想了足足34秒……

有網(wǎng)友實(shí)測(cè)Grok-3 二十四小時(shí)后,發(fā)現(xiàn)它的幾大優(yōu)點(diǎn)——

對(duì)代碼真的很好;

上下文窗口非常非常長(zhǎng);

能充分利用上下文;

擅長(zhǎng)遵循指令;

而且有一個(gè)非常令人愉快的性格。

在代碼工作流中,Grok-3表現(xiàn)得十分絲滑。

有人用Grok-3做了個(gè)帶聲音的視頻游戲,主題是馬斯克使用激光、火箭和嬰兒來摧毀美國(guó)政府。

耗時(shí)一個(gè)小時(shí)后,Grok-3成功做出了這個(gè)游戲。

網(wǎng)友只用5分鐘,就寫出了一款大戰(zhàn)小行星的游戲。

另一種形式的游戲如下。

甚至有人只在幾分鐘內(nèi),就用Grok-3和Imagen 3、tripoai等工具,創(chuàng)建了下面這些逼真的3D模型。

有人總結(jié)了一份Grok-3全部潛能的完整速查表,因?yàn)樗笍?qiáng)大到瘋狂」,但大多數(shù)人還不知道該如何有效使用。

照片級(jí)真實(shí)的圖像

Grok-3是不是世界上最聰明的AI還有待考察,但它現(xiàn)在確實(shí)可以生成照片級(jí)真實(shí)的圖像。

X網(wǎng)友Min Choi分享了10個(gè)案例。

在海灘上的隨意自拍

瘋狂的細(xì)節(jié),你可以看到每根羽毛

SpaceX的火箭

圖像細(xì)節(jié)程度簡(jiǎn)直令人驚異的眼睛特寫

月球網(wǎng)絡(luò)探測(cè)車

在紐約地鐵上的自拍

走秀的貓咪

微型小熊貓的微距鏡頭

一位年輕白化男子手持綠色小狗的文藝復(fù)興風(fēng)格肖像

水池邊的自拍

對(duì)此,有網(wǎng)友說,我們現(xiàn)在已經(jīng)很難分清圖片上的是不是現(xiàn)實(shí)了。

「我們已經(jīng)跨越了那個(gè)門檻!」,Min說。

不過也有網(wǎng)友發(fā)現(xiàn)了它的一些缺點(diǎn),比如生成正在倒立的人物時(shí),依然會(huì)出現(xiàn)匪夷所思的問題。

網(wǎng)友實(shí)測(cè),Grok-3在2024麻省理工積分大賽中,直接干掉o1 Pro和人類選手,并在1分02秒內(nèi)解決了這個(gè)問題!

就連馬斯克稱贊道,簡(jiǎn)直太酷了。

高級(jí)語(yǔ)音模式,期待住了

下一步,Grok-3或許還會(huì)推出高級(jí)語(yǔ)音模式,一些拿到灰度測(cè)試的網(wǎng)友曬出了自己的實(shí)測(cè)。

它不僅支持聯(lián)網(wǎng)模式,還支持自定義語(yǔ)音模式、語(yǔ)音轉(zhuǎn)錄、音頻分享等功能。

目前,默認(rèn)的是Sal男性聲音。此外,還有一個(gè)Ara女性聲音可選。

用戶界面底部有三個(gè)鍵:關(guān)閉退出語(yǔ)音模式;靜音;分享

如下是轉(zhuǎn)錄功能的展示。

參考資料:

https://x.com/xai/status/1892400129719611567

本文來源:新智元

新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷量超過3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部