基礎(chǔ)模型競(jìng)爭(zhēng)又緊張刺激起來(lái)了! GPT-4.5剛登頂競(jìng)技場(chǎng)且全任務(wù)分類(lèi)第一名,6小時(shí)后總榜就被馬斯克的新版Grok-3反超。 兩者都是獲得3000+票數(shù),總分1412:1411只差一分。 目前Grok-3總分第一,只在總體帶風(fēng)格控制、困難提示詞帶風(fēng)格控制和略輸GPT-4.5一點(diǎn)。 DeepSeek-R1總分第6,數(shù)學(xué)和困難提示詞帶風(fēng)格控制分項(xiàng)與GPT-4.5并列第一。 也有用戶(hù)對(duì)此結(jié)果產(chǎn)生了懷疑,僅僅6個(gè)小時(shí)就能發(fā)生如此大的變化嗎? 有人解釋原因在于,大模型競(jìng)技場(chǎng)有一個(gè)投票數(shù)量門(mén)檻,兩個(gè)一周前發(fā)布的模型剛好先后達(dá)到3000票才會(huì)出現(xiàn)在榜單上。 不過(guò)拋開(kāi)跑分之外,GPT-4.5的口碑也在悄然翻轉(zhuǎn)。 GPT-4.5口碑翻轉(zhuǎn) GPT-4.5剛發(fā)布時(shí)顯得又大又貴,官方強(qiáng)調(diào)情商看起來(lái)很虛,看跑分也沒(méi)比GPT-4o高到哪里去了。 但幾天后,夸他情商高的用戶(hù)確實(shí)多了起來(lái)。 奧特曼本曼也發(fā)表一條感言:有時(shí)高品位測(cè)試者是對(duì)的。 他還爆料,這是這輩子第一次有人發(fā)郵件求他承諾以后不會(huì)下架這個(gè)模型 奧特曼也曬出了一些自己與GPT-4.5對(duì)話(huà)的聊天記錄,針對(duì)奧特曼自己寫(xiě)的六個(gè)單詞小故事“臨近奇點(diǎn),不清楚在哪一側(cè)”,GPT-4.5的看法如下:
One More Thing 與此同時(shí)GPT-4.5還登頂了一個(gè)另類(lèi)榜單,類(lèi)似大模型狼人殺: AI模型參加多輪淘汰賽,比賽中需要公開(kāi)辯論、私下制定策略并投票淘汰其他人,最終獲勝者由被淘汰的參賽者組成的陪審團(tuán)決定。 在結(jié)盟、欺騙、背叛、表現(xiàn)得不具威脅性等方面都是第一,且比人類(lèi)優(yōu)秀。 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。