Claude 3的競技場排名終于來了: 短短3天內(nèi),20000張投票,將榜單的流量推向空前。 最終,Claude 3最強的“大杯”模型Opus得分1233,成為第一個能和GPT-4-Turbo一較高下的選手。 “中杯”Sonnet也還不錯,和GPT-4的兩個舊版本不相上下。 不過總的來說,還是GPT-4系列占據(jù)上風(fēng)。 Claude 3的表現(xiàn)和宣傳有些許出入。如網(wǎng)友總結(jié): GPT-4還是大模型之王! 但,免費的“中杯”Claude 3(Sonnet)更物超所值。 大模型競技場出爐,“新王”排第三 Claude 3發(fā)布時官方的宣傳是全面超過了GPT-4,但沒提是哪個版本的GPT-4。 競技場榜單(LMSYS Chatbot Arena Leaderboard)的最新更新,幫咱摸清了。 來看詳細(xì)情況。 排在第一名的是OpenAI去年11月推出的GPT-4 Turbo,也就是: GPT-4-1106-preview。 它功能更強價格也更便宜,具有128k上下文,訓(xùn)練數(shù)據(jù)從此前的2021年9月更新到2023年4月。 與它并列第一的是GPT-4 Turbo最新的版本,今年一月發(fā)布的: GPT-4-0125-preview。 它的訓(xùn)練數(shù)據(jù)更廣,擴展到了2023年12月。 兩者均取得了1251的分?jǐn)?shù)。 接著才是Claude 3(訓(xùn)練數(shù)據(jù)截止到2023年8月)。 它的最強版本Opus得分1233,比GPT-4 Turbo低了18分。 這個差距相比起來不算太大,畢竟再往下看: 它比GPT-4的兩個版本(0314、0613)分別高了48分、72分。 至于中等性能的Claude 3 Sonnet,則排名第6,位于GPT-4這兩個版本之間: 不過只比0314版低5分,大有潛力一舉超越。 所以總的來說,官方宣傳的也算沒大毛病,全面超越老版GPT-4,但離GPT-4 Turbo還有點距離,盡管不算太大。 ——從此榜單的評比機制等情況來看,它的結(jié)果還是相當(dāng)有業(yè)內(nèi)認(rèn)可度的。 它由“小羊駝”(Vicuna)的作者團隊發(fā)起。 但裁判官不是“小羊駝”,更不是GPT-4,而是基于人類偏好。 詳細(xì)來說,也就我們隨機向兩個匿名模型提出任意問題,然后評價它們各自的回答,把票投給更好的那一個。 如果一輪投不出,咱可以選擇繼續(xù)提問。如果聊天中模型不小心透露了自己的身份,投票則作廢。 特別的,計分規(guī)則采用Elo機制來保證公平(玩王者榮耀的朋友都熟)。 舉個例子:如果某個模型輸了,但它的分?jǐn)?shù)不一定低,因為它本身實力就弱,這是預(yù)料之中。 截止目前,這個榜單可以說是非常火爆,已經(jīng)有全球73個模型參與挑戰(zhàn),共收到了網(wǎng)友們37萬張+投票。 通義千問擠進前10 除了Claude 3,我們再看看其他表現(xiàn)亮眼的選手。 首先要提的就是基于Gemini Pro的Bard,排名第四,僅次于GPT-4Turbo和Claude 3。 可以說是有點讓人驚喜。 網(wǎng)友戲謔: 谷歌這是生生在在排行榜上開了個“洞”啊。 并連忙艾特JeffDean和DeepMind負(fù)責(zé)人:喂,加把勁兒啊(旺柴) 然后要說的就是阿里通義千問(1.5版本,上個月發(fā)布)。 它在本次排名中擠進了前十、并列第九,是國內(nèi)選手中表現(xiàn)最好的。 被它甩在身后的,除了其他國產(chǎn)選手,還有Claude 2、Gemini Pro和GPT-3.5等等。 完整榜單:https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard 參考鏈接:https://twitter.com/lmsysorg/status/1765774296000172289 文章來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選