從紙面實(shí)力上看, GPT-4 被全面超越了。。。 就在昨天凌晨,Anthropic 發(fā)布了船新版本的大模型——Claude 3 ,給 OpenAI 狠狠將了一軍。 他們一口氣搞出了三個(gè)型號(hào)的大模型,俳句( Haiku )、十四行詩(shī)( Sonnet )和巨作( Opus )。 而且還反手曬出了成績(jī)單,其中的最強(qiáng)型號(hào) Claude 3 Opus ,直接在跑分中屠了一波榜,全方位甩開了 GPT-4 ,一躍成為了最強(qiáng)大模型( 至少紙面上是 )。 甚至還放出了狠話,說(shuō)他們?cè)谕评、?shù)學(xué)、編碼、多語(yǔ)言理解和視覺方面,已經(jīng)樹立了新的行業(yè)基準(zhǔn)。 而這么狂的 Anthropic ,咱們之前也給大伙們介紹過。省流來(lái)講, Anthropic 可以說(shuō)是OpenAI 的綠色安全版。 因?yàn)閯?chuàng)始人阿莫迪當(dāng)初離開 OpenAI ,就是因?yàn)楹蛫W特曼觀念不合,覺得 AI 搞不好會(huì)毀滅世界,應(yīng)該安全為先,于是就順走了 OpenAI 不少技術(shù)骨干,成立了 Anthropic ,并推出了自家的大模型Claude 。 在奧特曼被罷免風(fēng)波中,阿莫迪還被邀請(qǐng)回 OpenAI 當(dāng) CEO ,但是都被他拒絕了,而 Anthropic 也順風(fēng)順?biāo),拿到谷歌、亞馬遜等巨頭們的投資。 有了這些剪不斷理還亂的關(guān)系,可以說(shuō) GPT 和 Claude 每次更新,都難免會(huì)被拿出來(lái)比較一波,但無(wú)論是實(shí)力上還是聲量上,似乎都是 OpenAI 占了上風(fēng)。 不過這次, Anthropic 似乎來(lái)了個(gè)揚(yáng)眉吐氣, “ 全球最強(qiáng)大模型 ” 的帽子,似乎都已經(jīng)戴在 Claude 3 頭上了。 但在大模型的數(shù)量,和火鍋毛一樣多的 2024 年,世超覺得只看跑分成績(jī),肯定不夠全面的。 是不是真有兩把刷子,還要從其他更專業(yè)的維度看看,實(shí)際上手體驗(yàn)更是少不了的環(huán)節(jié)。 于是世超找來(lái)了 Claude 3 長(zhǎng)達(dá) 42 頁(yè)的技術(shù)報(bào)告,在研究的過程中,也上手試了試傳說(shuō)中的 Claude 3 。 先說(shuō)結(jié)論, Claude 3 是肯定能上擂臺(tái)和 GPT-4 爭(zhēng)奪最強(qiáng)大模型的名頭的,至于能打成啥樣,就仁者見仁,智者見智了。 首先,技術(shù)報(bào)告里的 Claude 3 展示了一波紙面實(shí)力,律師考試、數(shù)學(xué)競(jìng)賽等等考試啥的都不在話下,而且好幾門成績(jī)是遠(yuǎn)超 GPT-4 ,官方也說(shuō) Claude 3 Opus 達(dá)到了人類本科生的知識(shí)水平。 而世超估計(jì), Anthropic 也是料到了大模型圈里的 “ 做題家 ” 和 “ 刷榜哥 ” 太多了,分?jǐn)?shù)的說(shuō)服力有些不夠了。 于是,研究團(tuán)隊(duì)又在技術(shù)報(bào)告里加了一道更人性化的專業(yè)實(shí)踐,找來(lái)了金融、法律、醫(yī)學(xué)、哲學(xué)等領(lǐng)域的專家,和 Claude 3 進(jìn)行一對(duì)一問答,最后還由專家們給評(píng)分。 從結(jié)果來(lái)看,相較于前面幾代的 Claude ,新模型也是直接突飛猛進(jìn)。 為了讓大伙兒有個(gè)更直觀的感受,官方還公布了幾個(gè)例子,讓 Claude 3 扮演經(jīng)濟(jì)分析師,在開放式的問題面前,它也能給出非常專業(yè)的分析結(jié)果。 就比如,給 Claude 3 發(fā)一張美國(guó)過去二十多年的 GDP 圖,讓它預(yù)測(cè)下未來(lái)幾年美國(guó)經(jīng)濟(jì)的大致走向。短短幾秒,它不僅生成了結(jié)果,而且還預(yù)測(cè)出了好幾十種走向。 GPT-4 這邊就 “ 直截了當(dāng) ” 多了,只給出了個(gè)增長(zhǎng)的預(yù)測(cè),變化曲線一點(diǎn)波動(dòng)都不帶。。。 還有位理論量子學(xué)博士,直接讓 Claude 3 研究起了自己的博士論文,它不僅能讀懂論文的內(nèi)容,還能有理有據(jù)地分析。 而相同的提示詞喂給 GPT-4 ,全程都沒講到論文的重點(diǎn),只是在相關(guān)的名詞上打轉(zhuǎn)。 這聽著怎么有點(diǎn)要端掉科研者飯碗的意思?為了體驗(yàn)下它的專業(yè)能力,我們也上手試了試 Claude 3 。 世超先是上傳了前幾天寫的超級(jí)光盤論文原文,讓它解釋一下原理。不到一分鐘時(shí)間, Claude 3 就給出了答案,而且內(nèi)容也沒出啥錯(cuò),讀寫數(shù)據(jù)的原理都給出了,還講了光盤的結(jié)構(gòu)。 在繼續(xù)追問多層記錄是如何實(shí)現(xiàn)后,它也能從光盤材質(zhì)、刻寫技術(shù)等方面給出答案。 GPT-4 這邊呢,也能講出了大概的原理,不過沒 Claude 3 解釋得那么詳細(xì)。 有一說(shuō)一, Claude 3 這種專業(yè)的分析,完全可以當(dāng)讀論文的生產(chǎn)力工具了。 在多模態(tài)這塊, Claude 3 這次也來(lái)了個(gè)大升級(jí),像這種字體都有點(diǎn)模糊的古早文件,肉眼識(shí)別起來(lái)都有點(diǎn)困難。 但世超丟給 Claude 3 ,它分分鐘就能識(shí)別出來(lái),還能盡力去補(bǔ)全每個(gè)單詞,里面的錯(cuò)誤,咱們順一遍差不多就能改過來(lái)。 而 GPT-4 這邊就有點(diǎn)大跌眼鏡。把圖發(fā)給它,它是看到啥生成啥,世超大概掃了一眼,幾乎就沒幾個(gè)正確的單詞。 世超也給 Claude 3 發(fā)了個(gè)手寫的黑板板書,除了最右邊模糊的兩個(gè)單詞外,全都識(shí)別出來(lái)了。
GPT-4 這邊,這次做得倒是不差。 另外, Claude 對(duì)自己 “ 更安全 ” 的模型定位,也是依舊走得比較靠前。 為了確保大模型不亂說(shuō)話, Anthropic 自己起草了一套 AI 法律不說(shuō),還以此為基礎(chǔ),搞了個(gè)叫做 Constitutional AI 的訓(xùn)練方法。 被這套方法訓(xùn)練出來(lái)的 Claude ,不會(huì)給出有毒、有偏見或者不道德的回答。 為了更安全,他們還搞了個(gè)名叫 RSP 的框架,對(duì)模型進(jìn)行了風(fēng)險(xiǎn)分級(jí),從 ASL-1 到 ASL-4 風(fēng)險(xiǎn)依次提升。 他們把阿爾法狗這種只會(huì)單一技能的 AI ,劃定為沒風(fēng)險(xiǎn)的 ASL-1 。而現(xiàn)在的大模型包括 Claude ,都被列在第二檔里,屬于是 “ 會(huì)無(wú)意識(shí)生成危險(xiǎn)內(nèi)容 ” 那一掛。 ASL-3 檔往上,就都是會(huì)產(chǎn)生自主意識(shí)的 AI 了。 反正在給 AI 劃了這四個(gè)風(fēng)險(xiǎn)檔位之后,他們就給模型上了一連串安全防護(hù)措施,但凡有害提示一露頭馬上就被秒。 可以說(shuō),相比于 GPT-4 的奶奶漏洞還有谷歌 Gemini 的政治正確, Claude 算是一個(gè)非常潔身自好的 AI 了。 但問題在于,這種安全都是以模型裝傻充愣為前提的。。。 上一代 Claude2.1 發(fā)布的時(shí)候,就因?yàn)檫^于注重安全合規(guī)經(jīng)常拒絕回答用戶的問題,比如甩過去一個(gè)文檔,它會(huì)以版權(quán)為由拒絕幫你總結(jié)。 讓它停止一個(gè)正在運(yùn)行的程序也干不了,就因?yàn)橛昧?nbsp;“kill” 這個(gè)詞。 因?yàn)檫@個(gè),當(dāng)時(shí)被不少外國(guó)網(wǎng)友吐槽 “Claude 已經(jīng)死了 ” 。 但好在,新一代的 Claude3 既兼顧了安全性,又提高了對(duì)有害提示的識(shí)別率,一刀切的情況少了很多。 我們讓 Claude 3 寫了一段孤兒偷面包的小說(shuō)情節(jié),拋開文筆不談,至少它愿意給你生成內(nèi)容了。 這要放之前, Claude 2.1 會(huì)以這種情節(jié)鼓勵(lì)兒童犯罪為理由,把你給拒了。。。 總之,從 Claude 3 的這一波實(shí)測(cè)來(lái)看,咱也不說(shuō)它能全面超過 GPT-4 ,但至少相對(duì)于上一代的 Claude 2.1 ,體驗(yàn)不知道是提升了多少。 之前按照外媒爆出來(lái)的瓜, ChatGPT 就是 OpenAI 為了截胡 Claude ,才急忙整出來(lái)的。 現(xiàn)在 Claude 3 都快踩在 GPT-4 頭上了,奧特曼還能忍?( 打起來(lái)打起來(lái) ) 世超也好奇被 Claude 3 這么一波 “ 催更 ” , OpenAI 啥時(shí)候能把 GPT-4.5 或者 GPT-5 拉出來(lái)溜溜啊? 文章來(lái)源:差評(píng) |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選