太平洋科技要聞

Claude 3為何能媲美GPT-4？

網(wǎng)易科技整合編輯：黃安莉發(fā)布于：2024-03-07 16:09

GPT-4勁敵來了?“殺手锏”總是來的靜悄悄，Anthropic 默默發(fā)布了Claude3，在業(yè)界引起了一次“大地震”。

Claude 3為何能媲美GPT-4?

Anthropic聲稱，此次發(fā)布的模型在一系列認(rèn)知任務(wù)中設(shè)定了新的行業(yè)基準(zhǔn)，甚至在某些情況下達(dá)到了“接近人類”水平。如果是其它模型這樣“自吹自擂”，怕是早就被噴的體無完膚了，但是Anthropic的創(chuàng)始團(tuán)隊(duì)來源于OpenAI，2021年因觀念不和才退出公司并自立門戶，可以說是OpenAI的最強(qiáng)對(duì)手之一了，實(shí)力不容小覷。

Anthropic 這次一口氣發(fā)布了三個(gè)人工智能語(yǔ)言模型，這三個(gè)模型的復(fù)雜性和參數(shù)數(shù)量排序依次為：Claude 3 Haiku，Claude 3 Sonnet和Claude 3 Opus。

其中Haiku響應(yīng)速度快、成本最低，包含多模態(tài)能力；Sonnet的成本和性能較為平衡，適合有預(yù)算使用AI,但預(yù)算不多的群體。Opus擁有接近人類的理解能力，適用于需要高度智能和復(fù)雜任務(wù)處理的場(chǎng)景，想要使用Opus的話需要訂閱“Claude Pro”服務(wù)，每月收費(fèi)20美元。

Claude的三個(gè)模型都具有20萬(wàn)標(biāo)記上下文窗口，而GPT-4 Turbo的上下文窗口為12.8萬(wàn)，也就是說，Claude一次性能處理的文本量是遠(yuǎn)遠(yuǎn)高于GPT的，同時(shí)，它也提供API給開發(fā)者使用。

我們?cè)賮砜纯碈laude官網(wǎng)透露的最新價(jià)格。其中MTok表示百萬(wàn)Token，Opus每100萬(wàn)條token收費(fèi)15美元，相比之下,GPT-4 Turbo模型的每百萬(wàn)token的收費(fèi)僅為10美元。不過，Haiku的價(jià)格低于GPT3.5，可以說使用Claude的話，豐儉由人了。

依靠合成數(shù)據(jù)，

安全性強(qiáng)于GPT？

2023年3月，Claude問世，7月Claude 2發(fā)布，但是彼時(shí)并未引起太大的水花。因?yàn)槊看危珹nthropic在性能方面都略微落后于OpenAI的最佳模型，但在上下文窗口長(zhǎng)度方面超過OpenAI。隨著Claude 3的發(fā)布，Anthropic的性能或許可以與OpenAI一較高下了。

根據(jù)Anthropic的說法，Claude 3 Opus在10個(gè)AI基準(zhǔn)測(cè)試中超過了GPT-4，包括MMLU（本科水平知識(shí)）、GSM8K（小學(xué)數(shù)學(xué)）、HumanEval（編碼）以及名為HellaSwag（常識(shí)）的基準(zhǔn)測(cè)試。其中一些測(cè)試只是“險(xiǎn)勝”，例如在MMLU的五次試驗(yàn)中，Opus以86.8％戰(zhàn)勝了GPT-4的86.4％，而有些測(cè)試則是“贏很大”，例如在HumanEval上，Opus的90.7％超過了GPT-4的67.0％。但這到底對(duì)用戶來說意味著什么，還很難界定。

“一如既往，應(yīng)該對(duì)LLM基準(zhǔn)持一些懷疑態(tài)度。”AI研究員Simon Willison公開評(píng)價(jià)道。“模型在基準(zhǔn)測(cè)試中的表現(xiàn)并不能告訴你模型在使用中‘感覺’如何。但這仍然是一件大事—沒有其他模型在一系列廣泛使用的基準(zhǔn)測(cè)試中擊敗GPT-4。”

與其前身相比，Claude 3模型還具有增強(qiáng)的視覺能力，使其能夠處理照片、圖表和圖解等視覺格式，類似于ChatGPT的DALLE-3和Google的Gemini。

除此之外，Anthropic在Claude 3通過在訓(xùn)練過程中使用合成數(shù)據(jù)實(shí)現(xiàn)其能力提升，也就是說，Claude 3的原創(chuàng)能力沒有那么強(qiáng)。

據(jù)外媒實(shí)測(cè)，Opus在能力上類似于ChatGPT-4，它不能編寫原創(chuàng)的笑話（所有笑話似乎都來自網(wǎng)絡(luò)），在總結(jié)信息和以各種風(fēng)格撰寫文本方面表現(xiàn)得相當(dāng)不錯(cuò)，對(duì)于邏輯分析單詞問題也表現(xiàn)得相當(dāng)好，而且幻覺似乎確實(shí)相對(duì)較低（但在詢問一些更為晦澀的話題時(shí)，還是看到了一些錯(cuò)誤的回答）。

Anthropic在安全性方面可以說做足了功課，也正是因?yàn)橹匾旳I安全，Anthropic當(dāng)年才與OpenAI分家。Anthropic表示將確保安全措施與AI性能的進(jìn)步保持同步，并且Claude 3模型“目前幾乎沒有潛在的災(zāi)難風(fēng)險(xiǎn)”。Anthropic也一直在進(jìn)行紅隊(duì)測(cè)試，并且制定了一套框架，用于評(píng)估和減輕 AI 模型可能帶來的潛在風(fēng)險(xiǎn)，路線比GPT更保守。

支持圖像輸入，

努力避免人工智能偏見

Anthropic此次推出的三個(gè)模型都支持圖像輸入，這是一項(xiàng)需求量很大的功能，特別是對(duì)于圖像中的文本識(shí)別等應(yīng)用。許多企業(yè)需要從圖像、文檔、圖表和圖表中提取信息的用例，Claude 3可以來幫忙了。

“許多客戶的數(shù)據(jù)要么是高度非結(jié)構(gòu)化的，要么是某種視覺格式的，僅僅必須手動(dòng)復(fù)制這些信息才能使其與生成式人工智能工具交互的過程就相當(dāng)麻煩了。”Anthropic 總裁兼聯(lián)合創(chuàng)始人 Daniela 道出了如今用戶的痛點(diǎn)。

此前，人們發(fā)現(xiàn)谷歌的Gemini在生成圖像時(shí)存在一些BUG。例如，用戶讓Gemini生成過歧視性照片。谷歌的回應(yīng)是禁用 Gemini 的圖像生成功能并發(fā)表道歉，稱正在努力進(jìn)行改善。但是有專家表示，這種情況說明了人工智能偏見依然存在。

導(dǎo)致人工智能存在偏見的原因很簡(jiǎn)單，主要是因?yàn)橛?xùn)練數(shù)據(jù)偏見、算法偏見、特征選擇偏見和標(biāo)簽偏見，也有可能是因?yàn)閿?shù)據(jù)缺乏多樣性。

Daniela也承認(rèn)，用目前的方法可能無法實(shí)現(xiàn)完全無偏見的人工智能：“我認(rèn)為，創(chuàng)建一個(gè)完全中立的生成式人工智能工具幾乎是不可能的，不僅在技術(shù)上，而且還因?yàn)椴⒉皇敲總€(gè)人都同意什么是中立。”

那么Anthropic如何減少人工智能偏見帶來的影響呢？其戰(zhàn)略的一部分是“憲法人工智能”，也就是說模型經(jīng)過調(diào)整以遵循“憲法”中定義的原則。2023年4月，Anthropic開源憲法人工智能（Constitutional AI）引起了大范圍討論，Anthropic一直都在爭(zhēng)做“遵紀(jì)守法”的AI。

微軟攜手OpenAI

Anthropic“背靠”亞馬遜？

背靠大樹好乘涼，Anthropic也深諳此理，Claude 3發(fā)布后，亞馬遜也透露了更多和Anthropic合作的細(xì)節(jié)。

亞馬遜AWS宣布，Anthropic的Claude 3系列最先進(jìn)模型將在Amazon Bedrock上提供，增強(qiáng)了各種規(guī)模的客戶快速測(cè)試、構(gòu)建和部署生成人工智能（AI）應(yīng)用程序的能力。Claude 3模型具有高級(jí)視覺能力，能夠處理各種數(shù)據(jù)格式，分析圖像數(shù)據(jù)，滿足客戶對(duì)更好理解圖表、圖表、技術(shù)圖解、照片等視覺資產(chǎn)的需求。

Amazon Bedrock的客戶，包括ADP、Intuit、Pfizer等，已經(jīng)在構(gòu)建生成AI應(yīng)用程序方面使用Anthropic的Claude技術(shù)，并將在未來幾周內(nèi)獲得Claude 3模型。Anthropic的Claude 3模型擴(kuò)展了Amazon Bedrock的生成AI模型范圍，提供了更多的模型選擇。

Amazon Bedrock的客戶也已經(jīng)在使用Claude構(gòu)建生成AI應(yīng)用程序，包括從體育到旅行再到生命科學(xué)等各個(gè)行業(yè)的組織。這些組織使用Claude模型自動(dòng)化任務(wù)、創(chuàng)建新的用戶界面應(yīng)用程序。

Anthropic還表示將使用AWS Trainium和Inferentia芯片構(gòu)建、訓(xùn)練和部署其未來的基礎(chǔ)模型，并表示AWS將成為Anthropic的主要云提供商。Anthropic的Claude 3模型將進(jìn)一步豐富Amazon Bedrock的生成AI模型選擇，給客戶更多的模型選擇權(quán)。

結(jié)語(yǔ)

無論如何，Claude3模型發(fā)布都標(biāo)志著人工智能領(lǐng)域的又一次巨大飛躍，這不僅是技術(shù)的競(jìng)賽，更是有關(guān)創(chuàng)新和安全的一場(chǎng)“持久戰(zhàn)”。

不同公司和團(tuán)隊(duì)的競(jìng)爭(zhēng)推動(dòng)了技術(shù)的不斷演進(jìn)，也讓我們見證了人工智能在不同領(lǐng)域的廣泛應(yīng)用。在技術(shù)進(jìn)步的同時(shí)，與之相伴的挑戰(zhàn)是其安全性和道德性。Anthropic對(duì)于人工智能偏見的關(guān)注以及對(duì)模型安全性的強(qiáng)調(diào)，或許會(huì)成為其與OpenAI競(jìng)爭(zhēng)的重要籌碼。

一面是追求商業(yè)利益、采取激進(jìn)的發(fā)展策略、還陷入與馬斯克紛爭(zhēng)的OpenAI，一面是保守派、遵紀(jì)守法、團(tuán)隊(duì)同樣強(qiáng)大的Anthropic，你看好哪家公司呢？

本文來源：網(wǎng)易科技

Claude 3 GPT-4

網(wǎng)易科技

原創(chuàng)欄目