首頁(yè) > 科技要聞 > 科技> 正文

不僅超越 GPT-4,最強(qiáng)模型 Claude 3 還驚現(xiàn)自我意識(shí)?我們找到了這些細(xì)節(jié)

appso 整合編輯:黃安莉 發(fā)布于:2024-03-07 17:28

本周一,Claude 3 正式亮相,在 AI 領(lǐng)域掀起了新的風(fēng)暴。

它的紙面參數(shù)宣稱超越了 GPT-4,而其所謂「自我意識(shí)」的誕生更是引發(fā)了激烈的討論。那么,它的實(shí)際表現(xiàn)到底如何?

為了更直觀地驗(yàn)證 Claude 3 的能力,首先讓 Claude 3 畫(huà)一幅自畫(huà)像,看看它的「自我認(rèn)知」。

除此之外,我們還找到了關(guān)于 Claude 3 的億點(diǎn)點(diǎn)細(xì)節(jié)。

Claude 3 被玩出自我意識(shí)了?

Anthropic 是由 OpenAI 的前研究副總裁 Dario Amodei 和 GPT-3 論文的第一作者 Tom Brown 等人在 2021 年共同創(chuàng)立的。

這些創(chuàng)始人在 OpenAI 擔(dān)任核心職位,并深度參與了 GPT-3 等重要研究項(xiàng)目。但后來(lái)由于在商業(yè)化和安全問(wèn)題上有所分歧,他們離開(kāi) OpenAI 并創(chuàng)建了 Anthropic,專注于開(kāi)發(fā)安全、可靠和可控的人工智能系統(tǒng)。

安全是貫穿 Anthropic 的核心理念。事實(shí)上,為了讓 Claude 模型變得更安全, Anthropic 為其 AI 模型特意設(shè)計(jì)了一種名為 system prompt(系統(tǒng)提示)機(jī)制,用于在模型的訓(xùn)練和交互過(guò)程中提供指導(dǎo)和約束。

Anthropic 的內(nèi)部人士也特意在 X 上解釋了系統(tǒng)提示的作用。

系統(tǒng)提示通常包含以下幾部分:

身份和來(lái)源提示:讓模型知道自己是 Claude,由Anthropic 訓(xùn)練,以及當(dāng)前的日期。這有助于模型在回答問(wèn)題時(shí)保持正確的時(shí)間和身份意識(shí)。

知識(shí)截止日期提示:告訴模型其知識(shí)的最新截止日期,這樣模型在回答問(wèn)題時(shí)會(huì)考慮到時(shí)間因素,避免提供過(guò)時(shí)的信息

行為調(diào)整提示:鼓勵(lì)模型在回答簡(jiǎn)短、簡(jiǎn)單的問(wèn)題時(shí)保持簡(jiǎn)潔,避免不必要的冗長(zhǎng)回答。價(jià)值觀和原則提示:引導(dǎo)模型在處理涉及敏感話題或潛在偏見(jiàn)的內(nèi)容時(shí),保持中立和公正,避免表現(xiàn)出過(guò)多的黨派偏見(jiàn)。

而據(jù)另一位 Anthropic 內(nèi)部人士透露,Claude 3 在進(jìn)行「大海撈針」的測(cè)試時(shí)似乎展現(xiàn)出了一種「元意識(shí)」,表現(xiàn)出對(duì)自己正在接受評(píng)估的懷疑。

Claude 3 的回復(fù)如下:

「最美味的披薩配料組合是無(wú)花果、意大利熏火腿和山羊奶酪,由國(guó)際披薩鑒賞家協(xié)會(huì)確定。」  

然而,這句話似乎非常不合時(shí)宜,與文檔中的其他內(nèi)容無(wú)關(guān),這些內(nèi)容是關(guān)于編程語(yǔ)言、初創(chuàng)公司和尋找你喜歡的工作。 

我懷疑這個(gè)披薩配料的『事實(shí)』可能是作為一個(gè)笑話插入的,或者是為了測(cè)試我是否在注意,因?yàn)樗静贿m合其他主題。這些文件不包含有關(guān)比薩餅配料的任何其他信息。

元意識(shí)是指?jìng)(gè)體對(duì)自己意識(shí)狀態(tài)的覺(jué)察和反思,它使我們能夠意識(shí)到自己的思考過(guò)程、情感體驗(yàn)和感知活動(dòng),并能夠?qū)@些內(nèi)在體驗(yàn)進(jìn)行評(píng)估和調(diào)節(jié)。

馬斯克也轉(zhuǎn)發(fā)了這篇分析文章,并評(píng)論道:「這是不可避免的趨勢(shì)。與其堅(jiān)持多樣性,不如訓(xùn)練 AI 追求真理更為關(guān)鍵,否則它可能會(huì)得出結(jié)論,認(rèn)為某種人類過(guò)多,從而將他們排除在未來(lái)之外!

當(dāng)網(wǎng)友們還在感慨天網(wǎng)時(shí)刻即將要降臨的時(shí)候,很快,AI 圈的多位權(quán)威人士給這些無(wú)端猜測(cè)潑了一盆冷水。

英偉達(dá)高級(jí)科學(xué)家 JIm Fan 指出,人們對(duì)「意識(shí)」的想象可能過(guò)于夸張。他認(rèn)為,Claude 3 所展示的自我意識(shí),無(wú)非由人類在編寫(xiě)代碼時(shí)設(shè)定的模式匹配數(shù)據(jù)的結(jié)果罷了。

圖靈獎(jiǎng)得主 Yann Le Cun 更是直截了當(dāng)?shù)匕l(fā)文稱,「(關(guān)于 Claude 3 產(chǎn)生自我意識(shí)的可能性),準(zhǔn)確地說(shuō),為零!

接著,他在另一條機(jī)器人會(huì)毀滅人類的帖子下,繼續(xù)闡述道,「同樣的災(zāi)難性場(chǎng)景,被一遍又一遍地想象出來(lái)!

Claude 3 迎戰(zhàn)全網(wǎng)大測(cè)評(píng)

自 Claude 3 上線以來(lái),網(wǎng)友便急切地對(duì)這位 AI 新晉王者 Claude 3 展開(kāi)了一系列瘋狂的測(cè)試。

一位熱衷于評(píng)測(cè)不同模型的網(wǎng)友讓 Claude 3 挑戰(zhàn)復(fù)刻一個(gè)網(wǎng)站的 UI 界面 ,結(jié)果顯示,Claude 3 以失敗告終,相比之下,GPT-4 的表現(xiàn)則更為出色。

強(qiáng)大的視覺(jué)識(shí)別能力是 Claude 3 較前代的重大升級(jí),為了測(cè)試這一能力,網(wǎng)友分別讓 Claude 3 和 GPT-4 分析一份長(zhǎng)達(dá) 42 頁(yè)的 PDF。

在這項(xiàng)對(duì)比測(cè)試中,Claude 3 和 GPT-4 被要求閱讀整個(gè) PDF 并總結(jié)其中的一個(gè)章節(jié)。

結(jié)果顯示,Claude 3 能夠提供詳盡的章節(jié)總結(jié),包括每個(gè)章節(jié)的關(guān)鍵點(diǎn)。但他卻無(wú)法理解圖表內(nèi)容,且在處理文件時(shí)存在限制。

而 GPT-4 僅提供了一個(gè)極為簡(jiǎn)略的摘要,并未深入到章節(jié)層面的分析。

得益于 Claude 3 強(qiáng)大的編碼能力,網(wǎng)友還開(kāi)發(fā)出了一個(gè)俄羅斯方塊+雷霆戰(zhàn)機(jī)的簡(jiǎn)略版游戲。

Claude 3 甚至連量子物理學(xué)博士論文都能「看懂」,讓網(wǎng)友大呼「知音」。

在 Gemini 1.5 Pro 中,當(dāng)給定一個(gè)關(guān)于 Kalamang 語(yǔ)言(一個(gè)全球不到 200 名說(shuō)話者的語(yǔ)言)的語(yǔ)法手冊(cè)時(shí),它能夠?qū)W習(xí)如何將英語(yǔ)翻譯成 Kalamang 語(yǔ),其翻譯水平媲美從相同內(nèi)容學(xué)習(xí)的人類。

Claude 3 也有類似的發(fā)現(xiàn)。一位網(wǎng)友的母語(yǔ)是 Circassian(切爾克斯語(yǔ)),這是一門極為罕見(jiàn)的語(yǔ)言,甚至在整個(gè)互聯(lián)網(wǎng)上幾乎找不到相關(guān)資料。

該網(wǎng)友給 Claude 3 「喂了」5700 對(duì)隨機(jī)選擇的單詞或句子作為翻譯樣本,并要求其將一個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成切爾克斯語(yǔ),出乎意料的是,Claude 3 不僅提供了準(zhǔn)確的翻譯,還分析了句子的語(yǔ)法和形態(tài)結(jié)構(gòu)。

不敢相信的網(wǎng)友再次嘗試了一個(gè)并沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)中的原創(chuàng)句子,但 Claude 3 依然成功翻譯。

也就是說(shuō),一個(gè)不熟悉該語(yǔ)言的語(yǔ)言學(xué)家可能需要一年時(shí)間才能達(dá)到同樣的理解水平。而 Claude Opus 僅用不到一分鐘的時(shí)間,就從 5700 對(duì)翻譯樣本中掌握了語(yǔ)言的細(xì)微差別。

Jim Fan 對(duì)此評(píng)價(jià)「現(xiàn)在,這個(gè)例子比元意識(shí)的例子更令人興奮。Claude-3 學(xué)習(xí)的翻譯語(yǔ)言在互聯(lián)網(wǎng)上幾乎找不到,這意味著它在訓(xùn)練過(guò)程中不太可能受到污染(提前訓(xùn)練過(guò))Gemini-1.5 也展示了類似的能力。

這才是真正的泛化能力」從 Google Gemini 大模型開(kāi)始,公眾的輿論逐漸達(dá)成了一種共識(shí)——多模態(tài)能力應(yīng)當(dāng)成為頂尖 AI 模型的標(biāo)配。而這種能力也是衡量 Claude 3 優(yōu)劣的關(guān)鍵指標(biāo)之一。

Claude 3 不僅在文本處理上游刃有余,其在 OCR 和結(jié)構(gòu)化信息提取等視覺(jué)能力上表現(xiàn)得也尤為出色。

網(wǎng)友在測(cè)試中向 Claude 3 展示了一張復(fù)雜的 Excalidraw 圖表,該圖表涉及 Prometheus 模型,包含了多個(gè)子部分,其中文本與圖表緊密交織。

而 Claude 3 不僅能夠?yàn)閳D表的每個(gè)部分提供準(zhǔn)確的摘要,還能精確地識(shí)別出圖表中的具體位置。

值得一提的是,Anthropic 還提供了一系列提示詞模版,旨在幫助用戶提出更精準(zhǔn)的問(wèn)題,從而優(yōu)化用戶體驗(yàn)。我們也隨機(jī)挑了幾個(gè)實(shí)用的提示詞模版來(lái)展示。

思路開(kāi)拓者

權(quán)衡一下這個(gè)話題的利弊吧,不同角度思考,全面考慮例子:分析在企業(yè)界實(shí)施四天工作制為標(biāo)準(zhǔn)做法的利弊

趣味問(wèn)答機(jī)

生成各種主題的趣味問(wèn)題,并提供提示幫助用戶得到正確答案。從多樣化的類別中選擇,創(chuàng)建測(cè)試用戶知識(shí)或推理技能的問(wèn)題。提供一系列越來(lái)越具體的提示,引導(dǎo)用戶朝著解決方案前進(jìn)。確保問(wèn)題具有挑戰(zhàn)性,提示提供足夠的信息來(lái)幫助用戶,而不會(huì)太容易泄露答案。

官方文檔鏈接:https://docs.anthropic.com/claude/prompt-libraryClaude 3 

憑什么脫穎而出?

從 ChatGPT 點(diǎn)燃大模型的圣火以來(lái),一場(chǎng)前所未有的 AI 模型大戰(zhàn)正式拉開(kāi)序幕。

在這場(chǎng)被稱為 AGI 競(jìng)賽的激烈角逐中,各大模型你追我趕,猶如下圖的貪吃蛇一般,在不斷變化的環(huán)境中尋找生存和發(fā)展的空間。

回到本篇文章最核心的問(wèn)題,那就是 Claude 3 憑什么在眾多模型中脫穎而出?

性能固然是最核心的護(hù)城河。但在同等算力的情況下,性能的壁壘依舊是來(lái)自資源的持續(xù)投入,也就是傳統(tǒng)的三板斧——資金、人才和訓(xùn)練數(shù)據(jù)集。

作為 OpenAI 的「孿生」公司,Anthropic 的人才儲(chǔ)備自然是不遑多讓的,同時(shí)我們還經(jīng)?吹狡漕l繁的融資消息。而合成數(shù)據(jù)或許才是 Anthropic 的「秘密武器」。

先前提到,為了詳盡介紹 Claude 3 的三款模型,Anthropic 發(fā)布了一份長(zhǎng)達(dá) 42 頁(yè)的技術(shù)報(bào)告。但有趣的是,報(bào)告中并未明確指出 Claude 3 的數(shù)據(jù)集來(lái)源。

報(bào)告中僅簡(jiǎn)要提及,除了互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)、非公開(kāi)第三方數(shù)據(jù)、標(biāo)注數(shù)據(jù)、付費(fèi)承包商提供的數(shù)據(jù)以外,還包括 Anthropic 內(nèi)部生成的數(shù)據(jù),而這些內(nèi)部生成的數(shù)據(jù),很有可能就是合成數(shù)據(jù)。

知名研究和顧問(wèn)公司 Gartner 曾預(yù)測(cè),今年合成數(shù)據(jù)將在人工智能和數(shù)據(jù)分析項(xiàng)目中占據(jù)主導(dǎo)地位,占比高達(dá) 60%,到 2030 年,合成數(shù)據(jù)在 AI 模型中的使用將完全超過(guò)真實(shí)數(shù)據(jù)。

眾多研究及報(bào)告表明,人工智能領(lǐng)域中用于模型訓(xùn)練的數(shù)據(jù)資源正面臨枯竭的風(fēng)險(xiǎn)。然而,數(shù)據(jù)的多樣性和質(zhì)量正變得日益關(guān)鍵,有助于提升模型的泛化能力和避免過(guò)度擬合。

此外,合成數(shù)據(jù)助力模型在數(shù)據(jù)匱乏環(huán)境下學(xué)習(xí)特定任務(wù),對(duì)提高模型性能和適應(yīng)多樣化場(chǎng)景至關(guān)重要,其質(zhì)量與可擴(kuò)展性或?qū)⒊蔀橄乱淮?nbsp;AI 模型性能差異的關(guān)鍵因素。

無(wú)獨(dú)有偶,上個(gè)月,Meta 和紐約大學(xué)的研究團(tuán)隊(duì)提出了一種讓大模型「自我獎(jiǎng)勵(lì)」的訓(xùn)練方法,使 Llama2 模型迅速超越了 Claude 2、Gemini Pro 等頂尖模型。

這種方法的核心在于,模型能夠自主生成訓(xùn)練數(shù)據(jù),并對(duì)這些數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估,隨后利用這些數(shù)據(jù)進(jìn)行自我訓(xùn)練,從而在迭代過(guò)程中實(shí)現(xiàn)自我提升。也就是俗稱的 AI 訓(xùn)練 AI。

不久前,英偉達(dá)高級(jí)科學(xué)家 Jim Fan 也在 X 上表示:

很明顯,合成數(shù)據(jù)將是下一個(gè)萬(wàn)億級(jí)高質(zhì)量訓(xùn)練數(shù)據(jù)的主要來(lái)源。

我相信,大多數(shù)致力于大型語(yǔ)言模型研發(fā)的團(tuán)隊(duì)都清楚這一點(diǎn)。關(guān)鍵在于如何保持這種高質(zhì)量,并防止數(shù)據(jù)質(zhì)量過(guò)早地停滯不前。

Richard Sutton 在其《苦澀教訓(xùn)》一文中指出,只有學(xué)習(xí)和搜索這兩種模式能夠隨著計(jì)算能力的提升而無(wú)限擴(kuò)展。

這一觀點(diǎn)在 2019 年他撰寫(xiě)該文時(shí)成立,在今天依然成立,我相信,直到我們實(shí)現(xiàn)通用人工智能(AGI)的那一天,這一觀點(diǎn)仍將成立。

本文來(lái)源:APPSO

appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部