Claude深夜重磅發(fā)布新模型—— Claude 3.7 Sonnet,首個(gè)混合推理模型問(wèn)世,在編碼和前端Web開發(fā)方面顯著提升,實(shí)現(xiàn)了全面領(lǐng)先。 作為混合推理模型,它有兩種思考模式: 近乎實(shí)時(shí)地反應(yīng)&擴(kuò)展地、循序漸進(jìn)(step-by-step)地思考。 擴(kuò)展思維模式下,它在數(shù)學(xué)、物理、指令遵循、編碼等多個(gè)任務(wù)中有額外的提升。 API用戶甚至還可以精準(zhǔn)控制模型的思考時(shí)間。目前已經(jīng)在全平臺(tái)上線,包括亞馬遜云服務(wù)Bedrock平臺(tái)、谷歌云,而要想要擴(kuò)展思考模式,除免費(fèi)版外其他都可以用。 模型升級(jí),價(jià)格不變—— 與前代產(chǎn)品相同,每百萬(wàn)輸入token 3 美元,每百萬(wàn)輸出token 15 美元(其中包括思考代幣)。 除此之外,他們還發(fā)布了他們首個(gè)編碼工具Claude Code: 它能夠一次性完成原本需要45分鐘以上手動(dòng)才能完成的工作。 網(wǎng)友們紛紛表示,已經(jīng)迫不及待地想用上了。 不過(guò),為什么是3.7版本呢? Claude 3.7 Sonnet:首個(gè)混合推理模型 官方此次首先表示,他們開發(fā)Claude 3.7 Sonnet這個(gè)的理念與市場(chǎng)上其他推理模型不同。 類比于人類大腦有快速反應(yīng)和深度思考兩種一樣,他們認(rèn)為推理應(yīng)該是前沿模型的綜合能力,而不是完全獨(dú)立的模型。 由此,Claude 3.7 Sonnet在多個(gè)方面都有體現(xiàn)這個(gè)理念。 首先,Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型: 您可以選擇何時(shí)讓模型正;卮穑螘r(shí)讓模型在回答前思考更長(zhǎng)時(shí)間。 在標(biāo)準(zhǔn)模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升級(jí)版。在擴(kuò)展思維模式下,它會(huì)在回答前進(jìn)行自我反思,從而提高其在數(shù)學(xué)、物理、遵循指令、編碼和許多其他任務(wù)上的表現(xiàn)。 在兩種模式下,對(duì)模型的提示方式類似。 這是代碼生成任務(wù)下,兩種思維模式回答之間的區(qū)別。 其次,控制思考預(yù)算,用速度和成本來(lái)?yè)Q取答案的質(zhì)量。 API用戶可以告訴Claude思考的數(shù)量不超過(guò) N 個(gè)token,N 的值可以是任何值,但輸出上限不能超過(guò) 128K個(gè)token。 模型能力的表現(xiàn),也就取決于允許思考的token數(shù)量。例如以下在AIME 2024的成績(jī)圖。 第三,優(yōu)化重點(diǎn)轉(zhuǎn)向更能反映用戶需求的現(xiàn)實(shí)世界任務(wù),對(duì)數(shù)學(xué)和計(jì)算機(jī)競(jìng)賽問(wèn)題優(yōu)化較少。 △解決實(shí)際的概率問(wèn)題編碼任務(wù),網(wǎng)友們對(duì)它這種「vibe coding」(面對(duì)非開發(fā)人員的AI輔助編碼)印象深刻。 有網(wǎng)友實(shí)測(cè)發(fā)現(xiàn),確實(shí)能解決其他模型無(wú)法解決的問(wèn)題。>你能用 p5js 編寫最復(fù)雜的布料模擬嗎? 結(jié)果Grok 3 和o1 pro沒(méi)有可用的結(jié)果。 在代理工具使用上面,實(shí)現(xiàn)了SOTA。 Claude 3.7 Sonnet 在指令遵循、一般推理、多模態(tài)能力和代理編碼方面表現(xiàn)出色,擴(kuò)展思維在數(shù)學(xué)和科學(xué)方面提供了顯著的提升。 除了傳統(tǒng)的基準(zhǔn)測(cè)試之外,它甚至在寶可夢(mèng)游戲測(cè)試中超越了所有以前的模型—— 團(tuán)隊(duì)為Claude配備了基本內(nèi)存、屏幕像素輸入以及按鍵和屏幕導(dǎo)航的功能調(diào)用,使其能夠超越通常的上下文限制,持續(xù)玩游戲,并通過(guò)數(shù)以萬(wàn)計(jì)的交互進(jìn)行游戲。 最終實(shí)驗(yàn)表明,它是迄今所有Sonnet模型中表現(xiàn)最好的,它成功與三個(gè)寶可夢(mèng)道館館主(游戲的 Boss)戰(zhàn)斗并贏得他們的徽章。相比之下,Claude 3.0 Sonnet 甚至無(wú)法離開故事開始的地方Pallet Town 的房子。 x 軸表示 Claude 在玩游戲時(shí)完成的互動(dòng)次數(shù);y 軸表示游戲中的重要里程碑,包括收集某些物品、導(dǎo)航到某些區(qū)域以及擊敗某些Boss。 此次,研究人員使用了并行測(cè)試時(shí)間計(jì)算來(lái)提高模型的性能。 他們的方法是對(duì)多個(gè)獨(dú)立思考過(guò)程進(jìn)行采樣,并在事先不知道真實(shí)答案的情況下選出最佳答案。其中一種方法是使用多數(shù)投票;選擇最常見(jiàn)的答案作為 “最佳 ”答案。另一種方法是使用另一個(gè)語(yǔ)言模型(比如Claude的第二個(gè)副本),要求它檢查自己的工作或?qū)W習(xí)的評(píng)分函數(shù),然后選出它認(rèn)為最好的答案。 結(jié)果在GPQA評(píng)估中,這一方法讓模型取得了驚人的改進(jìn)。 GPQA是一組常用的具有挑戰(zhàn)性的生物、化學(xué)和物理問(wèn)題。 Claude 3.7 Sonnet 使用 256 個(gè)獨(dú)立樣本的等效計(jì)算、學(xué)習(xí)的評(píng)分模型和最大64 token的思維成本之下,取得了 84.8% 的 GPQA 分?jǐn)?shù)(包括 96.5% 的物理子分?jǐn)?shù))。 此外,Claude 3.7 Sonnet 還對(duì)有害請(qǐng)求和良性請(qǐng)求進(jìn)行了更細(xì)致的區(qū)分,與前代版本相比,不必要的拒絕次數(shù)減少了 45% 。 Claude首個(gè)編碼工具面世 Claude Code,從官方透露的功能看,它可以搜索和讀取代碼、編輯文件、編寫和運(yùn)行測(cè)試、提交和推送代碼到 GitHub以及使用命令行工具。 目前還只是早期的預(yù)覽版,可直接在終端運(yùn)行。 早期測(cè)試中,Claude Code可以一次性完成了通常需要 45 分鐘以上手動(dòng)操作才能完成的任務(wù),從而減少了開發(fā)時(shí)間和開銷。 在接下來(lái)的幾周內(nèi),他們計(jì)劃結(jié)合他們使用情況不斷改進(jìn)它—— 比如增強(qiáng)工具調(diào)用的可靠性,增加對(duì)長(zhǎng)時(shí)間運(yùn)行的命令的支持,改進(jìn)應(yīng)用內(nèi)渲染,并擴(kuò)展 Claude 對(duì)其功能的理解。 除此之外,他們還改進(jìn)了 Claude.ai 上的編碼體驗(yàn)。GitHub 集成現(xiàn)已在所有Claude使用平臺(tái)中提供,開發(fā)人員可以將其代碼存儲(chǔ)庫(kù)直接連接到 Claude。 參考鏈接: 本文來(lái)源:量子位
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選