首頁 > 科技要聞 > 科技> 正文

劍指OpenAI,Anthropic推出全球首個“混合推理模型”,最新估值615億美元

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2025-02-26 16:23

美國當(dāng)?shù)貢r間周一, 由OpenAI前員工創(chuàng)辦的人工智能公司Anthropic突發(fā)連招。在技術(shù)方面,Anthropic宣布推出全球首個 “混合推理”AI模型,向OpenAI、DeepSeek等對手發(fā)起挑戰(zhàn)。在運營方面,該公司表示即將完成35億美元融資,估值達到615億美元。

全球首款 “混合推理”AI模型

Anthropic此次發(fā)布的新模型名為Claude 3.7 Sonnet,它賦予了用戶前所未有的控制權(quán),允許他們決定AI在生成回答前花費多少時間進行“思考”。與此同時,Anthropic還推出了AI編程助手Claude Code。這些舉措標(biāo)志著Anthropic正大舉進軍企業(yè)AI市場,或?qū)氐赘淖兤髽I(yè)構(gòu)建軟件和自動化工作的方式。

圖片

Claude 3.7 Sonnet引入了“思考模式”切換功能,允許用戶根據(jù)任務(wù)復(fù)雜度優(yōu)化AI的響應(yīng)時間。Anthropic研究產(chǎn)品管理負責(zé)人Dianne Penn表示:“我們認為推理是AI的核心組成部分,而不是需要額外付費才能使用的功能。就像人類一樣,AI應(yīng)該既能快速響應(yīng),又能進行復(fù)雜思考。對于簡單問題,它應(yīng)該立即給出答案;但對于復(fù)雜的任務(wù),它則需要更多的處理時間。”

她補充道:“我們不將推理、規(guī)劃和自我修正視為AI的獨立能力。在理想情況下,模型本身應(yīng)該能夠識別問題是否需要更深入的思考,并自動調(diào)整,而不是要求用戶來選擇不同的推理模式!

基準(zhǔn)測試數(shù)據(jù)支持了Anthropic的雄心。在擴展思考模式下,Claude 3.7 Sonnet在研究生級別的推理任務(wù)中,準(zhǔn)確率達到78.2%,不僅對OpenAI的最新模型發(fā)起挑戰(zhàn),還超越了DeepSeek-R1的表現(xiàn)。

以下為Anthropic官文全文:

今天,我們正式推出Claude 3.7 Sonnet,這是我們迄今為止最智能的模型,也是市場上首款“混合推理”模型。Claude 3.7 Sonnet能夠生成近乎即時的響應(yīng),也能進行長時間的推理,并將這些思考過程展示給用戶。API用戶還可以精細控制模型的思考時間。

Claude 3.7 Sonnet在編程和前端Web開發(fā)方面表現(xiàn)尤為突出。伴隨著新模型的發(fā)布,我們還推出了一款命令行工具Claude Code,專門用于輔助編程。Claude Code目前以有限研究預(yù)覽的形式提供,允許開發(fā)者直接從終端將大量工程任務(wù)委托給Claude完成。

Claude 3.7 Sonnet現(xiàn)已登陸所有Claude訂閱計劃(包括免費版、Pro版、Team版和企業(yè)版),并支持Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平臺。除了免費版Claude之外,其他版本都可以使用擴展思考模式。

無論是標(biāo)準(zhǔn)模式還是擴展思考模式,Claude 3.7 Sonnet的定價均與之前版本保持一致:每百萬輸入token收費3美元,每百萬輸出token收費15美元(其中包含思考token)。

Claude 3.7 Sonnet:讓前沿推理變得實用

Claude 3.7 Sonnet的開發(fā)理念與市場上其他推理模型截然不同。就像人類的大腦既可以處理快速反應(yīng),也能進行深度思考,我們認為推理應(yīng)該是前沿模型的集成能力,而非完全獨立的模型。這種統(tǒng)一的方法也為用戶創(chuàng)造了更無縫的體驗。

Claude 3.7 Sonnet通過多種方式體現(xiàn)了這一理念:

——雙重模式:Claude 3.7 Sonnet既是普通的大語言模型(LLM),也是推理模型。用戶可以選擇讓模型在正常模式下給出快速響應(yīng),或進行更長時間的思考后再回答。在標(biāo)準(zhǔn)模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版;在擴展思考模式下,它會在回答問題前進行自我反思,從而在數(shù)學(xué)、物理、指令遵循、編程等任務(wù)中表現(xiàn)更佳。我們發(fā)現(xiàn),無論在哪種模式下,提示模型的方式都相似。

——精細控制:通過API使用Claude 3.7 Sonnet時,用戶可以設(shè)置思考的token預(yù)算,最高可達128K token。這使得用戶能夠在速度(和成本)與回答質(zhì)量之間做出權(quán)衡。

——現(xiàn)實任務(wù)優(yōu)化:在開發(fā)推理模型時,我們減少了對數(shù)學(xué)和計算機科學(xué)競賽題的優(yōu)化,轉(zhuǎn)而更關(guān)注反映企業(yè)實際使用LLM的現(xiàn)實任務(wù)。

早期測試表明,Claude的編程能力處于行業(yè)領(lǐng)先地位。

Cursor表示,Claude再次成為處理實際編程任務(wù)的最佳選擇,特別是在處理復(fù)雜代碼庫和高級工具使用方面取得了顯著進展。

Cognition發(fā)現(xiàn),Claude在規(guī)劃代碼變更和處理全棧更新方面遠超其他任何模型。

Vercel強調(diào)了Claude在復(fù)雜代理工作流中的卓越表現(xiàn),而Replit成功利用Claude從零開始構(gòu)建復(fù)雜的Web應(yīng)用和儀表盤,而其他模型則難以勝任。

Canva的評估顯示,Claude始終能生成生產(chǎn)級代碼,設(shè)計品味出眾,且錯誤率大幅降低。

在SWE-bench Verified和TAU-bench等基準(zhǔn)測試中,Claude 3.7 Sonnet均達到了最先進的性能水平,展現(xiàn)了其解決現(xiàn)實世界軟件問題和復(fù)雜任務(wù)的能力。

圖注:在SWE-bench Verified基準(zhǔn)測試中,Claude 3.7 Sonnet的性能表現(xiàn)最佳。該測試旨在評估AI模型解決現(xiàn)實世界軟件問題的能力

圖注:Claude 3.7 Sonnet在TAU-bench基準(zhǔn)測試中表現(xiàn)優(yōu)異。該測試框架專注于評估AI模型在復(fù)雜現(xiàn)實任務(wù)中的表現(xiàn),包括與用戶和工具的交互

圖注:Claude 3.7 Sonnet在指令遵循、通用推理、多模態(tài)能力以及智能體編碼方面表現(xiàn)卓越,其擴展思考模式在數(shù)學(xué)和科學(xué)任務(wù)中尤為突出,顯著提升了性能。不僅如此,在傳統(tǒng)基準(zhǔn)測試之外,其表現(xiàn)甚至在內(nèi)部Pokémon游戲測試中超越了所有之前的模型

Claude Code:增強開發(fā)者編程體驗

自2024年6月以來,Sonnet已成為全球開發(fā)者的首選模型。今天,我們進一步賦能開發(fā)者,推出首款智能體級編碼工具Claude Code,并以有限研究預(yù)覽的形式提供。

Claude Code是一個活躍的協(xié)作者,能夠搜索和讀取代碼、編輯文件、編寫和運行測試、提交代碼到GitHub,并使用命令行工具——同時讓用戶隨時掌握每一步進展。

盡管Claude Code尚處于早期階段,但它已成為我們團隊不可或缺的工具,尤其是在測試驅(qū)動開發(fā)、調(diào)試復(fù)雜問題和大規(guī)模重構(gòu)方面。在早期測試中,Claude Code一次性完成了通常需要45分鐘以上手動工作的任務(wù),明顯減少了開發(fā)時間和工作量。

未來幾周,我們將根據(jù)使用情況不斷改進Claude Code,包括增強工具調(diào)用的可靠性、支持長時間運行的命令、優(yōu)化應(yīng)用內(nèi)渲染,并擴展Claude對其自身能力的理解。

我們還改進了Claude.ai的編碼體驗。GitHub集成現(xiàn)已覆蓋所有Claude訂閱計劃,使開發(fā)者能夠直接將代碼庫連接到Claude。

Claude 3.7 Sonnet是我們迄今為止最強大的編碼模型。通過對個人、工作和開源項目的深入理解,它成為修復(fù)漏洞、開發(fā)新功能和構(gòu)建文檔的強力伙伴。

展望未來

Claude 3.7 Sonnet和Claude Code標(biāo)志著AI系統(tǒng)朝著真正增強人類能力的方向邁出了重要一步。通過深度推理、自主工作和高效協(xié)作能力,它們使我們更接近一個AI能夠豐富和擴展人類成就的未來。

即將完成35億美元融資 估值達615億美元

在發(fā)布新模型的同時,知情人士透露Anthropic即將完成一輪35億美元融資,估值達615億美元。這輪融資顯示,盡管DeepSeek的崛起帶來了沖擊,但投資者仍對潛力巨大的人工智能公司充滿信心。

最初計劃融資20億美元,但在與投資者洽談后成功提高了融資額度。該公司由前OpenAI員工于2021年創(chuàng)立,之前的估值為180億美元,現(xiàn)已成為少數(shù)幾家擁有足夠人才和資金與OpenAI競爭的AI初創(chuàng)公司。

此次融資使得Anthropic的估值攀升至615億美元,這一估值包含了公司此次融資所籌集的資金。

本輪融資的投資者包括風(fēng)險投資公司Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners。此外,總部位于阿布扎比的MGX投資公司也在與Anthropic商談參與投資事宜。

雖然Anthropic在消費者用戶市場上仍落后于OpenAI,但其推出的Claude聊天機器人在程序員和企業(yè)客戶中逐漸獲得青睞。

知情人士透露,Anthropic的年化收入(基于近期銷售數(shù)據(jù)推算的未來12個月收入)已達約12億美元。盡管如此,該公司目前仍處于虧損狀態(tài),計劃利用此次融資支持開發(fā)更強大的AI模型。

相比之下,OpenAI在2024年10月的融資輪中透露,預(yù)計2024年的收入將達到37億美元。

自從DeepSeek發(fā)布了一款與美國最強大AI模型相媲美的新型AI模型后,硅谷的一些投資者對Anthropic等公司的前景表示擔(dān)憂。DeepSeek的模型不僅開發(fā)成本極低,而且可以免費使用。

對此,Anthropic首席執(zhí)行官達里奧·阿莫代伊(Dario Amodei)在一篇博客中指出,DeepSeek的成功并未改變開發(fā)AI技術(shù)的經(jīng)濟邏輯。

這輪大規(guī)模融資表明,投資者仍然愿意押注于像Anthropic這樣開發(fā)專有AI模型的公司。

與此同時,OpenAI也在洽談籌集高達400億美元的資金,估值為3000億美元。此外,埃隆·馬斯克旗下的xAI公司也正在進行非正式的融資洽談,計劃進行一輪大規(guī)模融資。

本文來源:騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部