首頁(yè) > 科技要聞 > 科技> 正文

解構(gòu)Manus AI:這是通用Agent革命,還是精巧縫合怪?

騰訊科技 整合編輯:吳利虹 發(fā)布于:2025-03-07 19:13

昨天, Manus至少在中文媒體里刷屏了。

自媒體的反應(yīng)堪稱(chēng)狂熱:"通用Agent終于實(shí)現(xiàn)了!""這是繼DeepSeek之后的又一技術(shù)革命!"這樣夸張的贊譽(yù)隨處可見(jiàn)。

從Benchmark來(lái)看,它的表現(xiàn)確實(shí)非常亮眼,在GAIA測(cè)試中超越了之前的各種Agent以及OpenAI的DeepResearch。

GAIA測(cè)試非常權(quán)威。它是由數(shù)個(gè)來(lái)自Meta、HuggingFace和AutoGPT的大佬共同完成,模擬了真實(shí)世界的復(fù)雜問(wèn)題,要求AI展現(xiàn)推理、多模態(tài)處理、網(wǎng)頁(yè)瀏覽和工具使用等多維能力。之前,GPT-4+工具調(diào)用在這個(gè)測(cè)試中僅獲得了15%的成績(jī)。

然而,技術(shù)世界的真相往往藏在熱鬧喧囂之下。想要真正評(píng)估Manus的進(jìn)步意義,我們需要審視一下它在已有的技術(shù)土壤上究竟播種了什么新芽。

Manus之前,Agent離臨門(mén)一腳還有多遠(yuǎn)?

當(dāng)前的Agent已經(jīng)發(fā)展到什么水平了?

借用OpenAI前應(yīng)用研究主管Lilian Weng的經(jīng)典定義,一個(gè)合格的Agent需要三大核心能力作為其"大腦"中樞:

1. Planning(規(guī)劃):如同一位棋手,能將復(fù)雜局面分解為一系列精妙的子步驟

2. Tool use(工具使用):宛如工匠,懂得從工具箱中選取最合適的工具并熟練使用

3. Memory(記憶):既有短期記憶存儲(chǔ)即時(shí)信息,又有長(zhǎng)期記憶沉淀持久知識(shí)

而過(guò)去這半年中,Agent領(lǐng)域雖然看起來(lái)沒(méi)什么火爆的產(chǎn)品,但技術(shù)底層能力卻在大幅躍進(jìn)。

尤其在Planning(規(guī)劃)和Tool Use(工具使用)兩個(gè)方向上進(jìn)步快速。

Memory(記憶)領(lǐng)域雖略顯滯后,但DeepSeek的NSA(原生稀疏注意力機(jī)制),Google和微軟也在發(fā)力突破這一瓶頸。

我們今天重點(diǎn)聊Planning(規(guī)劃)和Tool Use(工具使用)兩個(gè)方向。

Planning的進(jìn)化:推理之翼展開(kāi)

Planning(規(guī)劃)是最先有進(jìn)步的。從GPT-o1開(kāi)始的測(cè)試時(shí)計(jì)算(test-time compute)拓展模型,也就是我們常說(shuō)的推理模型,讓單個(gè)大模型的Planning能力大幅提升。

這里就需要展開(kāi)說(shuō)說(shuō)基礎(chǔ)模型和推理模型的區(qū)別。

相比基礎(chǔ)模型,推理模型在四種關(guān)鍵認(rèn)知能力上有很大提升:

● 驗(yàn)證:如同一位細(xì)心的校對(duì)者,不放過(guò)任何錯(cuò)誤

● 回溯:當(dāng)發(fā)現(xiàn)道路不通,敢于放棄并尋找新路徑

● 子目標(biāo)設(shè)定:將龐大山峰分解為可攀登的階梯

● 逆向思考:從終點(diǎn)回望起點(diǎn),尋找最優(yōu)路徑也就是說(shuō),基礎(chǔ)模型需要四個(gè)模型完成的事情,推理模型用一個(gè)就夠了。

斯坦福大學(xué)最近的一篇論文正在試圖破解推理模型為什么這么厲害。

研究者在Qwen-2.5-3B和Llama-3.2-3B上施加相同訓(xùn)練后發(fā)現(xiàn),Qwen如同開(kāi)了掛一般迅速進(jìn)步,而Llama則進(jìn)展緩慢。

入探究后發(fā)現(xiàn),Qwen天生就具備驗(yàn)證和回溯等思維習(xí)慣,而Llama則缺乏這些"思維良習(xí)"。

當(dāng)研究者用含有這些思維模式的"示范"來(lái)引導(dǎo)Llama時(shí),即使示范中的答案是錯(cuò)的,Llama也能迅速提升。這揭示出,要想讓AI在有更多思考時(shí)間時(shí)真正變聰明,它必須先掌握上面提出的四種基本思維方法。

此外,推理模型帶來(lái)的另一個(gè)好處是靈活性。過(guò)去由workflow構(gòu)建的模型往往只能解決特定問(wèn)題。而推理模型因?yàn)槠浔旧淼姆夯芰梢蕴幚砀ㄓ玫氖挛。這也是Manus能更“通用”的基礎(chǔ)。當(dāng)前,Agent工作流系統(tǒng)中的主要核心節(jié)點(diǎn)功能在很大程度上就是在模擬這些思維模式。

這四種能力齊全的推理模型本身已經(jīng)是一個(gè)天然的Planning Agent系統(tǒng)了。這就是今天我們想重點(diǎn)探討的。在Manus出現(xiàn)前,在Agent中使用推理模型最成功的實(shí)踐是2月2日OpenAI的DeepResearch及其類(lèi)似產(chǎn)品,如Grok 3的DeepSearch。在紅杉對(duì)OpenAI DeepResearch產(chǎn)品團(tuán)隊(duì)的訪談中,團(tuán)隊(duì)在解釋其能力時(shí)就提到,“DeepResearch是 o3 模型的一個(gè)微調(diào)版本,o3 是一個(gè)非常智能和強(qiáng)大的模型。

很多分析能力也是來(lái)自底層的 o3 模型訓(xùn)練!盌eepResearch是直接通過(guò)端到端的訓(xùn)練,而非搭建工作流的方式來(lái)運(yùn)作。在這里,推理模型本身就成了Agent。而DeepResearch,根據(jù)嘗試進(jìn)行復(fù)現(xiàn)的Jina AI(AI搜索產(chǎn)品)的分析,主要也就是搜索、閱讀和分析三者間的循環(huán)工作。只不過(guò)推理需要能判別內(nèi)容是否充足、搜索到的資料是否對(duì)應(yīng),再去要求下一輪搜索。

而同樣是在昨天發(fā)布、在外網(wǎng)獲得滿(mǎn)堂彩的Qwen團(tuán)隊(duì)推出的QwQ-32B模型,在其說(shuō)明中特別提到了,它在推理模型中集成了與 Agent 相關(guān)的能力,使其能夠在使用工具的同時(shí)進(jìn)行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過(guò)程。

這都是為了已經(jīng)有能力Agent化的大模型在打基礎(chǔ),做拓展。

而作為一款通用的AI代理,Manus毫無(wú)疑問(wèn)的使用了推理模型帶來(lái)的新能力。我們看到其搜索路徑規(guī)劃與DeepResearch非常相似,但在網(wǎng)頁(yè)瀏覽中使用到了后面工具使用章節(jié)中的瀏覽器控制能力。

這確實(shí)很聰明,因?yàn)榭梢愿玫亻喿x如網(wǎng)頁(yè)P(yáng)DF類(lèi)直接讀取頁(yè)面難以完整呈現(xiàn)的內(nèi)容。

Tool Use的進(jìn)化:從工具到環(huán)境的征服

而(Tool Use)工具使用能力的進(jìn)化則開(kāi)始得更早。

這里有幾個(gè)關(guān)鍵里程碑標(biāo)記著這一進(jìn)程:

● 2023年7月9日:Code Interpreter問(wèn)世,AI開(kāi)始能執(zhí)行代碼,這是工具使用的第一步。

● 2024年6月20日:Claude Artifacts登場(chǎng),AI能夠在對(duì)話(huà)中動(dòng)態(tài)創(chuàng)建和修改各類(lèi)“人工制品(各種小型工具和虛擬機(jī))”,生成從代碼到圖表,從文檔到交互式組件的直觀內(nèi)容。

● 2024年10月22日:Claude的Computer Use功能橫空出世,AI不再局限于專(zhuān)用工具,而是能像人類(lèi)一樣“看見(jiàn)”屏幕并操作計(jì)算機(jī),移動(dòng)光標(biāo)、點(diǎn)擊按鈕、輸入文本,真正模擬人類(lèi)與計(jì)算機(jī)的自然互動(dòng)。這一能力的上線(xiàn),使得Claude 3.5 Sonnet的Agentic工具使用評(píng)分整體來(lái)看,平均提升了一半以上。

● 2024年11月25日:Anthropic開(kāi)源了劃時(shí)代的“模型上下文協(xié)議”(MCP),這是一把打開(kāi)數(shù)據(jù)世界的萬(wàn)能鑰匙,讓AI能直接連接各類(lèi)數(shù)據(jù)源而無(wú)需繁瑣的定制開(kāi)發(fā)。

● 2025年1月23日:OpenAI推出Operator,主打網(wǎng)頁(yè)瀏覽能力的計(jì)算機(jī)使用代理。能力上和Claude的Computer Use非常相近,但在網(wǎng)頁(yè)UI上更有加成。

這種工具使用的能力,目前在Manus的演示中和Artifact水平相似,只是多加了網(wǎng)頁(yè)瀏覽能力,至于和計(jì)算機(jī)的其他交互,限于虛擬機(jī)的限制并不能達(dá)成。

特別值得一提的是,在所有這些嘗試中,MCP的出現(xiàn)堪稱(chēng)革命性。因?yàn)閷?duì)于AI工具使用來(lái)講,最大的問(wèn)題是數(shù)據(jù)獲取和功能獲取。

過(guò)去常用的數(shù)據(jù)和功能的調(diào)用方式Function call(函數(shù)調(diào)用),最大的問(wèn)題就是用API的時(shí)候,需要為每個(gè)功能進(jìn)行額外開(kāi)發(fā)。每個(gè)功能分別進(jìn)行開(kāi)發(fā),工具的拓展速度就會(huì)很慢。

但MCP直接高靈活、高復(fù)用,很多工具和數(shù)據(jù)都可以直接通過(guò)協(xié)議調(diào)用,不用再進(jìn)行單獨(dú)開(kāi)發(fā)了。它優(yōu)雅地統(tǒng)一了本地資源和遠(yuǎn)程API的訪問(wèn)方式。


(圖片來(lái)自知乎作者Dukee)

正如AIGCLINK發(fā)起人所言:“MCP相當(dāng)于一個(gè)萬(wàn)能的數(shù)據(jù)插頭,打通了Agent構(gòu)建的最后一公里!备匾氖牵鉀Q了隱私安全和知識(shí)產(chǎn)權(quán)問(wèn)題,“工作流完全可以在本地運(yùn)行,沒(méi)有商業(yè)授權(quán)問(wèn)題!

這意味著,中間件平臺(tái)如Coze、Dify等產(chǎn)品的空間被大大壓縮,模型方和應(yīng)用方的分工將更加清晰。因?yàn)樵谶^(guò)去Agent工作流里,另一個(gè)核心功能就是工具調(diào)用。

這都是中間件平臺(tái)用function call手搭的,一般開(kāi)發(fā)者不想自己寫(xiě),就得用開(kāi)發(fā)Agent工作流的中間件平臺(tái)。

可以說(shuō),Agent原來(lái)的中間件平臺(tái)的兩大作用——工具調(diào)用和節(jié)點(diǎn)式步驟規(guī)劃,到這步就都被新的技術(shù)進(jìn)化取代掉了。

Manus的真相:是創(chuàng)新革命還是組裝?

讓我們回到Manus本身,看看它的能力范圍有沒(méi)有超出前兩點(diǎn)呢?從演示來(lái)看,它確實(shí)是有效整合了DeepResearch、Artifacts和Operator三大現(xiàn)有能力。

據(jù)媒體引用但未出現(xiàn)在Manus官網(wǎng)上的官方資料稱(chēng),Manus AI 使用一套名為“Multiple Agent”的架構(gòu),運(yùn)行在獨(dú)立的虛擬機(jī)中。

通過(guò)規(guī)劃代理、執(zhí)行代理、驗(yàn)證代理的分工協(xié)作機(jī)制,來(lái)大幅提升對(duì)復(fù)雜任務(wù)的處理效率,并通過(guò)并行計(jì)算縮短響應(yīng)時(shí)間。在這個(gè)架構(gòu)中,每個(gè)代理可能基于獨(dú)立的語(yǔ)言模型或強(qiáng)化學(xué)習(xí)模型,彼此通過(guò) API 或消息隊(duì)列通信。同時(shí)每個(gè)任務(wù)也都在沙盒中運(yùn)行,避免干擾其他任務(wù),同時(shí)支持云端擴(kuò)展。

每個(gè)獨(dú)立模型都能模仿人類(lèi)處理任務(wù)的流程,比如先思考和規(guī)劃,理解復(fù)雜指令并拆解為可執(zhí)行的步驟,再調(diào)用合適的工具。

我們可以大膽地從當(dāng)前Manus可以執(zhí)行的操作和其技術(shù)描述去重構(gòu)其能力:它很有可能是三個(gè)相關(guān)功能的串聯(lián),由一個(gè)主腦做步驟調(diào)配。當(dāng)然也有可能根本不需要主腦,以規(guī)劃代理同時(shí)承擔(dān)工作協(xié)調(diào)的能力。

這也是Zengyi Qin(MIT博士)認(rèn)為它在本質(zhì)上還是一個(gè)預(yù)先設(shè)定的“工作流”的原因。

只不過(guò)這個(gè)工作流當(dāng)前各個(gè)節(jié)點(diǎn)的能力大幅增強(qiáng)了,而其負(fù)責(zé)規(guī)劃的主腦也進(jìn)化成了可以分布拆解和發(fā)起任務(wù)的推理模型。而其代理層及模型層架構(gòu)中與DeepResearch和Artifact能力的重疊基本是100%的(圖像瀏覽用了一些Operator能力)。

在Manus的解釋中,除了瀏覽網(wǎng)頁(yè)用到了Computer Use(計(jì)算機(jī)使用)之外,它在虛擬機(jī)中的計(jì)算機(jī)應(yīng)用并不多。這也是 Zengyi Qin 認(rèn)為它在無(wú)邊界操作系統(tǒng)級(jí)環(huán)境(open-ended OS Level environment)中未取得突破的原因。

因此官網(wǎng)上介紹的智能研究、高級(jí)數(shù)據(jù)分析、任務(wù)自動(dòng)化三大功能其實(shí)也就是Manus的極限了。

Less Structure, More Hype?

相較于DeepResearch這類(lèi)嘗試用推理模型賦能Agent的前沿工作,或Claude的MCP協(xié)議對(duì)工具使用領(lǐng)域的革新,Manus的技術(shù)突破相對(duì)有限。

它的主要?jiǎng)?chuàng)新點(diǎn)是借助推理模型實(shí)現(xiàn)了簡(jiǎn)化結(jié)構(gòu),同時(shí)增強(qiáng)智能處理能力的設(shè)計(jì)。這也就是楊遠(yuǎn)騁Koji發(fā)布的據(jù)說(shuō)來(lái)自Manus團(tuán)隊(duì)內(nèi)部的“Less Structure, More Intelligence”理念。

當(dāng)然,這個(gè)理念OpenAI的產(chǎn)品團(tuán)隊(duì)在紅杉的訪談中也提到了類(lèi)似的說(shuō)法。

盡管如此,Manus作為一款產(chǎn)品,也展示了Monica公司在整合功能、優(yōu)化用戶(hù)體驗(yàn)方面的專(zhuān)長(zhǎng)。它提供了簡(jiǎn)潔而強(qiáng)大的工作流升級(jí),將當(dāng)前最先進(jìn)的AI能力整合到一個(gè)流暢的用戶(hù)體驗(yàn)中。在它之前,領(lǐng)先模型公司中唯一做過(guò)這個(gè)嘗試的是谷歌。

在2024年12月12日,谷歌推出Gemini的同時(shí),也推出了一個(gè)Agent系統(tǒng)Project Mariner。可以同時(shí)完成獲取表單、找到公司官網(wǎng)、聯(lián)系方式等多步驟任務(wù),Agent會(huì)自動(dòng)執(zhí)行在谷歌搜索中查找電子郵件的過(guò)程,且這一過(guò)程中用戶(hù)可以隨時(shí)點(diǎn)擊暫停和停止。同時(shí),用戶(hù)可以看到Agent每一步行動(dòng)的推理步驟和計(jì)劃。

在計(jì)算機(jī)使用層面上,它比Manus還激進(jìn)。但谷歌的這個(gè)產(chǎn)品還只是個(gè)餅,并沒(méi)上線(xiàn)。因此,Manus代表了當(dāng)前AI技術(shù)整合的一個(gè)優(yōu)秀案例。而且整體性,而非技術(shù)創(chuàng)新上甚至超越了最先進(jìn)的基礎(chǔ)模型公司。但無(wú)論如何,把它和DeepSeek的突破相比,也許并不合適。

本文來(lái)源:騰訊科技

Manus    Agent    AI
騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類(lèi):破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類(lèi)小家電,漢美馳是這個(gè)品類(lèi)的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類(lèi)的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專(zhuān)訪漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部