首頁 > 科技要聞 > 科技> 正文

解構(gòu)Manus AI:這是通用Agent革命,還是精巧縫合怪?

騰訊科技 整合編輯:吳利虹 發(fā)布于:2025-03-07 19:13

昨天, Manus至少在中文媒體里刷屏了。

自媒體的反應堪稱狂熱:"通用Agent終于實現(xiàn)了!""這是繼DeepSeek之后的又一技術(shù)革命!"這樣夸張的贊譽隨處可見。

從Benchmark來看,它的表現(xiàn)確實非常亮眼,在GAIA測試中超越了之前的各種Agent以及OpenAI的DeepResearch。

GAIA測試非常權(quán)威。它是由數(shù)個來自Meta、HuggingFace和AutoGPT的大佬共同完成,模擬了真實世界的復雜問題,要求AI展現(xiàn)推理、多模態(tài)處理、網(wǎng)頁瀏覽和工具使用等多維能力。之前,GPT-4+工具調(diào)用在這個測試中僅獲得了15%的成績。

然而,技術(shù)世界的真相往往藏在熱鬧喧囂之下。想要真正評估Manus的進步意義,我們需要審視一下它在已有的技術(shù)土壤上究竟播種了什么新芽。

Manus之前,Agent離臨門一腳還有多遠?

當前的Agent已經(jīng)發(fā)展到什么水平了?

借用OpenAI前應用研究主管Lilian Weng的經(jīng)典定義,一個合格的Agent需要三大核心能力作為其"大腦"中樞:

1. Planning(規(guī)劃):如同一位棋手,能將復雜局面分解為一系列精妙的子步驟

2. Tool use(工具使用):宛如工匠,懂得從工具箱中選取最合適的工具并熟練使用

3. Memory(記憶):既有短期記憶存儲即時信息,又有長期記憶沉淀持久知識

而過去這半年中,Agent領(lǐng)域雖然看起來沒什么火爆的產(chǎn)品,但技術(shù)底層能力卻在大幅躍進。

尤其在Planning(規(guī)劃)和Tool Use(工具使用)兩個方向上進步快速。

Memory(記憶)領(lǐng)域雖略顯滯后,但DeepSeek的NSA(原生稀疏注意力機制),Google和微軟也在發(fā)力突破這一瓶頸。

我們今天重點聊Planning(規(guī)劃)和Tool Use(工具使用)兩個方向。

Planning的進化:推理之翼展開

Planning(規(guī)劃)是最先有進步的。從GPT-o1開始的測試時計算(test-time compute)拓展模型,也就是我們常說的推理模型,讓單個大模型的Planning能力大幅提升。

這里就需要展開說說基礎(chǔ)模型和推理模型的區(qū)別。

相比基礎(chǔ)模型,推理模型在四種關(guān)鍵認知能力上有很大提升:

● 驗證:如同一位細心的校對者,不放過任何錯誤

● 回溯:當發(fā)現(xiàn)道路不通,敢于放棄并尋找新路徑

● 子目標設定:將龐大山峰分解為可攀登的階梯

● 逆向思考:從終點回望起點,尋找最優(yōu)路徑也就是說,基礎(chǔ)模型需要四個模型完成的事情,推理模型用一個就夠了。

斯坦福大學最近的一篇論文正在試圖破解推理模型為什么這么厲害。

研究者在Qwen-2.5-3B和Llama-3.2-3B上施加相同訓練后發(fā)現(xiàn),Qwen如同開了掛一般迅速進步,而Llama則進展緩慢。

入探究后發(fā)現(xiàn),Qwen天生就具備驗證和回溯等思維習慣,而Llama則缺乏這些"思維良習"。

當研究者用含有這些思維模式的"示范"來引導Llama時,即使示范中的答案是錯的,Llama也能迅速提升。這揭示出,要想讓AI在有更多思考時間時真正變聰明,它必須先掌握上面提出的四種基本思維方法。

此外,推理模型帶來的另一個好處是靈活性。過去由workflow構(gòu)建的模型往往只能解決特定問題。而推理模型因為其本身的泛化能力可以處理更通用的事物。這也是Manus能更“通用”的基礎(chǔ)。當前,Agent工作流系統(tǒng)中的主要核心節(jié)點功能在很大程度上就是在模擬這些思維模式。

這四種能力齊全的推理模型本身已經(jīng)是一個天然的Planning Agent系統(tǒng)了。這就是今天我們想重點探討的。在Manus出現(xiàn)前,在Agent中使用推理模型最成功的實踐是2月2日OpenAI的DeepResearch及其類似產(chǎn)品,如Grok 3的DeepSearch。在紅杉對OpenAI DeepResearch產(chǎn)品團隊的訪談中,團隊在解釋其能力時就提到,“DeepResearch是 o3 模型的一個微調(diào)版本,o3 是一個非常智能和強大的模型。

很多分析能力也是來自底層的 o3 模型訓練�!盌eepResearch是直接通過端到端的訓練,而非搭建工作流的方式來運作。在這里,推理模型本身就成了Agent。而DeepResearch,根據(jù)嘗試進行復現(xiàn)的Jina AI(AI搜索產(chǎn)品)的分析,主要也就是搜索、閱讀和分析三者間的循環(huán)工作。只不過推理需要能判別內(nèi)容是否充足、搜索到的資料是否對應,再去要求下一輪搜索。

而同樣是在昨天發(fā)布、在外網(wǎng)獲得滿堂彩的Qwen團隊推出的QwQ-32B模型,在其說明中特別提到了,它在推理模型中集成了與 Agent 相關(guān)的能力,使其能夠在使用工具的同時進行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過程。

這都是為了已經(jīng)有能力Agent化的大模型在打基礎(chǔ),做拓展。

而作為一款通用的AI代理,Manus毫無疑問的使用了推理模型帶來的新能力。我們看到其搜索路徑規(guī)劃與DeepResearch非常相似,但在網(wǎng)頁瀏覽中使用到了后面工具使用章節(jié)中的瀏覽器控制能力。

這確實很聰明,因為可以更好地閱讀如網(wǎng)頁PDF類直接讀取頁面難以完整呈現(xiàn)的內(nèi)容。

Tool Use的進化:從工具到環(huán)境的征服

而(Tool Use)工具使用能力的進化則開始得更早。

這里有幾個關(guān)鍵里程碑標記著這一進程:

● 2023年7月9日:Code Interpreter問世,AI開始能執(zhí)行代碼,這是工具使用的第一步。

● 2024年6月20日:Claude Artifacts登場,AI能夠在對話中動態(tài)創(chuàng)建和修改各類“人工制品(各種小型工具和虛擬機)”,生成從代碼到圖表,從文檔到交互式組件的直觀內(nèi)容。

● 2024年10月22日:Claude的Computer Use功能橫空出世,AI不再局限于專用工具,而是能像人類一樣“看見”屏幕并操作計算機,移動光標、點擊按鈕、輸入文本,真正模擬人類與計算機的自然互動。這一能力的上線,使得Claude 3.5 Sonnet的Agentic工具使用評分整體來看,平均提升了一半以上。

● 2024年11月25日:Anthropic開源了劃時代的“模型上下文協(xié)議”(MCP),這是一把打開數(shù)據(jù)世界的萬能鑰匙,讓AI能直接連接各類數(shù)據(jù)源而無需繁瑣的定制開發(fā)。

● 2025年1月23日:OpenAI推出Operator,主打網(wǎng)頁瀏覽能力的計算機使用代理。能力上和Claude的Computer Use非常相近,但在網(wǎng)頁UI上更有加成。

這種工具使用的能力,目前在Manus的演示中和Artifact水平相似,只是多加了網(wǎng)頁瀏覽能力,至于和計算機的其他交互,限于虛擬機的限制并不能達成。

特別值得一提的是,在所有這些嘗試中,MCP的出現(xiàn)堪稱革命性。因為對于AI工具使用來講,最大的問題是數(shù)據(jù)獲取和功能獲取。

過去常用的數(shù)據(jù)和功能的調(diào)用方式Function call(函數(shù)調(diào)用),最大的問題就是用API的時候,需要為每個功能進行額外開發(fā)。每個功能分別進行開發(fā),工具的拓展速度就會很慢。

但MCP直接高靈活、高復用,很多工具和數(shù)據(jù)都可以直接通過協(xié)議調(diào)用,不用再進行單獨開發(fā)了。它優(yōu)雅地統(tǒng)一了本地資源和遠程API的訪問方式。


(圖片來自知乎作者Dukee)

正如AIGCLINK發(fā)起人所言:“MCP相當于一個萬能的數(shù)據(jù)插頭,打通了Agent構(gòu)建的最后一公里。”更重要的是,它解決了隱私安全和知識產(chǎn)權(quán)問題,“工作流完全可以在本地運行,沒有商業(yè)授權(quán)問題。”

這意味著,中間件平臺如Coze、Dify等產(chǎn)品的空間被大大壓縮,模型方和應用方的分工將更加清晰。因為在過去Agent工作流里,另一個核心功能就是工具調(diào)用。

這都是中間件平臺用function call手搭的,一般開發(fā)者不想自己寫,就得用開發(fā)Agent工作流的中間件平臺。

可以說,Agent原來的中間件平臺的兩大作用——工具調(diào)用和節(jié)點式步驟規(guī)劃,到這步就都被新的技術(shù)進化取代掉了。

Manus的真相:是創(chuàng)新革命還是組裝?

讓我們回到Manus本身,看看它的能力范圍有沒有超出前兩點呢?從演示來看,它確實是有效整合了DeepResearch、Artifacts和Operator三大現(xiàn)有能力。

據(jù)媒體引用但未出現(xiàn)在Manus官網(wǎng)上的官方資料稱,Manus AI 使用一套名為“Multiple Agent”的架構(gòu),運行在獨立的虛擬機中。

通過規(guī)劃代理、執(zhí)行代理、驗證代理的分工協(xié)作機制,來大幅提升對復雜任務的處理效率,并通過并行計算縮短響應時間。在這個架構(gòu)中,每個代理可能基于獨立的語言模型或強化學習模型,彼此通過 API 或消息隊列通信。同時每個任務也都在沙盒中運行,避免干擾其他任務,同時支持云端擴展。

每個獨立模型都能模仿人類處理任務的流程,比如先思考和規(guī)劃,理解復雜指令并拆解為可執(zhí)行的步驟,再調(diào)用合適的工具。

我們可以大膽地從當前Manus可以執(zhí)行的操作和其技術(shù)描述去重構(gòu)其能力:它很有可能是三個相關(guān)功能的串聯(lián),由一個主腦做步驟調(diào)配。當然也有可能根本不需要主腦,以規(guī)劃代理同時承擔工作協(xié)調(diào)的能力。

這也是Zengyi Qin(MIT博士)認為它在本質(zhì)上還是一個預先設定的“工作流”的原因。

只不過這個工作流當前各個節(jié)點的能力大幅增強了,而其負責規(guī)劃的主腦也進化成了可以分布拆解和發(fā)起任務的推理模型。而其代理層及模型層架構(gòu)中與DeepResearch和Artifact能力的重疊基本是100%的(圖像瀏覽用了一些Operator能力)。

在Manus的解釋中,除了瀏覽網(wǎng)頁用到了Computer Use(計算機使用)之外,它在虛擬機中的計算機應用并不多。這也是 Zengyi Qin 認為它在無邊界操作系統(tǒng)級環(huán)境(open-ended OS Level environment)中未取得突破的原因。

因此官網(wǎng)上介紹的智能研究、高級數(shù)據(jù)分析、任務自動化三大功能其實也就是Manus的極限了。

Less Structure, More Hype?

相較于DeepResearch這類嘗試用推理模型賦能Agent的前沿工作,或Claude的MCP協(xié)議對工具使用領(lǐng)域的革新,Manus的技術(shù)突破相對有限。

它的主要創(chuàng)新點是借助推理模型實現(xiàn)了簡化結(jié)構(gòu),同時增強智能處理能力的設計。這也就是楊遠騁Koji發(fā)布的據(jù)說來自Manus團隊內(nèi)部的“Less Structure, More Intelligence”理念。

當然,這個理念OpenAI的產(chǎn)品團隊在紅杉的訪談中也提到了類似的說法。

盡管如此,Manus作為一款產(chǎn)品,也展示了Monica公司在整合功能、優(yōu)化用戶體驗方面的專長。它提供了簡潔而強大的工作流升級,將當前最先進的AI能力整合到一個流暢的用戶體驗中。在它之前,領(lǐng)先模型公司中唯一做過這個嘗試的是谷歌。

在2024年12月12日,谷歌推出Gemini的同時,也推出了一個Agent系統(tǒng)Project Mariner�?梢酝瑫r完成獲取表單、找到公司官網(wǎng)、聯(lián)系方式等多步驟任務,Agent會自動執(zhí)行在谷歌搜索中查找電子郵件的過程,且這一過程中用戶可以隨時點擊暫停和停止。同時,用戶可以看到Agent每一步行動的推理步驟和計劃。

在計算機使用層面上,它比Manus還激進。但谷歌的這個產(chǎn)品還只是個餅,并沒上線。因此,Manus代表了當前AI技術(shù)整合的一個優(yōu)秀案例。而且整體性,而非技術(shù)創(chuàng)新上甚至超越了最先進的基礎(chǔ)模型公司。但無論如何,把它和DeepSeek的突破相比,也許并不合適。

本文來源:騰訊科技

Manus    Agent    AI
騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部