首頁(yè) > 科技要聞 > 科技> 正文

玩轉(zhuǎn)「智能體魔方」!清華推出AgentSquare模塊化搜索框架,開啟AI智能體高速進(jìn)化時(shí)代

新智元 整合編輯:太平洋科技 發(fā)布于:2024-11-10 18:29

優(yōu)秀基因的演化和重組,是生命體適應(yīng)環(huán)境、永葆活力的自然法則。AI智能體能否像有機(jī)生命一樣,實(shí)現(xiàn)適應(yīng)任務(wù)環(huán)境的高效自我演化?

大模型智能體的快速發(fā)展在數(shù)學(xué)、醫(yī)療、個(gè)人助手等各領(lǐng)域產(chǎn)生了突破性應(yīng)用,但依賴專家知識(shí)的手工設(shè)計(jì)方法制約了它們的任務(wù)自適應(yīng)能力。如何實(shí)現(xiàn)AI智能體針對(duì)不同任務(wù)場(chǎng)景的高速自我演進(jìn)一直是一個(gè)棘手的難題。

圖1 AI智能體的自適應(yīng)演進(jìn)

為了解決這一問(wèn)題,清華大學(xué)數(shù)據(jù)科學(xué)與智能實(shí)驗(yàn)室提出了「AgentSquare-智能體魔方」,推出了模塊化的智能體系統(tǒng)設(shè)計(jì)與搜索新范式。

標(biāo)準(zhǔn)化的模塊接口抽象,使得任務(wù)規(guī)劃、常識(shí)推理、工具使用等經(jīng)典智能體模塊的重組如同「擰魔方」一般輕松。同時(shí),演化產(chǎn)生的新穎模塊也可被直接組裝應(yīng)用于其他智能體系統(tǒng)。

在網(wǎng)頁(yè)、具身、工具、游戲等不同場(chǎng)景的六個(gè)基準(zhǔn)數(shù)據(jù)集上測(cè)試,顯示AgentSquare均能高效發(fā)現(xiàn)顯著優(yōu)于已知人類設(shè)計(jì)的新穎智能體系統(tǒng)!窤gentSquare-智能體魔方」開啟了模塊化智能體設(shè)計(jì)搜索的「變形金剛」時(shí)代。

項(xiàng)目代碼、模塊庫(kù)已進(jìn)行全面開源,簡(jiǎn)潔指令便可開啟AI智能體的高速進(jìn)化。


論文標(biāo)題:AgentSquare: Automatic LLM Agent Search In Modular Design Space

論文地址:https://arxiv.org/abs/2410.06153

項(xiàng)目地址:https://tsinghua-fib-lab.github.io/AgentSquare_website/

代碼倉(cāng)庫(kù):https://github.com/tsinghua-fib-lab/AgentSquare

「AgentSquare-智能體魔方」——模塊化智能體設(shè)計(jì)的新范式

AgentSquare的關(guān)鍵創(chuàng)新來(lái)自于模塊化設(shè)計(jì)空間的提出。研究團(tuán)隊(duì)系統(tǒng)梳理了AI頂會(huì)的大量智能體研究,提煉出了16種經(jīng)典智能體設(shè)計(jì),并將其歸納為一個(gè)模塊化智能體設(shè)計(jì)空間。

在這個(gè)設(shè)計(jì)框架中,LLM智能體被簡(jiǎn)化為四個(gè)核心模塊有機(jī)協(xié)作:任務(wù)規(guī)劃(Planning)、常識(shí)推理(Reasoning)、工具使用(Tool Use)和記憶學(xué)習(xí)(Memory)。

研究團(tuán)隊(duì)還對(duì)不同代碼框架進(jìn)行了標(biāo)準(zhǔn)化整合,抽象出了標(biāo)準(zhǔn)化的模塊接口,讓每個(gè)模塊可以像擰魔方一樣輕松替換。這樣,AgentSquare既能支持現(xiàn)有經(jīng)典設(shè)計(jì)的組合創(chuàng)新,也能加速新智能體模塊的高效探索。

圖2 模塊化設(shè)計(jì)空間(左)與標(biāo)準(zhǔn)IO接口(右)

這四個(gè)核心模塊各有分工:

任務(wù)規(guī)劃(Planning):將任務(wù)指令拆解為一系列子任務(wù),提供清晰的行動(dòng)指南

常識(shí)推理(Reasoning):引導(dǎo)智能體進(jìn)行有條理的結(jié)構(gòu)化推理,如「思維鏈」,提高推理準(zhǔn)確度

工具使用(Tool Use):當(dāng)內(nèi)部知識(shí)不夠時(shí),選擇合適的外部工具輔助任務(wù)完成

記憶學(xué)習(xí)(Memory):記錄和管理智能體的經(jīng)驗(yàn),支持后續(xù)決策更高效

基于這四大模塊,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)智能體工作流程模板(Agentic Workflow)。

如圖2所示,智能體會(huì)先用任務(wù)規(guī)劃模塊將復(fù)雜任務(wù)指令分解成小步驟,逐步由常識(shí)推理模塊執(zhí)行子任務(wù)。

當(dāng)遇到知識(shí)盲區(qū)時(shí),智能體就會(huì)借助工具使用模塊調(diào)用外部工具,同時(shí)記憶學(xué)習(xí)模塊保存相關(guān)經(jīng)驗(yàn),為后續(xù)任務(wù)提供支持。

最終,子任務(wù)推理結(jié)果會(huì)轉(zhuǎn)化為實(shí)際行動(dòng),并在環(huán)境反饋的幫助下不斷優(yōu)化計(jì)劃,直到任務(wù)完成或達(dá)到嘗試上限為止。

模塊化設(shè)計(jì)空間中的智能體搜索問(wèn)題

基于模塊化設(shè)計(jì)空間,AgentSquare帶來(lái)了一個(gè)新的研究課題——模塊化智能體搜索(MoLAS)。

MoLAS的主要技術(shù)問(wèn)題在于(1)如何快速找到適應(yīng)任務(wù)的最優(yōu)模塊組合(2)如何發(fā)現(xiàn)新穎的、更優(yōu)的模塊設(shè)計(jì)。解決這一問(wèn)題面臨著組合搜索空間龐大、新模塊設(shè)計(jì)缺乏指引以及智能體評(píng)測(cè)成本高昂的三大挑戰(zhàn)。

圖3 模塊化智能體搜索問(wèn)題(MoLAS)

AgentSquare演化搜索——智能體「變形金剛」時(shí)代已來(lái)

圖4 智能體設(shè)計(jì)的「變形金剛」時(shí)代

為了應(yīng)對(duì)MoLAS的挑戰(zhàn),研究團(tuán)隊(duì)推出了AgentSquare演化搜索算法,包含三大核心功能:模塊重組、模塊進(jìn)化和代理評(píng)測(cè)模型。

圖5 AgentSquare框架——通過(guò)模塊進(jìn)化和重組實(shí)現(xiàn)AI智能體高效自適應(yīng)演化

模塊重組(Module Recombination):組合經(jīng)典設(shè)計(jì),優(yōu)化頂層架構(gòu)

考慮到智能體廣闊的設(shè)計(jì)空間,僅靠提示詞(或代碼)改寫的簡(jiǎn)單策略只能在原有設(shè)計(jì)之上做微小調(diào)整,難以實(shí)現(xiàn)高效搜索。

為此,AgentSquare引入了LLM作為「重組提議者」 (Recombination proposer LLM),基于對(duì)性能評(píng)測(cè)經(jīng)驗(yàn)的深入分析,提出重組高性能模塊的智能體設(shè)計(jì)方案,模擬生命體重組優(yōu)秀基因的過(guò)程。

模塊重組功能通過(guò)對(duì)智能體頂層架構(gòu)的大幅優(yōu)化探索,實(shí)現(xiàn)遠(yuǎn)超底層「提示詞改寫」的優(yōu)化演進(jìn)速度。

模塊進(jìn)化(Module Evolution):積累底層變異,探索新穎設(shè)計(jì)

僅通過(guò)重組現(xiàn)有模塊并不足夠,AgentSquare還引入了模塊進(jìn)化功能,以便在代碼層級(jí)探索全新模塊的可能。

該功能引入一個(gè)作為代碼編程者的LLM(Module-programming LLM)結(jié)合設(shè)計(jì)的模塊進(jìn)化元提示(Evolutionary meta-prompt)來(lái)探索新的模塊設(shè)計(jì),指導(dǎo)智能體生成新模塊的設(shè)計(jì)方案。

通過(guò)模塊重組與進(jìn)化,AgentSquare大幅拓展了設(shè)計(jì)空間的搜索范圍,并為智能體引入了更多創(chuàng)新性設(shè)計(jì)。

代理評(píng)測(cè)模型(Surrogate Model):節(jié)省評(píng)測(cè)成本,加快優(yōu)化搜索

在自動(dòng)化智能體搜索過(guò)程中,一個(gè)重要挑戰(zhàn)是高昂的評(píng)測(cè)成本。

例如,在ALFWorld評(píng)測(cè)數(shù)據(jù)集上,評(píng)測(cè)一個(gè)GPT-4驅(qū)動(dòng)的「思維鏈」智能體需耗費(fèi)近60美元。為了解決這一問(wèn)題,AgentSquare引入了一個(gè)代理評(píng)測(cè)模型(Surrogate Model)來(lái)預(yù)測(cè)智能體性能。

這個(gè)模型通過(guò)召回并對(duì)比相似智能體的歷史評(píng)測(cè)數(shù)據(jù),快速預(yù)測(cè)新智能體的表現(xiàn),從而篩選出性能較差的提案。實(shí)驗(yàn)表明,代理模型的預(yù)測(cè)效果與實(shí)際評(píng)測(cè)接近,R-Square達(dá)到了0.95,且其token開銷僅為真實(shí)評(píng)測(cè)的0.025%

圖6 「代理評(píng)測(cè)模型」有效性驗(yàn)證

自適應(yīng)演化搜索,涌現(xiàn)超人智能體設(shè)計(jì)

為驗(yàn)證AgentSquare的效果,研究團(tuán)隊(duì)在四類智能體任務(wù)——網(wǎng)頁(yè)(Web)、具身(Embodied)、工具(Tool)和游戲(Game)——的六個(gè)基準(zhǔn)測(cè)試上進(jìn)行了大規(guī)模評(píng)測(cè)。結(jié)果顯示,AgentSquare發(fā)現(xiàn)的智能體在性能上全面超越了人類設(shè)計(jì)的最優(yōu)方案,平均性能提升達(dá)17.2%

研究還表明,一些簡(jiǎn)單的模塊搜索方法(如隨機(jī)組合和貝葉斯優(yōu)化)也能獲得優(yōu)異性能,這進(jìn)一步證明了模塊化設(shè)計(jì)在智能體開發(fā)中的重要性。

表1 與人工設(shè)計(jì)、模塊搜索及提示搜索基線的性能對(duì)比

性能和成本的聯(lián)合分析顯示,AgentSquare不僅提高了智能體的表現(xiàn),還有效控制了推理成本。通過(guò)設(shè)計(jì)reward函數(shù)(如將token開銷納入搜索目標(biāo)),AgentSquare能夠在性能和成本之間靈活權(quán)衡。

圖7 Webshop任務(wù)中各智能體性能與API成本的關(guān)系

此外,研究團(tuán)隊(duì)對(duì)搜索過(guò)程進(jìn)行了詳細(xì)分析,發(fā)現(xiàn)其他方法很快遇到性能瓶頸,而AgentSquare表現(xiàn)出更高效的搜索路徑和更低的評(píng)測(cè)成本。

圖8 AgentSquare在Alfworld和Webshop任務(wù)中的搜索軌跡

目前,AgentSquare在各項(xiàng)任務(wù)中生成的新模塊均已開源,方便后續(xù)研究者復(fù)用和優(yōu)化。AgentSquare不僅能靈活識(shí)別最適合任務(wù)需求的模塊組合,還能有效整合已有和創(chuàng)新模塊。

如下圖所示,在具身任務(wù)ALFWorld中,AgentSquare設(shè)計(jì)了帶有時(shí)序依賴的planning模塊來(lái)優(yōu)化行動(dòng)規(guī)劃,同時(shí)為reasoning模塊加入多鏈路推理和反思機(jī)制,大幅提升了智能體的決策準(zhǔn)確性,有效捕捉到任務(wù)需求的關(guān)鍵點(diǎn)。

圖9 AgentSquare搜索在各任務(wù)中發(fā)現(xiàn)的新模塊及性能最好的模塊組合

匯集社區(qū)智慧,共創(chuàng)AI智能體新時(shí)代!

AgentSquare通過(guò)標(biāo)準(zhǔn)化的模塊化設(shè)計(jì)空間和搜索框架,為大模型智能體的研究帶來(lái)了系統(tǒng)化和標(biāo)準(zhǔn)化的重要突破。

更為關(guān)鍵的是,AgentSquare作為一個(gè)開源項(xiàng)目,將為智能體研究提供一個(gè)匯集社區(qū)智慧的平臺(tái),研究者手工設(shè)計(jì)或搜索發(fā)現(xiàn)的新穎智能體設(shè)計(jì)可以作為新模塊被維護(hù)在開源代碼庫(kù)中,大幅降低經(jīng)典設(shè)計(jì)在廣泛任務(wù)上的應(yīng)用門檻,助力智能體技術(shù)在更多應(yīng)用場(chǎng)景中的創(chuàng)新與發(fā)展

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部