首頁(yè) > 科技要聞 > 科技> 正文

智譜Agent搶跑OpenAI,GLM-PC一句話搞定一切!網(wǎng)友:有AGI那味了

新智元 整合編輯:趙凱松 發(fā)布于:2025-02-03 00:15

春節(jié)期間最少不了的是什么?

發(fā)拜年微信!

想象這樣一個(gè)場(chǎng)景:微信上給xxx發(fā)送祝福語(yǔ),再給他發(fā)送一個(gè)新春圖片和一個(gè)新春祝賀視頻。

這一幕,聽起來(lái)是不是比搶紅包還刺激?

就在剛剛,一個(gè)具有「代碼思維」智能體悄然而至——GLM-PC v1.1。

它可以成為你的「手替」,任何事都可以由它代勞。

這不,我們上傳一張圖片后,然后給出指令——「識(shí)別圖片中的信息生成朋友圈文案,并發(fā)送一個(gè)朋友圈」。

它首先會(huì)將任務(wù)分解成多個(gè)步驟,并對(duì)圖片內(nèi)容進(jìn)行識(shí)別,生成相應(yīng)配文。

然后,AI瞬間跳轉(zhuǎn)到微信,打開朋友圈,將圖片上傳,再附上文案,一鍵發(fā)送就搞定了。

這個(gè)神操作,讓許多人看了驚掉下巴。

現(xiàn)在的AI都這么強(qiáng)了?

沒(méi)錯(cuò),這個(gè)在去年11月就搶跑了OpenAI的「GLM-PC」,就是智譜發(fā)布的全球首個(gè)面向公眾、回車即用的電腦智能體,小名叫「牛!埂

爆料稱OpenAI超級(jí)智能體也將在本周問(wèn)世

現(xiàn)在,經(jīng)過(guò)全新升級(jí)的v1.1版本,不僅能夠像人類一樣「觀察」和「操作」計(jì)算機(jī),自主完成各種復(fù)雜任務(wù);而且還擁有「深度思考」模式,以及專門用來(lái)做邏輯推理和代碼生成的功能。

值得一提的是,GLM-PC的Window和Mac客戶端已經(jīng)同步上線了。

試用地址:https://cogagent.aminer.cn

左腦與右腦,GLM-PC的Agent思維結(jié)構(gòu)

2025年,注定是智能體「元年」。OpenAI曾被曝出內(nèi)部AGI路線圖,將這一終極目標(biāo)的實(shí)現(xiàn)劃分了五級(jí)。目前已經(jīng)實(shí)現(xiàn)了L2級(jí),下一步就是向自主AI智能體邁進(jìn)。

幾周前,ChatGPT「任務(wù)」功能,已初步向所有人展示了AI自主看股票、提醒日程的能力。

不僅如此,還有谷歌、微軟、Ahthropic、亞馬遜等國(guó)內(nèi)外科技公司門,紛紛開始在智能體領(lǐng)域發(fā)力。

與大洋彼岸的巨頭們相比,智譜在智能體領(lǐng)域,早已展現(xiàn)出令人矚目的領(lǐng)先優(yōu)勢(shì)。

值得一提的是,24年10月,他們推出的AutoGLM憑借流暢的智能手機(jī)操作能力,迅速引爆科技圈。

智譜之所以能夠成為這一領(lǐng)域的先行者,離不開這家公司從成立伊始就繪制出的AI路線圖。

2024年,智譜同樣將AGI的實(shí)現(xiàn)劃分了5級(jí),能力從L1逐步攀升至L5。

在他們看來(lái),AI的能力早已突破了傳統(tǒng)語(yǔ)言和文本處理限制。

目前,AI已經(jīng)從語(yǔ)言/文本逐漸擴(kuò)展到多模態(tài)、工具使用,未來(lái)還會(huì)有更多的自我認(rèn)知。

而最近,智譜CEO張鵬在Agent OpenDay上,再次闡述了公司對(duì)AI能力演進(jìn)的戰(zhàn)略構(gòu)想:

截至目前,LLM已經(jīng)初步具備了人類與現(xiàn)實(shí)物理世界互動(dòng)的部分能力。智能體將會(huì)極大地提升L3使用工具能力,同時(shí)開啟對(duì)L4自我學(xué)習(xí)能力的探索。

這個(gè)技術(shù)愿景,是智譜所獨(dú)有的。

GLM-PC v1.1的推出,意味著智譜在L3級(jí)智能體的探索又有了新的進(jìn)展!

截至目前,智譜已經(jīng)有了手機(jī)智能體AutoGLM和電腦智能體GLM-PC兩大系統(tǒng),實(shí)現(xiàn)了工具使用能力的深度突破。

這兩個(gè)系統(tǒng)分別覆蓋了移動(dòng)設(shè)備和桌面端——

AutoGLM在手機(jī)上,能夠精準(zhǔn)操控各類應(yīng)用,實(shí)現(xiàn)跨場(chǎng)景智能交互;而GLM-PC則將電腦端的操作提升到了新的高度,基于視覺(jué)語(yǔ)言模型VLM的圖形界面智能體GUI Agent,實(shí)現(xiàn)邏輯推理與感知認(rèn)知的結(jié)合,凸顯出AI對(duì)復(fù)雜系統(tǒng)工具的掌控力。

這些并非是簡(jiǎn)單功能的堆砌,而是對(duì)人機(jī)交互范式的根本性重塑。

根據(jù)這個(gè)技術(shù)路線圖,AI實(shí)現(xiàn)L3之后,通過(guò)不斷優(yōu)化工具使用能力,正為L(zhǎng)4階段——自主學(xué)習(xí)發(fā)明創(chuàng)新奠定了扎實(shí)的技術(shù)基礎(chǔ)。

這也正是智譜下一步,所要開拓的智能。

多模態(tài)感知,通往全GUI空間交互

回到現(xiàn)在,當(dāng)前LLM一個(gè)明顯的缺陷是:能夠公開使用的純文本形式的API工具非常有限。

這就大大限制了語(yǔ)言模型作為Agent的使用場(chǎng)景。那么,我們有什么辦法能破局?

智譜選擇了一條通往全GUI空間交互的道路——借助多模態(tài)感知!

這個(gè)思路,就體現(xiàn)在以CogAgent為代表的一系列基于視覺(jué)語(yǔ)言模型(VLM)的圖形界面智能體(GUI Agent)上。

基于VLM的GUI Agent通過(guò)模仿人類行為,就能感知和理解交互界面中的視覺(jué)元素與整體布局,并能模擬人類做出任意元操作(例如點(diǎn)擊、鍵盤輸入、懸浮、拖拽等)。

這,就拓寬了Agent在虛擬交互空間中的使用邊界——理論上,任意人類能做的GUI操作,從此多模態(tài)Agent都能完成了!

接下來(lái)的問(wèn)題,就是如何才能讓這些智能體去完成實(shí)際應(yīng)用中的復(fù)雜任務(wù)了。

為此,我們需要打造一個(gè)在感知、思維,以及執(zhí)行層面完備的Agent系統(tǒng)。

感知層面,能接受任務(wù)所需的多元信號(hào),如文字、圖像、視頻、音頻。

思維層面,具備嚴(yán)謹(jǐn)?shù)倪壿嬎季S能力和復(fù)雜任務(wù)規(guī)劃能力(類似左腦),也具備高效全面的感知能力、靈活的擬人操作能力(類似右腦)。

執(zhí)行層面,能完成全GUI空間操作,接收環(huán)境反饋并自我糾正。

在這之中,最為重要的一點(diǎn)就是,要在邏輯性和創(chuàng)造性之間實(shí)現(xiàn)平衡。

如今,智譜通過(guò)借鑒人類「左腦」與「右腦」分工,成功實(shí)現(xiàn)了邏輯推理與感知認(rèn)知的深度結(jié)合,賦予了GLM-PC這種能力。

Agent左腦:代碼思維框架與邏輯執(zhí)行

智能體的大腦,就好比人類一樣,左腦負(fù)責(zé)邏輯語(yǔ)言、數(shù)學(xué)等理性的信息,而右腦主要負(fù)責(zé)的是視覺(jué)、感知等感性信息。

那么,GLM-PC的「左腦」便承擔(dān)著嚴(yán)謹(jǐn)?shù)倪壿嬐评、代碼,以及任務(wù)執(zhí)行職責(zé)。

它主要專注于規(guī)劃、循環(huán)執(zhí)行、動(dòng)態(tài)反思、糾錯(cuò)與優(yōu)化。

接下來(lái),讓我們?cè)趯?shí)際demo中,具體看看GLM-PC(牛牛)是怎么做到的。

規(guī)劃(Planning)

想象一下,若是有一個(gè)超級(jí)助手基于用戶需求,能瞬間將復(fù)雜任務(wù)拆解為清晰可行的步驟,是不是會(huì)省力得多。

GLM-PC「左腦」,正是這樣一個(gè)智能規(guī)劃的專家。

通過(guò)綜合分析目標(biāo)與資源,它能夠生成執(zhí)行路線圖,并將大型任務(wù)自動(dòng)分解為可管理的子任務(wù),以構(gòu)建出清晰的執(zhí)行路徑。

馬上就要春節(jié)了,假設(shè)你要采購(gòu)一批年貨,直接將匯總的圖片鏈接扔給牛牛,并告訴它——

獲取圖片中的商品信息,在桌面新建Excel存儲(chǔ)信息,把商品信息加入淘寶購(gòu)物車。

牛牛獲取圖片中的信息后,將指令中的需求拆分,先保存Excel文件,然后列出了將魔芋爽、薯片、豬肉脯、辣條添加到購(gòu)物車的分解步驟。

在規(guī)劃完成后,GLM-PC將啟動(dòng)代碼生成模塊,執(zhí)行邏輯循環(huán),逐步推進(jìn)任務(wù)完成

接下來(lái),就是見證奇跡的時(shí)刻了。

循環(huán)執(zhí)行(Looping Execution)

牛牛進(jìn)入淘寶主頁(yè),開始搜索魔芋爽,點(diǎn)擊加入購(gòu)物車;然后再回到搜索主頁(yè),查找薯片加入購(gòu)物車;之后繼續(xù)執(zhí)行,直到所有完成商品加入購(gòu)物車的任務(wù)。完全不用手動(dòng),AI就幫你做了。這是因?yàn)樵谝?guī)劃階段結(jié)束后,GLM-PC 將啟動(dòng)代碼生成模塊,執(zhí)行邏輯循環(huán),逐步推進(jìn)任務(wù)完成。

可見,GLM-PC的循環(huán)機(jī)制確保了任務(wù)的精確執(zhí)行與高度自動(dòng)化,從而實(shí)現(xiàn)從輸入到輸出的完整閉環(huán),無(wú)需人工干預(yù)。

長(zhǎng)思考能力:動(dòng)態(tài)反思、糾錯(cuò)與優(yōu)化

以上,還只是GLM-PC左腦基本的一個(gè)操作。除了生成靜態(tài)規(guī)劃,它還能在執(zhí)行任務(wù)過(guò)程中,根據(jù)環(huán)境信息實(shí)時(shí)動(dòng)態(tài)調(diào)整,反思糾正和自我糾錯(cuò),從而持續(xù)優(yōu)化解決方案。舉個(gè)栗子,你想假期與朋友聚會(huì)準(zhǔn)備去看一場(chǎng)「春節(jié)賀歲檔電影」,小紅書會(huì)有很多推薦。這時(shí),你根本不用自己去手動(dòng)搜索,直接打開牛牛,告訴它——

在小紅書搜索「春節(jié)賀歲檔電影」,引用第一篇圖文貼的貼子圖片,把圖片發(fā)送到微信上的{GGG}群聊,問(wèn)他們想看哪一部電影。

如同上個(gè)案例,牛牛收到指令后逐步分解任務(wù),先去小紅書中搜索「春節(jié)賀歲檔電影」第一個(gè)帖子。接下來(lái),它又回到工作臺(tái),開啟一步任務(wù)——進(jìn)入微信找到「GGG」群聊,然后發(fā)送消息。這樣一來(lái),你能省下大把手動(dòng)篩選和分享的時(shí)間?偠灾ㄟ^(guò)這些自動(dòng)化操作,GLM-PC能夠提供了更加便捷的社交互動(dòng)和決策支持。

Agent右腦:圖像與GUI認(rèn)知

見識(shí)了GLM-PC「左腦」的強(qiáng)大,它的「右腦」是一個(gè)具有深度感知與交互體驗(yàn)的智能系統(tǒng)。其核心功能涵蓋了多個(gè)方面,比如GUI圖像理解、用戶行為認(rèn)知、圖像語(yǔ)義解析、多模態(tài)信息融合。還以春節(jié)常見的場(chǎng)景為例,現(xiàn)在有了GLM-PC就能向領(lǐng)導(dǎo)「花樣」送祝福了!

給微信上的「大Boss」發(fā)送2025年新春祝福語(yǔ),再給他制作一個(gè)新春圖片,發(fā)送給他

GLM-PC進(jìn)入微信找到「大Boss」,然后生成簡(jiǎn)短的祝福語(yǔ),確認(rèn)發(fā)送。

然后,再回到控制臺(tái),生成一張精美的圖片發(fā)給老板。

有了這個(gè)拜年神器,你只管玩手機(jī),群發(fā)多少個(gè)都能搞定。

左右腦協(xié)作,迎來(lái)更強(qiáng)泛化能力!

正是上面這種左右腦協(xié)作的模式,讓GLM-PC成為了Agent of Agents。

現(xiàn)在,它不僅能處理復(fù)雜的邏輯任務(wù),在面對(duì)開放性問(wèn)題時(shí),適應(yīng)能力、創(chuàng)造力和泛化能力也更強(qiáng)了。

比如,即使從未在訓(xùn)練中見過(guò)的網(wǎng)頁(yè)和任務(wù),GLM-PC都能完成。

有了這個(gè)AI,手寫抄題可以省媽了。

現(xiàn)在只需將試卷PDF文檔上傳,讓GLM-PC提取出想要界面的內(nèi)容,簡(jiǎn)直易如反掌。

幫我把桌面的 排列組合與二項(xiàng)式定理練習(xí).pdf文件打開, 引用總結(jié)當(dāng)前界面的前幾條數(shù)學(xué)題 ,放到桌面新建word文檔中

成功提取文字后,AI會(huì)自動(dòng)將信息保存到Word文檔中。

再比如,我想要追一部劇——「驛站」,直接告訴GLM-PC:「騰訊視頻搜索『驛站』電視劇,并播放」。

它會(huì)立即跳轉(zhuǎn)到騰訊主頁(yè),搜索關(guān)鍵詞,打開了視頻。

背后模型

GLM-PC的背后,智譜自主研發(fā)的多模態(tài)Agent模型CogAgent與代碼模型CodeGeex。

在智能體運(yùn)轉(zhuǎn)的過(guò)程中,首先會(huì)生成代碼形式的思維框架,指揮GLM-PC的工作流程和工具調(diào)用。

期間,GLM-PC可以穩(wěn)定高效地應(yīng)對(duì)各種復(fù)雜場(chǎng)景和任務(wù)。

并且在實(shí)際執(zhí)行時(shí),GLM-PC會(huì)感知到來(lái)自GUI環(huán)境、程序執(zhí)行環(huán)境與模型間的多層反饋,協(xié)助反思,有效地自我糾正與優(yōu)化。

CogAgent-9B-20241220執(zhí)行指令「標(biāo)題設(shè)置為CogAgent」的過(guò)程

其實(shí)早在2023年8月,智譜就開始研發(fā)首個(gè)基于視覺(jué)語(yǔ)言模型(VLM)的開源GUI智能體模型——CogAgent。

在經(jīng)過(guò)一年多的迭代升級(jí)之后,CogAgent于2024年12月重磅升級(jí)到了「9B-20241220」版本,并成功應(yīng)用在了剛剛推出的GLM-PC上。

值得一提的是,最新的CogAgent-9B-20241220除了已經(jīng)用在自家產(chǎn)品上外,團(tuán)隊(duì)為了讓研究者們有機(jī)會(huì)共同探索與提升與訓(xùn)練GUI Agent,已經(jīng)在第一時(shí)間進(jìn)行了全面的開源。

開源項(xiàng)目:https://github.com/THUDM/CogAgent

評(píng)測(cè)結(jié)果顯示,CogAgent-9B-20241220模型在多平臺(tái)、多類別的GUI agent及GUI grounding benchmarks上取得了當(dāng)前最優(yōu)的結(jié)果。

其中,CogAgent在GUI定位(Screenspot)、單步操作(OmniAct)、中文step-wise榜單(CogAgentBench-basic-cn)、多步操作(OSWorld)都取得了領(lǐng)先的結(jié)果,僅在OSworld上略遜于針對(duì)Computer Use特化的Claude-3.5-Sonnet和結(jié)合外接GUI grounding模型的GPT-4o。

下一步,裝進(jìn)AIPC

下一步,GLM-PC還將與AIPC深度融合,讓所有人觸手可及。

據(jù)稱,智譜正與聯(lián)想、華碩等知名PC廠商展開深度合作探討,共同推動(dòng)AIPC的創(chuàng)新與發(fā)展。

AIPC絕不僅僅是一臺(tái)電腦,更是Agent在個(gè)人計(jì)算領(lǐng)域的全新應(yīng)用。

未來(lái),是一個(gè)智能無(wú)限的世界。

個(gè)人電腦能夠完全理解你的意圖,自動(dòng)幫你優(yōu)化工作流程,而且7x24小時(shí)待命,隨時(shí)提供精準(zhǔn)的智能支持。

現(xiàn)在,GLM-PC正將這個(gè)未來(lái)變成現(xiàn)實(shí)。而我們,已經(jīng)站在了這場(chǎng)智能革命的最前沿。

文章來(lái)源:新智元

新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部