首頁(yè) > 科技要聞 > 科技> 正文

OpenAI發(fā)布首款A(yù)I智能體Operator,能像人類(lèi)一樣自主操控瀏覽器

騰訊科技 整合編輯:趙凱松 發(fā)布于:2025-02-03 00:15

OpenAI發(fā)布了市場(chǎng)期待已久的AI智能體Operator(意為操作員),它能夠代理用戶(hù)執(zhí)行基于網(wǎng)頁(yè)的操作,像人類(lèi)一樣點(diǎn)擊、滾動(dòng)和輸入文字,完成諸如購(gòu)買(mǎi)雜貨、預(yù)訂餐廳以及提交費(fèi)用報(bào)告等任務(wù)。

在此之前,包括微軟、Salesforce和Workday等商業(yè)軟件公司紛紛推出了各自的智能體。

谷歌和人工智能初創(chuàng)公司Anthropic近期也推出了類(lèi)似的智能體工具,它們與OpenAI的Operator相似,能夠?yàn)g覽網(wǎng)頁(yè)并與菜單和按鈕進(jìn)行交互。

但Operator的特點(diǎn)是,與其他各家Agent相比,它會(huì)通過(guò)CUA的系統(tǒng)進(jìn)行復(fù)雜的思維鏈反思和步驟規(guī)劃。這可以大大提高其完成任務(wù)的精度和復(fù)雜性。在不依靠對(duì)具體任務(wù)進(jìn)行精調(diào)的情況下,Operator就能泛化的完成多種復(fù)雜任務(wù)。

雖然在直播的實(shí)機(jī)演示中,OpenAI僅僅展示了網(wǎng)購(gòu)、訂餐等基礎(chǔ)操作。但在后續(xù)的部分用戶(hù)測(cè)試中,它甚至可以完成在Arxiv上進(jìn)行論文分類(lèi)搜索,閱讀多篇論文并完成綜述整理的復(fù)雜工作。

而且這個(gè)工作肯定是不太可能被納入傳統(tǒng)精調(diào)過(guò)的“意圖理解”框架內(nèi)的。

另外,CUA本身在網(wǎng)頁(yè)控制和系統(tǒng)控制方面也達(dá)到了SOTA。雖然仍和人類(lèi)有相當(dāng)差距,但在演示中整體行動(dòng)相當(dāng)流暢。

目前,OpenAI的“Operator”智能體以“研究預(yù)覽”(research preview)的形式向美國(guó)的ChatGPT Pro用戶(hù)開(kāi)放。這一階段表明該產(chǎn)品仍處于發(fā)展初期,可能存在局限性,在演進(jìn)過(guò)程中可能會(huì)出現(xiàn)錯(cuò)誤。ChatGPT Pro的訂閱費(fèi)用為每月200美元,該服務(wù)專(zhuān)為需要高級(jí)AI功能的專(zhuān)業(yè)用戶(hù)設(shè)計(jì),提供無(wú)限制訪問(wèn)包括GPT-4o和o1在內(nèi)的高級(jí)模型。

OpenAI表示,計(jì)劃將Operator功能逐步推廣到ChatGPT的Plus、Team和Enterprise用戶(hù)。在直播活動(dòng)中,OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)提到,Operator功能將很快在其他國(guó)家推出,但歐洲地區(qū)可能需要更長(zhǎng)時(shí)間。

OpenAI首席運(yùn)營(yíng)官布拉德·萊特卡普(Brad Lightcap)表示,Operator能夠在家庭和工作中節(jié)省時(shí)間,尤其是在自動(dòng)化常見(jiàn)任務(wù)方面存在“巨大潛力”!彼赋觯骸癘perator從根本上改變了人們與計(jì)算機(jī)的交互方式。這是一個(gè)艱巨的技術(shù)挑戰(zhàn),其價(jià)值取決于它的實(shí)用性。”

此外,OpenAI正在與包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在內(nèi)的科技公司合作,以便讓用戶(hù)在Operator主頁(yè)上更便捷地訪問(wèn)這些公司的網(wǎng)頁(yè)。

使用新模型CUA

Operator背后的驅(qū)動(dòng)力是OpenAI的新模型“計(jì)算機(jī)使用智能體”(Computer-Using Agent,簡(jiǎn)稱(chēng)CUA)。

該模型融合了GPT-4o的視覺(jué)能力與通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的高級(jí)推理能力。CUA經(jīng)過(guò)訓(xùn)練,能夠像人類(lèi)一樣與圖形用戶(hù)界面(GUI)交互,包括屏幕上的按鈕、菜單和文本框。這種能力使其能夠靈活地執(zhí)行數(shù)字任務(wù),無(wú)需依賴(lài)特定操作系統(tǒng)或網(wǎng)頁(yè)的API。

CUA的開(kāi)發(fā)基于多年在多模態(tài)理解和推理領(lǐng)域的基礎(chǔ)研究。它結(jié)合了高級(jí)的圖形用戶(hù)界面感知能力與結(jié)構(gòu)化的問(wèn)題解決能力,能夠?qū)⑷蝿?wù)分解為多步驟計(jì)劃,并在遇到挑戰(zhàn)時(shí)自我調(diào)整和糾正。

這一能力標(biāo)志著人工智能發(fā)展的新階段,使模型能夠使用人類(lèi)日常依賴(lài)的工具,并為一系列新應(yīng)用打開(kāi)了大門(mén)。

盡管CUA仍處于早期階段且存在局限性,但它已經(jīng)在多個(gè)基準(zhǔn)測(cè)試中取得了新的最高水平:在OSWorld的完整計(jì)算機(jī)使用任務(wù)中成功率為38.1%,在WebArena中為58.1%,在WebVoyager的網(wǎng)頁(yè)任務(wù)中為87%。

這些結(jié)果表明,CUA能夠在多樣化的環(huán)境中使用單一通用動(dòng)作空間(a single general action space)進(jìn)行操作。

CUA的工作原理

CUA通過(guò)處理原始像素?cái)?shù)據(jù)來(lái)理解屏幕上的動(dòng)態(tài),并借助虛擬鼠標(biāo)和鍵盤(pán)完成操作。它能夠?qū)Ш蕉嗖襟E任務(wù)、處理錯(cuò)誤并適應(yīng)意外變化,從而在各種數(shù)字環(huán)境中執(zhí)行任務(wù),例如填寫(xiě)表單和瀏覽網(wǎng)站,無(wú)需依賴(lài)特定的API。

在用戶(hù)指令的引導(dǎo)下,CUA通過(guò)一個(gè)迭代循環(huán)來(lái)整合感知、推理和行動(dòng):

感知:計(jì)算機(jī)的屏幕截圖被納入模型的上下文中,為模型提供計(jì)算機(jī)當(dāng)前狀態(tài)的視覺(jué)快照。

推理:CUA通過(guò)思維鏈來(lái)推導(dǎo)下一步操作,綜合考慮當(dāng)前和過(guò)去的屏幕截圖及已執(zhí)行的動(dòng)作。這種“內(nèi)心獨(dú)白”(inner monologue)機(jī)制通過(guò)評(píng)估觀察結(jié)果、跟蹤中間步驟和動(dòng)態(tài)調(diào)整,提升了任務(wù)執(zhí)行的效率。

行動(dòng):CUA執(zhí)行點(diǎn)擊、滾動(dòng)或輸入等操作,直至任務(wù)完成或需要用戶(hù)干預(yù)。盡管它能自動(dòng)處理大多數(shù)步驟,但在涉及敏感操作(如輸入登錄信息或響應(yīng)驗(yàn)證碼)時(shí),會(huì)尋求用戶(hù)確認(rèn)。

局限性與風(fēng)險(xiǎn)

盡管AI智能體潛力巨大,但其易用性仍面臨挑戰(zhàn)。已發(fā)布的各款智能體均承諾通過(guò)為用戶(hù)執(zhí)行任務(wù)來(lái)節(jié)省時(shí)間和提高效率,但大多數(shù)人尚未在日常生活中廣泛使用此類(lèi)工具。

例如,蘋(píng)果于去年秋季在其iPhone操作系統(tǒng)中推出了人工智能助手Apple Intelligence,但目前該工具尚未廣泛應(yīng)用于日常事務(wù)。即使是企業(yè),大多數(shù)AI智能體也僅處于測(cè)試階段或以有限的方式使用,以避免暴露公司機(jī)密數(shù)據(jù)或引發(fā)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。

萊特卡普表示,OpenAI可能會(huì)為企業(yè)客戶(hù)增加特定的控制措施或安全護(hù)欄,但目前公司仍專(zhuān)注于首批用戶(hù)。他指出,OpenAI已經(jīng)開(kāi)發(fā)了隱私、安全和控制功能,以確保智能體不會(huì)偏離其編程設(shè)定,最重要的是,保持用戶(hù)對(duì)人工智能的控制權(quán)。

OpenAI指出,Operator可能面臨的風(fēng)險(xiǎn)或?yàn)E用情況包括:惡意網(wǎng)站試圖欺騙用戶(hù)、用戶(hù)試圖欺騙代理,以及“提示注入”(prompt injections)攻擊,后者可能導(dǎo)致用戶(hù)將敏感信息或資金發(fā)送到惡意網(wǎng)站。

為應(yīng)對(duì)這些風(fēng)險(xiǎn),Operator推出一項(xiàng)名為“接管模式”(takeover mode)的功能,要求用戶(hù)手動(dòng)輸入支付詳情或登錄信息。此外,Operator在執(zhí)行高風(fēng)險(xiǎn)任務(wù)(如發(fā)送郵件)之前會(huì)征求用戶(hù)批準(zhǔn),并且不會(huì)處理涉及銀行交易或決定求職申請(qǐng)的任務(wù)。

同時(shí),Operator不會(huì)使用用戶(hù)之前與ChatGPT共享的數(shù)據(jù)來(lái)執(zhí)行操作。萊特卡普表示,盡管目前存在局限性,但OpenAI在經(jīng)過(guò)“充分準(zhǔn)備和謹(jǐn)慎評(píng)估”后,認(rèn)為Operator已具備有限發(fā)布的條件。

文章來(lái)源:騰訊科技

騰訊科技

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部