太平洋科技要聞

OpenAI發(fā)布首款A(yù)I智能體Operator，能像人類一樣自主操控瀏覽器

騰訊科技整合編輯：趙凱松發(fā)布于：2025-02-03 00:15

OpenAI發(fā)布了市場期待已久的AI智能體Operator（意為操作員），它能夠代理用戶執(zhí)行基于網(wǎng)頁的操作，像人類一樣點(diǎn)擊、滾動(dòng)和輸入文字，完成諸如購買雜貨、預(yù)訂餐廳以及提交費(fèi)用報(bào)告等任務(wù)。

在此之前，包括微軟、Salesforce和Workday等商業(yè)軟件公司紛紛推出了各自的智能體。

谷歌和人工智能初創(chuàng)公司Anthropic近期也推出了類似的智能體工具，它們與OpenAI的Operator相似，能夠?yàn)g覽網(wǎng)頁并與菜單和按鈕進(jìn)行交互。

但Operator的特點(diǎn)是，與其他各家Agent相比，它會通過CUA的系統(tǒng)進(jìn)行復(fù)雜的思維鏈反思和步驟規(guī)劃。這可以大大提高其完成任務(wù)的精度和復(fù)雜性。在不依靠對具體任務(wù)進(jìn)行精調(diào)的情況下，Operator就能泛化的完成多種復(fù)雜任務(wù)。

雖然在直播的實(shí)機(jī)演示中，OpenAI僅僅展示了網(wǎng)購、訂餐等基礎(chǔ)操作。但在后續(xù)的部分用戶測試中，它甚至可以完成在Arxiv上進(jìn)行論文分類搜索，閱讀多篇論文并完成綜述整理的復(fù)雜工作。

而且這個(gè)工作肯定是不太可能被納入傳統(tǒng)精調(diào)過的“意圖理解”框架內(nèi)的。

另外，CUA本身在網(wǎng)頁控制和系統(tǒng)控制方面也達(dá)到了SOTA。雖然仍和人類有相當(dāng)差距，但在演示中整體行動(dòng)相當(dāng)流暢。

目前，OpenAI的“Operator”智能體以“研究預(yù)覽”（research preview）的形式向美國的ChatGPT Pro用戶開放。這一階段表明該產(chǎn)品仍處于發(fā)展初期，可能存在局限性，在演進(jìn)過程中可能會出現(xiàn)錯(cuò)誤。ChatGPT Pro的訂閱費(fèi)用為每月200美元，該服務(wù)專為需要高級AI功能的專業(yè)用戶設(shè)計(jì)，提供無限制訪問包括GPT-4o和o1在內(nèi)的高級模型。

OpenAI表示，計(jì)劃將Operator功能逐步推廣到ChatGPT的Plus、Team和Enterprise用戶。在直播活動(dòng)中，OpenAI首席執(zhí)行官山姆·奧特曼（Sam Altman）提到，Operator功能將很快在其他國家推出，但歐洲地區(qū)可能需要更長時(shí)間。

OpenAI首席運(yùn)營官布拉德·萊特卡普（Brad Lightcap）表示，Operator能夠在家庭和工作中節(jié)省時(shí)間，尤其是在自動(dòng)化常見任務(wù)方面存在“巨大潛力”�！彼赋觯骸癘perator從根本上改變了人們與計(jì)算機(jī)的交互方式。這是一個(gè)艱巨的技術(shù)挑戰(zhàn)，其價(jià)值取決于它的實(shí)用性。”

此外，OpenAI正在與包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在內(nèi)的科技公司合作，以便讓用戶在Operator主頁上更便捷地訪問這些公司的網(wǎng)頁。

使用新模型CUA

Operator背后的驅(qū)動(dòng)力是OpenAI的新模型“計(jì)算機(jī)使用智能體”（Computer-Using Agent，簡稱CUA）。

該模型融合了GPT-4o的視覺能力與通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的高級推理能力。CUA經(jīng)過訓(xùn)練，能夠像人類一樣與圖形用戶界面（GUI）交互，包括屏幕上的按鈕、菜單和文本框。這種能力使其能夠靈活地執(zhí)行數(shù)字任務(wù)，無需依賴特定操作系統(tǒng)或網(wǎng)頁的API。

CUA的開發(fā)基于多年在多模態(tài)理解和推理領(lǐng)域的基礎(chǔ)研究。它結(jié)合了高級的圖形用戶界面感知能力與結(jié)構(gòu)化的問題解決能力，能夠?qū)⑷蝿?wù)分解為多步驟計(jì)劃，并在遇到挑戰(zhàn)時(shí)自我調(diào)整和糾正。

這一能力標(biāo)志著人工智能發(fā)展的新階段，使模型能夠使用人類日常依賴的工具，并為一系列新應(yīng)用打開了大門。

盡管CUA仍處于早期階段且存在局限性，但它已經(jīng)在多個(gè)基準(zhǔn)測試中取得了新的最高水平：在OSWorld的完整計(jì)算機(jī)使用任務(wù)中成功率為38.1%，在WebArena中為58.1%，在WebVoyager的網(wǎng)頁任務(wù)中為87%。

這些結(jié)果表明，CUA能夠在多樣化的環(huán)境中使用單一通用動(dòng)作空間（a single general action space）進(jìn)行操作。

CUA的工作原理

CUA通過處理原始像素?cái)?shù)據(jù)來理解屏幕上的動(dòng)態(tài)，并借助虛擬鼠標(biāo)和鍵盤完成操作。它能夠?qū)Ш蕉嗖襟E任務(wù)、處理錯(cuò)誤并適應(yīng)意外變化，從而在各種數(shù)字環(huán)境中執(zhí)行任務(wù)，例如填寫表單和瀏覽網(wǎng)站，無需依賴特定的API。

在用戶指令的引導(dǎo)下，CUA通過一個(gè)迭代循環(huán)來整合感知、推理和行動(dòng)：

感知：計(jì)算機(jī)的屏幕截圖被納入模型的上下文中，為模型提供計(jì)算機(jī)當(dāng)前狀態(tài)的視覺快照。

推理：CUA通過思維鏈來推導(dǎo)下一步操作，綜合考慮當(dāng)前和過去的屏幕截圖及已執(zhí)行的動(dòng)作。這種“內(nèi)心獨(dú)白”（inner monologue）機(jī)制通過評估觀察結(jié)果、跟蹤中間步驟和動(dòng)態(tài)調(diào)整，提升了任務(wù)執(zhí)行的效率。

行動(dòng)：CUA執(zhí)行點(diǎn)擊、滾動(dòng)或輸入等操作，直至任務(wù)完成或需要用戶干預(yù)。盡管它能自動(dòng)處理大多數(shù)步驟，但在涉及敏感操作（如輸入登錄信息或響應(yīng)驗(yàn)證碼）時(shí)，會尋求用戶確認(rèn)。

局限性與風(fēng)險(xiǎn)

盡管AI智能體潛力巨大，但其易用性仍面臨挑戰(zhàn)。已發(fā)布的各款智能體均承諾通過為用戶執(zhí)行任務(wù)來節(jié)省時(shí)間和提高效率，但大多數(shù)人尚未在日常生活中廣泛使用此類工具。

例如，蘋果于去年秋季在其iPhone操作系統(tǒng)中推出了人工智能助手Apple Intelligence，但目前該工具尚未廣泛應(yīng)用于日常事務(wù)。即使是企業(yè)，大多數(shù)AI智能體也僅處于測試階段或以有限的方式使用，以避免暴露公司機(jī)密數(shù)據(jù)或引發(fā)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。

萊特卡普表示，OpenAI可能會為企業(yè)客戶增加特定的控制措施或安全護(hù)欄，但目前公司仍專注于首批用戶。他指出，OpenAI已經(jīng)開發(fā)了隱私、安全和控制功能，以確保智能體不會偏離其編程設(shè)定，最重要的是，保持用戶對人工智能的控制權(quán)。

OpenAI指出，Operator可能面臨的風(fēng)險(xiǎn)或?yàn)E用情況包括：惡意網(wǎng)站試圖欺騙用戶、用戶試圖欺騙代理，以及“提示注入”（prompt injections）攻擊，后者可能導(dǎo)致用戶將敏感信息或資金發(fā)送到惡意網(wǎng)站。

為應(yīng)對這些風(fēng)險(xiǎn)，Operator推出一項(xiàng)名為“接管模式”（takeover mode）的功能，要求用戶手動(dòng)輸入支付詳情或登錄信息。此外，Operator在執(zhí)行高風(fēng)險(xiǎn)任務(wù)（如發(fā)送郵件）之前會征求用戶批準(zhǔn)，并且不會處理涉及銀行交易或決定求職申請的任務(wù)。

同時(shí)，Operator不會使用用戶之前與ChatGPT共享的數(shù)據(jù)來執(zhí)行操作。萊特卡普表示，盡管目前存在局限性，但OpenAI在經(jīng)過“充分準(zhǔn)備和謹(jǐn)慎評估”后，認(rèn)為Operator已具備有限發(fā)布的條件。

文章來源：騰訊科技

OpenAI AI智能體Operator CUA

騰訊科技

原創(chuàng)欄目