首頁(yè) > 科技要聞 > 科技> 正文

OpenAI發(fā)布首個(gè)AI智能體!自動(dòng)幫你訂餐購(gòu)物,直播翻車,使用前需要知道這些細(xì)節(jié)

appso 整合編輯:趙凱松 發(fā)布于:2025-01-25 00:15

1月24日,OpenAI CEO Sam Altman 宣布了兩個(gè)重磅消息。

一個(gè)是 ChatGPT 用戶不僅將獲得 o3-mini 的免費(fèi)試用機(jī)會(huì),Plus 付費(fèi)訂閱會(huì)員還將享有更多使用額度。

另一個(gè)則是備受期待的首個(gè)智能體產(chǎn)品——Operator 研究預(yù)覽版正式亮相。好消息是,它能幫你自動(dòng)網(wǎng)購(gòu)了,但壞消息是,它可能比較容易「翻車」。

OpenAI 總裁 Greg Brockman 在 X 平臺(tái)發(fā)文稱:「Operator–一種能夠使用自己的瀏覽器為你執(zhí)行任務(wù)的智能體。2025 年將是智能體之年!

OpenAI 讓 AI 學(xué)會(huì)「用電腦」了?這是邁向 AGI 的第一步

作為 OpenAI 首款真正模擬人類操作網(wǎng)頁(yè)瀏覽器的 AI 助手,Operator 能夠自動(dòng)完成預(yù)訂旅行住宿、餐廳預(yù)約和在線購(gòu)物等復(fù)雜任務(wù)。

用戶可以在多個(gè)類別中選擇不同的自動(dòng)化任務(wù),涵蓋購(gòu)物、配送、餐飲和旅行等領(lǐng)域。

這項(xiàng)功能將率先向訂閱 200 美元 Pro 計(jì)劃的美國(guó)用戶開(kāi)放,隨后逐步擴(kuò)展至 Plus、Team 和 Enterprise 級(jí)別用戶。

API 預(yù)計(jì)將在數(shù)周內(nèi)推出。

用戶可通過(guò) operator.chatgpt.com 訪問(wèn)該服務(wù),OpenAI 計(jì)劃后續(xù)將其整合到 ChatGPT,不過(guò),ChatGPT 在今天凌晨又雙叒叕崩了。

簡(jiǎn)單來(lái)說(shuō),當(dāng)用戶啟用 Operator 時(shí),系統(tǒng)會(huì)彈出一個(gè)小窗口,展示專用 Web 瀏覽器的操作界面,并實(shí)時(shí)說(shuō)明正在執(zhí)行的任務(wù)。在此期間,允許用戶隨時(shí)接管控制。

技術(shù)層面,Operator 采用遠(yuǎn)程云端瀏覽器執(zhí)行任務(wù),無(wú)需依賴網(wǎng)站 API。

它通過(guò)截圖識(shí)別界面元素,規(guī)劃后續(xù)動(dòng)作,形成「觀察-計(jì)劃-執(zhí)行」的閉環(huán),直至完成任務(wù)。系統(tǒng)支持多任務(wù)并行處理,運(yùn)行效率高,且能保持登錄狀態(tài)。

OpenAI 已與 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

Instacart 首席產(chǎn)品官 Daniel Danker 就指出「OpenAI 的 Operator 是一項(xiàng)技術(shù)突破,它使訂購(gòu)雜貨等流程變得異常簡(jiǎn)單!

按照慣例,OpenAI 也同期召開(kāi)了一場(chǎng)發(fā)布會(huì)。Sam Altman 與 Yash Kumar、Casey Chu 和 Reiichiro Nakano 一起介紹和演示 Operator。

演示涵蓋了多個(gè)實(shí)際應(yīng)用場(chǎng)景,比如通過(guò) OpenTable 為 Beretta 餐廳預(yù)訂雙人座位,原定 7 點(diǎn)檔位不可用后改訂 7:45。

使用 Instacart 購(gòu)物系統(tǒng)識(shí)別購(gòu)物清單——雞蛋、菠菜、蘑菇、雞腿、薯片,并中途接管添加更多雞蛋等商品。

在 StubHub 上試圖搜索并選購(gòu)預(yù)算 500 美元以下的勇士隊(duì)比賽門票;預(yù)約清潔服務(wù);以及計(jì)劃通過(guò) DoorDash 點(diǎn)餐,訂購(gòu)燒烤披薩等。

理想很美好,現(xiàn)實(shí)很骨感,Operator 目前最大的問(wèn)題還是不夠穩(wěn)定。剛開(kāi)始演示時(shí)還算順利,但中后期的演示過(guò)程中遭遇連環(huán)「翻車」,甚至未能成功加載相關(guān)網(wǎng)頁(yè)。

或許是為了確保演示成功,眼瞅著演示人員輸入的提示詞是越來(lái)越長(zhǎng)。

X 平臺(tái)大 V @rowancheung 也提前體驗(yàn)并分享了對(duì) Operator 的觀察。

比方說(shuō) Operator 雖然在 ChatGPT 中運(yùn)行,但功能完全不同,主要專注于網(wǎng)頁(yè)操作(點(diǎn)擊、滾動(dòng)、輸入)而非生成長(zhǎng)文本。目前系統(tǒng)仍存在限制,包括部分網(wǎng)站會(huì)屏蔽 AI 訪問(wèn),合作伙伴集成有限。

他指出 Operator 需要特定的使用方法來(lái)優(yōu)化效果,就像 GPT-4 適合 CoT 提示一樣,但目前對(duì) Operator 的最佳使用方式研究還很初步。

不過(guò),他還是挺看好這項(xiàng)技術(shù)能幫助人們自動(dòng)化處理枯燥工作,從而將時(shí)間用于更有價(jià)值的事務(wù)。

此前有消息稱,Operator 在執(zhí)行任務(wù)時(shí)使用的截圖內(nèi)容可能被惡意利用,導(dǎo)致「提示注入攻擊」,存在嚴(yán)重的安全隱患。

因此,確保 Operator 的安全使用是首要任務(wù)。

根據(jù)官方博客,OpenAI 主要是通過(guò)多層保護(hù)措施防止濫用并確保用戶牢牢控制 Operator。

接管模式:Operator 在瀏覽器中輸入敏感信息(例如登錄憑據(jù)或支付信息)時(shí)要求用戶接管。在接管模式下,運(yùn)營(yíng)商不會(huì)收集或截圖用戶輸入的信息。

用戶確認(rèn):在完成任何重大操作(例如提交訂單或發(fā)送電子郵件)之前,Operator 應(yīng)請(qǐng)求批準(zhǔn)。

任務(wù)限制:Operator 經(jīng)過(guò)培訓(xùn)可以拒絕某些敏感任務(wù),例如銀行交易或需要高風(fēng)險(xiǎn)決策的任務(wù),例如對(duì)工作申請(qǐng)做出決定。

監(jiān)視模式:在特別敏感的網(wǎng)站上,例如電子郵件或金融服務(wù),Operator 需要對(duì)其行為進(jìn)行密切監(jiān)督,以便用戶能夠直接發(fā)現(xiàn)任何潛在的錯(cuò)誤。

此外,OpenAI 針對(duì) Operator 實(shí)施了全面的隱私和安全保護(hù)措施。在隱私管理方面,用戶可以選擇退出模型訓(xùn)練,一鍵刪除瀏覽數(shù)據(jù)和歷史對(duì)話,并注銷所有網(wǎng)站。

為防范惡意網(wǎng)站的攻擊,系統(tǒng)建立了多層防御機(jī)制,包括檢測(cè)并忽略提示注入、監(jiān)控可疑行為和建立威脅識(shí)別管道。同時(shí),Operator 設(shè)有審核系統(tǒng)來(lái)拒絕有害請(qǐng)求和不當(dāng)內(nèi)容,對(duì)違規(guī)行為發(fā)出警告或撤銷訪問(wèn)權(quán)限。

「體驗(yàn)報(bào)告」公布,Operator 背后的 CUA 技術(shù)有多強(qiáng)?

Computer-Using Agent (CUA)是支撐 Operator 的核心技術(shù),它融合了 GPT-4o 的視覺(jué)識(shí)別能力和基于強(qiáng)化學(xué)習(xí)的高級(jí)推理功能。

CUA 通過(guò)訓(xùn)練掌握了與圖形用戶界面(GUI)交互的能力,能像人類一樣操作屏幕上的按鈕、菜單和文本框,無(wú)需依賴特定的操作系統(tǒng)或網(wǎng)絡(luò) API。

據(jù)悉,其創(chuàng)新之處在于采用通用界面方法,讓 AI 能像人類般操作各類軟件工具,突破了傳統(tǒng) AI 難以應(yīng)對(duì)的眾多細(xì)分應(yīng)用場(chǎng)景。

不過(guò) OpenAI 坦言 CUA 還有許多需要改進(jìn)的地方,比如目前就沒(méi)法保證在所有場(chǎng)景下都能穩(wěn)定運(yùn)行。

OpenAI 在 Operator 中部署的 CUA 系統(tǒng)展示了不同場(chǎng)景下的性能表現(xiàn)。比如它在基礎(chǔ)網(wǎng)頁(yè)操作和重復(fù)性任務(wù)方面表現(xiàn)出色,如搜索篩選、創(chuàng)建購(gòu)物清單和音樂(lè)播放列表等任務(wù)的成功率達(dá)到 10/10。

在電商網(wǎng)站搜索商品時(shí)也保持 9/10 的高成功率。但在處理復(fù)雜的房產(chǎn)搜索等任務(wù)時(shí),成功率降至 3/10。

測(cè)試還發(fā)現(xiàn)提示詞的質(zhì)量會(huì)顯著影響任務(wù)成功率,例如場(chǎng)地預(yù)訂任務(wù)中,添加具體時(shí)間和操作指引后,成功率從 3/10 提升至 8/10。

系統(tǒng)在處理不熟悉的 UI 界面和文本編輯時(shí)表現(xiàn)欠佳,常出現(xiàn)試錯(cuò)和低效操作,文本編輯任務(wù)的成功率僅為 4/10。

為了更好地量化 Operator 的性能指標(biāo),發(fā)布會(huì)上的演示人員也提到了 OS World 測(cè)試和 Web Arena 測(cè)試。

OS World 用于評(píng)估 AI 智能體在 Linux 等操作系統(tǒng)上的導(dǎo)航能力, Operator 得分 38.1%,高于其他公開(kāi)系統(tǒng)但低于人類水平(72.4%)。

Web Arena 則是測(cè)試評(píng)估 AI 智能體在電商網(wǎng)站和社交論壇等網(wǎng)站的導(dǎo)航能力, Operator 得分 58.1%,同樣超過(guò)其他公開(kāi) AI 系統(tǒng)但未達(dá)人類水平。

安全方面,演示環(huán)節(jié)介紹了三個(gè)主要的安全考慮方向。首先是系統(tǒng)拒絕執(zhí)行有害任務(wù),使用審核模型和后續(xù)檢測(cè),并屏蔽特定網(wǎng)站。

其次對(duì)于模型可能存在的錯(cuò)誤,系統(tǒng)在進(jìn)行購(gòu)買、預(yù)訂等關(guān)鍵操作前必須獲得用戶確認(rèn),限制高風(fēng)險(xiǎn)任務(wù)如銀行交易,并在敏感網(wǎng)站啟用觀察模式。

特別是針對(duì)網(wǎng)站對(duì)抗性攻擊(如提示注入、越獄和釣魚(yú)),系統(tǒng)設(shè)計(jì)了謹(jǐn)慎導(dǎo)航機(jī)制識(shí)別并忽略提示注入,實(shí)時(shí)監(jiān)控模型檢測(cè)可疑內(nèi)容,并建立檢測(cè)管道快速識(shí)別可疑訪問(wèn)模式。

最后系統(tǒng)設(shè)有注入監(jiān)控器(prompt injection monitor),類似防病毒軟件,實(shí)時(shí)監(jiān)控模型檢測(cè)可疑內(nèi)容,發(fā)現(xiàn)可疑行為時(shí)會(huì)暫停執(zhí)行。

考慮到無(wú)法預(yù)見(jiàn)所有安全隱患,OpenAI 只能先從小規(guī)模部署開(kāi)始,通過(guò)持續(xù)收集反饋來(lái)完善安全機(jī)制。

ChatGPT 的崛起已經(jīng)證明,偉大的產(chǎn)品往往誕生于無(wú)數(shù)次「不完美」的嘗試。

OpenAI 也坦然承認(rèn)目前由 CUA 支持的 Operator 只是一項(xiàng)早期技術(shù),雖然在特定場(chǎng)景已證明有用,但仍需通過(guò)用戶反饋持續(xù)改進(jìn)。

并且,他們計(jì)劃提高系統(tǒng)在不熟悉界面的適應(yīng)能力,增強(qiáng)文本編輯精確度,優(yōu)化對(duì)不同提示詞的理解能力,并擴(kuò)展可靠任務(wù)的范圍。

Altman 曾在月初的博客文章中表示,OpenAI 已經(jīng)有信心構(gòu)建通用人工智能(AGI),并預(yù)測(cè) 2025 年第一批 AI 智能體將「加入勞動(dòng)力大軍」。

包括智譜昨天也宣布推出了 GLM-PC。

這是基于智譜多模態(tài)大模型 CogAgent,全球首個(gè)面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計(jì)算機(jī),協(xié)助用戶高效完成各類電腦任務(wù)。

可預(yù)見(jiàn)的是,這些智能體在未來(lái)將具備強(qiáng)大的自主決策和任務(wù)執(zhí)行能力,能夠處理復(fù)雜任務(wù),甚至在某些領(lǐng)域替代人類工作,并從根本上改變企業(yè)的生產(chǎn)方式和產(chǎn)出。

在 OpenAI 的五級(jí) AGI 路線圖中,智能體正是處于 L3 級(jí)別,其特點(diǎn)是不僅能思考,還能代表用戶采取行動(dòng),執(zhí)行復(fù)雜任務(wù)。

這樣看來(lái), Operator 不僅是 OpenAI 智能體邁出的第一步,也將是邁向 AGI 的重要一步。

文章來(lái)源:APPSO

appso

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部