首頁 > 科技要聞 > 科技> 正文

OpenAI發(fā)布首個AI智能體!自動幫你訂餐購物,直播翻車,使用前需要知道這些細節(jié)

appso 整合編輯:趙凱松 發(fā)布于:2025-01-25 00:15

1月24日,OpenAI CEO Sam Altman 宣布了兩個重磅消息。

一個是 ChatGPT 用戶不僅將獲得 o3-mini 的免費試用機會,Plus 付費訂閱會員還將享有更多使用額度。

另一個則是備受期待的首個智能體產(chǎn)品——Operator 研究預(yù)覽版正式亮相。好消息是,它能幫你自動網(wǎng)購了,但壞消息是,它可能比較容易「翻車」。

OpenAI 總裁 Greg Brockman 在 X 平臺發(fā)文稱:「Operator–一種能夠使用自己的瀏覽器為你執(zhí)行任務(wù)的智能體。2025 年將是智能體之年。」

OpenAI 讓 AI 學(xué)會「用電腦」了?這是邁向 AGI 的第一步

作為 OpenAI 首款真正模擬人類操作網(wǎng)頁瀏覽器的 AI 助手,Operator 能夠自動完成預(yù)訂旅行住宿、餐廳預(yù)約和在線購物等復(fù)雜任務(wù)。

用戶可以在多個類別中選擇不同的自動化任務(wù),涵蓋購物、配送、餐飲和旅行等領(lǐng)域。

這項功能將率先向訂閱 200 美元 Pro 計劃的美國用戶開放,隨后逐步擴展至 Plus、Team 和 Enterprise 級別用戶。

API 預(yù)計將在數(shù)周內(nèi)推出。

用戶可通過 operator.chatgpt.com 訪問該服務(wù),OpenAI 計劃后續(xù)將其整合到 ChatGPT,不過,ChatGPT 在今天凌晨又雙叒叕崩了。

簡單來說,當用戶啟用 Operator 時,系統(tǒng)會彈出一個小窗口,展示專用 Web 瀏覽器的操作界面,并實時說明正在執(zhí)行的任務(wù)。在此期間,允許用戶隨時接管控制。

技術(shù)層面,Operator 采用遠程云端瀏覽器執(zhí)行任務(wù),無需依賴網(wǎng)站 API。

它通過截圖識別界面元素,規(guī)劃后續(xù)動作,形成「觀察-計劃-執(zhí)行」的閉環(huán),直至完成任務(wù)。系統(tǒng)支持多任務(wù)并行處理,運行效率高,且能保持登錄狀態(tài)。

OpenAI 已與 DoorDash、Instacart、Priceline、StubHub 和 Uber 等公司建立合作。

Instacart 首席產(chǎn)品官 Daniel Danker 就指出「OpenAI 的 Operator 是一項技術(shù)突破,它使訂購雜貨等流程變得異常簡單!

按照慣例,OpenAI 也同期召開了一場發(fā)布會。Sam Altman 與 Yash Kumar、Casey Chu 和 Reiichiro Nakano 一起介紹和演示 Operator。

演示涵蓋了多個實際應(yīng)用場景,比如通過 OpenTable 為 Beretta 餐廳預(yù)訂雙人座位,原定 7 點檔位不可用后改訂 7:45。

使用 Instacart 購物系統(tǒng)識別購物清單——雞蛋、菠菜、蘑菇、雞腿、薯片,并中途接管添加更多雞蛋等商品。

在 StubHub 上試圖搜索并選購預(yù)算 500 美元以下的勇士隊比賽門票;預(yù)約清潔服務(wù);以及計劃通過 DoorDash 點餐,訂購燒烤披薩等。

理想很美好,現(xiàn)實很骨感,Operator 目前最大的問題還是不夠穩(wěn)定。剛開始演示時還算順利,但中后期的演示過程中遭遇連環(huán)「翻車」,甚至未能成功加載相關(guān)網(wǎng)頁。

或許是為了確保演示成功,眼瞅著演示人員輸入的提示詞是越來越長。

X 平臺大 V @rowancheung 也提前體驗并分享了對 Operator 的觀察。

比方說 Operator 雖然在 ChatGPT 中運行,但功能完全不同,主要專注于網(wǎng)頁操作(點擊、滾動、輸入)而非生成長文本。目前系統(tǒng)仍存在限制,包括部分網(wǎng)站會屏蔽 AI 訪問,合作伙伴集成有限。

他指出 Operator 需要特定的使用方法來優(yōu)化效果,就像 GPT-4 適合 CoT 提示一樣,但目前對 Operator 的最佳使用方式研究還很初步。

不過,他還是挺看好這項技術(shù)能幫助人們自動化處理枯燥工作,從而將時間用于更有價值的事務(wù)。

此前有消息稱,Operator 在執(zhí)行任務(wù)時使用的截圖內(nèi)容可能被惡意利用,導(dǎo)致「提示注入攻擊」,存在嚴重的安全隱患。

因此,確保 Operator 的安全使用是首要任務(wù)。

根據(jù)官方博客,OpenAI 主要是通過多層保護措施防止濫用并確保用戶牢牢控制 Operator。

接管模式:Operator 在瀏覽器中輸入敏感信息(例如登錄憑據(jù)或支付信息)時要求用戶接管。在接管模式下,運營商不會收集或截圖用戶輸入的信息。

用戶確認:在完成任何重大操作(例如提交訂單或發(fā)送電子郵件)之前,Operator 應(yīng)請求批準。

任務(wù)限制:Operator 經(jīng)過培訓(xùn)可以拒絕某些敏感任務(wù),例如銀行交易或需要高風(fēng)險決策的任務(wù),例如對工作申請做出決定。

監(jiān)視模式:在特別敏感的網(wǎng)站上,例如電子郵件或金融服務(wù),Operator 需要對其行為進行密切監(jiān)督,以便用戶能夠直接發(fā)現(xiàn)任何潛在的錯誤。

此外,OpenAI 針對 Operator 實施了全面的隱私和安全保護措施。在隱私管理方面,用戶可以選擇退出模型訓(xùn)練,一鍵刪除瀏覽數(shù)據(jù)和歷史對話,并注銷所有網(wǎng)站。

為防范惡意網(wǎng)站的攻擊,系統(tǒng)建立了多層防御機制,包括檢測并忽略提示注入、監(jiān)控可疑行為和建立威脅識別管道。同時,Operator 設(shè)有審核系統(tǒng)來拒絕有害請求和不當內(nèi)容,對違規(guī)行為發(fā)出警告或撤銷訪問權(quán)限。

「體驗報告」公布,Operator 背后的 CUA 技術(shù)有多強?

Computer-Using Agent (CUA)是支撐 Operator 的核心技術(shù),它融合了 GPT-4o 的視覺識別能力和基于強化學(xué)習(xí)的高級推理功能。

CUA 通過訓(xùn)練掌握了與圖形用戶界面(GUI)交互的能力,能像人類一樣操作屏幕上的按鈕、菜單和文本框,無需依賴特定的操作系統(tǒng)或網(wǎng)絡(luò) API。

據(jù)悉,其創(chuàng)新之處在于采用通用界面方法,讓 AI 能像人類般操作各類軟件工具,突破了傳統(tǒng) AI 難以應(yīng)對的眾多細分應(yīng)用場景。

不過 OpenAI 坦言 CUA 還有許多需要改進的地方,比如目前就沒法保證在所有場景下都能穩(wěn)定運行。

OpenAI 在 Operator 中部署的 CUA 系統(tǒng)展示了不同場景下的性能表現(xiàn)。比如它在基礎(chǔ)網(wǎng)頁操作和重復(fù)性任務(wù)方面表現(xiàn)出色,如搜索篩選、創(chuàng)建購物清單和音樂播放列表等任務(wù)的成功率達到 10/10。

在電商網(wǎng)站搜索商品時也保持 9/10 的高成功率。但在處理復(fù)雜的房產(chǎn)搜索等任務(wù)時,成功率降至 3/10。

測試還發(fā)現(xiàn)提示詞的質(zhì)量會顯著影響任務(wù)成功率,例如場地預(yù)訂任務(wù)中,添加具體時間和操作指引后,成功率從 3/10 提升至 8/10。

系統(tǒng)在處理不熟悉的 UI 界面和文本編輯時表現(xiàn)欠佳,常出現(xiàn)試錯和低效操作,文本編輯任務(wù)的成功率僅為 4/10。

為了更好地量化 Operator 的性能指標,發(fā)布會上的演示人員也提到了 OS World 測試和 Web Arena 測試。

OS World 用于評估 AI 智能體在 Linux 等操作系統(tǒng)上的導(dǎo)航能力, Operator 得分 38.1%,高于其他公開系統(tǒng)但低于人類水平(72.4%)。

Web Arena 則是測試評估 AI 智能體在電商網(wǎng)站和社交論壇等網(wǎng)站的導(dǎo)航能力, Operator 得分 58.1%,同樣超過其他公開 AI 系統(tǒng)但未達人類水平。

安全方面,演示環(huán)節(jié)介紹了三個主要的安全考慮方向。首先是系統(tǒng)拒絕執(zhí)行有害任務(wù),使用審核模型和后續(xù)檢測,并屏蔽特定網(wǎng)站。

其次對于模型可能存在的錯誤,系統(tǒng)在進行購買、預(yù)訂等關(guān)鍵操作前必須獲得用戶確認,限制高風(fēng)險任務(wù)如銀行交易,并在敏感網(wǎng)站啟用觀察模式。

特別是針對網(wǎng)站對抗性攻擊(如提示注入、越獄和釣魚),系統(tǒng)設(shè)計了謹慎導(dǎo)航機制識別并忽略提示注入,實時監(jiān)控模型檢測可疑內(nèi)容,并建立檢測管道快速識別可疑訪問模式。

最后系統(tǒng)設(shè)有注入監(jiān)控器(prompt injection monitor),類似防病毒軟件,實時監(jiān)控模型檢測可疑內(nèi)容,發(fā)現(xiàn)可疑行為時會暫停執(zhí)行。

考慮到無法預(yù)見所有安全隱患,OpenAI 只能先從小規(guī)模部署開始,通過持續(xù)收集反饋來完善安全機制。

ChatGPT 的崛起已經(jīng)證明,偉大的產(chǎn)品往往誕生于無數(shù)次「不完美」的嘗試。

OpenAI 也坦然承認目前由 CUA 支持的 Operator 只是一項早期技術(shù),雖然在特定場景已證明有用,但仍需通過用戶反饋持續(xù)改進。

并且,他們計劃提高系統(tǒng)在不熟悉界面的適應(yīng)能力,增強文本編輯精確度,優(yōu)化對不同提示詞的理解能力,并擴展可靠任務(wù)的范圍。

Altman 曾在月初的博客文章中表示,OpenAI 已經(jīng)有信心構(gòu)建通用人工智能(AGI),并預(yù)測 2025 年第一批 AI 智能體將「加入勞動力大軍」。

包括智譜昨天也宣布推出了 GLM-PC。

這是基于智譜多模態(tài)大模型 CogAgent,全球首個面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計算機,協(xié)助用戶高效完成各類電腦任務(wù)。

可預(yù)見的是,這些智能體在未來將具備強大的自主決策和任務(wù)執(zhí)行能力,能夠處理復(fù)雜任務(wù),甚至在某些領(lǐng)域替代人類工作,并從根本上改變企業(yè)的生產(chǎn)方式和產(chǎn)出。

在 OpenAI 的五級 AGI 路線圖中,智能體正是處于 L3 級別,其特點是不僅能思考,還能代表用戶采取行動,執(zhí)行復(fù)雜任務(wù)。

這樣看來, Operator 不僅是 OpenAI 智能體邁出的第一步,也將是邁向 AGI 的重要一步。

文章來源:APPSO

appso

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部