OpenAI發(fā)布了市場(chǎng)期待已久的AI智能體Operator(意為操作員),它能夠代理用戶(hù)執(zhí)行基于網(wǎng)頁(yè)的操作,像人類(lèi)一樣點(diǎn)擊、滾動(dòng)和輸入文字,完成諸如購(gòu)買(mǎi)雜貨、預(yù)訂餐廳以及提交費(fèi)用報(bào)告等任務(wù)。 在此之前,包括微軟、Salesforce和Workday等商業(yè)軟件公司紛紛推出了各自的智能體。 谷歌和人工智能初創(chuàng)公司Anthropic近期也推出了類(lèi)似的智能體工具,它們與OpenAI的Operator相似,能夠?yàn)g覽網(wǎng)頁(yè)并與菜單和按鈕進(jìn)行交互。 但Operator的特點(diǎn)是,與其他各家Agent相比,它會(huì)通過(guò)CUA的系統(tǒng)進(jìn)行復(fù)雜的思維鏈反思和步驟規(guī)劃。這可以大大提高其完成任務(wù)的精度和復(fù)雜性。在不依靠對(duì)具體任務(wù)進(jìn)行精調(diào)的情況下,Operator就能泛化的完成多種復(fù)雜任務(wù)。 雖然在直播的實(shí)機(jī)演示中,OpenAI僅僅展示了網(wǎng)購(gòu)、訂餐等基礎(chǔ)操作。但在后續(xù)的部分用戶(hù)測(cè)試中,它甚至可以完成在Arxiv上進(jìn)行論文分類(lèi)搜索,閱讀多篇論文并完成綜述整理的復(fù)雜工作。 而且這個(gè)工作肯定是不太可能被納入傳統(tǒng)精調(diào)過(guò)的“意圖理解”框架內(nèi)的。 另外,CUA本身在網(wǎng)頁(yè)控制和系統(tǒng)控制方面也達(dá)到了SOTA。雖然仍和人類(lèi)有相當(dāng)差距,但在演示中整體行動(dòng)相當(dāng)流暢。 目前,OpenAI的“Operator”智能體以“研究預(yù)覽”(research preview)的形式向美國(guó)的ChatGPT Pro用戶(hù)開(kāi)放。這一階段表明該產(chǎn)品仍處于發(fā)展初期,可能存在局限性,在演進(jìn)過(guò)程中可能會(huì)出現(xiàn)錯(cuò)誤。ChatGPT Pro的訂閱費(fèi)用為每月200美元,該服務(wù)專(zhuān)為需要高級(jí)AI功能的專(zhuān)業(yè)用戶(hù)設(shè)計(jì),提供無(wú)限制訪問(wèn)包括GPT-4o和o1在內(nèi)的高級(jí)模型。 ![]() OpenAI表示,計(jì)劃將Operator功能逐步推廣到ChatGPT的Plus、Team和Enterprise用戶(hù)。在直播活動(dòng)中,OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)提到,Operator功能將很快在其他國(guó)家推出,但歐洲地區(qū)可能需要更長(zhǎng)時(shí)間。 OpenAI首席運(yùn)營(yíng)官布拉德·萊特卡普(Brad Lightcap)表示,Operator能夠在家庭和工作中節(jié)省時(shí)間,尤其是在自動(dòng)化常見(jiàn)任務(wù)方面存在“巨大潛力”!彼赋觯骸癘perator從根本上改變了人們與計(jì)算機(jī)的交互方式。這是一個(gè)艱巨的技術(shù)挑戰(zhàn),其價(jià)值取決于它的實(shí)用性。” 此外,OpenAI正在與包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在內(nèi)的科技公司合作,以便讓用戶(hù)在Operator主頁(yè)上更便捷地訪問(wèn)這些公司的網(wǎng)頁(yè)。 使用新模型CUA Operator背后的驅(qū)動(dòng)力是OpenAI的新模型“計(jì)算機(jī)使用智能體”(Computer-Using Agent,簡(jiǎn)稱(chēng)CUA)。 該模型融合了GPT-4o的視覺(jué)能力與通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的高級(jí)推理能力。CUA經(jīng)過(guò)訓(xùn)練,能夠像人類(lèi)一樣與圖形用戶(hù)界面(GUI)交互,包括屏幕上的按鈕、菜單和文本框。這種能力使其能夠靈活地執(zhí)行數(shù)字任務(wù),無(wú)需依賴(lài)特定操作系統(tǒng)或網(wǎng)頁(yè)的API。 CUA的開(kāi)發(fā)基于多年在多模態(tài)理解和推理領(lǐng)域的基礎(chǔ)研究。它結(jié)合了高級(jí)的圖形用戶(hù)界面感知能力與結(jié)構(gòu)化的問(wèn)題解決能力,能夠?qū)⑷蝿?wù)分解為多步驟計(jì)劃,并在遇到挑戰(zhàn)時(shí)自我調(diào)整和糾正。 這一能力標(biāo)志著人工智能發(fā)展的新階段,使模型能夠使用人類(lèi)日常依賴(lài)的工具,并為一系列新應(yīng)用打開(kāi)了大門(mén)。 盡管CUA仍處于早期階段且存在局限性,但它已經(jīng)在多個(gè)基準(zhǔn)測(cè)試中取得了新的最高水平:在OSWorld的完整計(jì)算機(jī)使用任務(wù)中成功率為38.1%,在WebArena中為58.1%,在WebVoyager的網(wǎng)頁(yè)任務(wù)中為87%。 這些結(jié)果表明,CUA能夠在多樣化的環(huán)境中使用單一通用動(dòng)作空間(a single general action space)進(jìn)行操作。 CUA的工作原理 CUA通過(guò)處理原始像素?cái)?shù)據(jù)來(lái)理解屏幕上的動(dòng)態(tài),并借助虛擬鼠標(biāo)和鍵盤(pán)完成操作。它能夠?qū)Ш蕉嗖襟E任務(wù)、處理錯(cuò)誤并適應(yīng)意外變化,從而在各種數(shù)字環(huán)境中執(zhí)行任務(wù),例如填寫(xiě)表單和瀏覽網(wǎng)站,無(wú)需依賴(lài)特定的API。 在用戶(hù)指令的引導(dǎo)下,CUA通過(guò)一個(gè)迭代循環(huán)來(lái)整合感知、推理和行動(dòng): 感知:計(jì)算機(jī)的屏幕截圖被納入模型的上下文中,為模型提供計(jì)算機(jī)當(dāng)前狀態(tài)的視覺(jué)快照。 推理:CUA通過(guò)思維鏈來(lái)推導(dǎo)下一步操作,綜合考慮當(dāng)前和過(guò)去的屏幕截圖及已執(zhí)行的動(dòng)作。這種“內(nèi)心獨(dú)白”(inner monologue)機(jī)制通過(guò)評(píng)估觀察結(jié)果、跟蹤中間步驟和動(dòng)態(tài)調(diào)整,提升了任務(wù)執(zhí)行的效率。 行動(dòng):CUA執(zhí)行點(diǎn)擊、滾動(dòng)或輸入等操作,直至任務(wù)完成或需要用戶(hù)干預(yù)。盡管它能自動(dòng)處理大多數(shù)步驟,但在涉及敏感操作(如輸入登錄信息或響應(yīng)驗(yàn)證碼)時(shí),會(huì)尋求用戶(hù)確認(rèn)。 局限性與風(fēng)險(xiǎn) 盡管AI智能體潛力巨大,但其易用性仍面臨挑戰(zhàn)。已發(fā)布的各款智能體均承諾通過(guò)為用戶(hù)執(zhí)行任務(wù)來(lái)節(jié)省時(shí)間和提高效率,但大多數(shù)人尚未在日常生活中廣泛使用此類(lèi)工具。 例如,蘋(píng)果于去年秋季在其iPhone操作系統(tǒng)中推出了人工智能助手Apple Intelligence,但目前該工具尚未廣泛應(yīng)用于日常事務(wù)。即使是企業(yè),大多數(shù)AI智能體也僅處于測(cè)試階段或以有限的方式使用,以避免暴露公司機(jī)密數(shù)據(jù)或引發(fā)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。 萊特卡普表示,OpenAI可能會(huì)為企業(yè)客戶(hù)增加特定的控制措施或安全護(hù)欄,但目前公司仍專(zhuān)注于首批用戶(hù)。他指出,OpenAI已經(jīng)開(kāi)發(fā)了隱私、安全和控制功能,以確保智能體不會(huì)偏離其編程設(shè)定,最重要的是,保持用戶(hù)對(duì)人工智能的控制權(quán)。 OpenAI指出,Operator可能面臨的風(fēng)險(xiǎn)或?yàn)E用情況包括:惡意網(wǎng)站試圖欺騙用戶(hù)、用戶(hù)試圖欺騙代理,以及“提示注入”(prompt injections)攻擊,后者可能導(dǎo)致用戶(hù)將敏感信息或資金發(fā)送到惡意網(wǎng)站。 為應(yīng)對(duì)這些風(fēng)險(xiǎn),Operator推出一項(xiàng)名為“接管模式”(takeover mode)的功能,要求用戶(hù)手動(dòng)輸入支付詳情或登錄信息。此外,Operator在執(zhí)行高風(fēng)險(xiǎn)任務(wù)(如發(fā)送郵件)之前會(huì)征求用戶(hù)批準(zhǔn),并且不會(huì)處理涉及銀行交易或決定求職申請(qǐng)的任務(wù)。 同時(shí),Operator不會(huì)使用用戶(hù)之前與ChatGPT共享的數(shù)據(jù)來(lái)執(zhí)行操作。萊特卡普表示,盡管目前存在局限性,但OpenAI在經(jīng)過(guò)“充分準(zhǔn)備和謹(jǐn)慎評(píng)估”后,認(rèn)為Operator已具備有限發(fā)布的條件。 文章來(lái)源:騰訊科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。