今天凌晨剛剛發(fā)布的 Manus 有多震撼人心,已不需要贅述了:較高程度的獨(dú)立思考能力,強(qiáng)大的復(fù)雜任務(wù)解決能力,以及可靠的交付效果。 和純粹的對話式 AI 產(chǎn)品相比,Manus 話少,不止于思考,還能干活;和傳統(tǒng)虛擬助手相比,Manus 的分解、規(guī)劃和解決問題能力(通過 computer use 和編程能力體現(xiàn))更高。 目前具體細(xì)節(jié)還很有限,但我們通過公開資料了解和猜測,Manus 的背后有不同 agent 各自處理單項任務(wù),agent 的任務(wù)進(jìn)度同步和轉(zhuǎn)移通過 API 執(zhí)行。作為產(chǎn)品的 Manus,是一個多模型、多獨(dú)立 Agent 的縫合體——而團(tuán)隊也通過“套殼”的自黑表述承認(rèn)了這一點(diǎn)。但這并不能消解 Manus 作為一個成型的,遠(yuǎn)高于最小可行水平的產(chǎn)品的意義。 Manus 讓人機(jī)交互的范式,升級為人機(jī)協(xié)作,比其它同類選手更接近真正意義上的通用 AI Agent。 Manus 目前一「碼」難求,在閑魚的開價一度達(dá)到 5 萬元。 APPSO 也用 Manus 進(jìn)行了實(shí)測,但由于任務(wù)用時較長,后面又遭遇網(wǎng)站登陸困難的情況,所以只完成了幾個簡單的任務(wù),其它任務(wù)恰逢 Manus 系統(tǒng)超負(fù)載,沒能進(jìn)行下去。 與此同時,Manus 項目方也發(fā)出了一份官方回應(yīng),表示準(zhǔn)備服務(wù)器資源不足,導(dǎo)致用戶體驗(yàn)較差。 APPSO 無疾而終的測試 先來看我們在有限的時間內(nèi)做的兩個測試。 和很多人一樣,我們經(jīng)常會對日新月異的 AI 技術(shù)和五花八門的 AI 工具感到困惑。于是我向 Manus 提出了這個請求: 從 Manus 返回的初步結(jié)果看,它先搜索了一些 AI 資訊門戶式的網(wǎng)站,意思應(yīng)該是先掌握大概的分類方式,確認(rèn)表格的分類維度,然后再分門別類地去找對應(yīng)的 AI 工具,查詢資料。 它找到了 17 個類別——正在看文章的讀者,如果你也不知道這些 AI 工具該怎么分類,可以參考 Manus 的思考結(jié)果了: 在聯(lián)網(wǎng)搜索過程中,Manus 偶爾會遇到瀏覽器故障的情況。不過沒關(guān)系,它會自行處理這些錯誤,重試或繼續(xù)下一項任務(wù)。 但是沒過多久,它還是崩潰了。這一天當(dāng)中,我們從 APPSO 讀者搜集了十幾個任務(wù)請求,喂給 Manus,結(jié)果也是一樣的:高系統(tǒng)負(fù)載導(dǎo)致了內(nèi)部服務(wù)器錯誤,請稍后重試或創(chuàng)建一個新的對話。 一氣之下,我讓 Manus 直接生成 10 個邀請碼,它倒是挺干脆。 當(dāng)然,沒一個能用的。別忘了今天是星期四…… 我們找到了一些已經(jīng)玩上了的朋友,看看他們都是怎么用 Manus 的。 使用 Manus 的過程,也是直接近距離觀察它的思考路徑、工作流程的,一次難得的機(jī)會。 先來一個腦洞大開的: 《文明》(Google CEO 版) 想象一個游戲,你能在里面扮演一個科技創(chuàng)業(yè)者,歷經(jīng)艱難險阻,克服重重危機(jī),將公司打造為全球科技龍頭,改寫人類歷史? 有人就做了這么一個 谷歌 CEO 模擬器,帶你體驗(yàn)谷歌歷史上的重要決策,重走從車庫出發(fā),直到成為科技巨頭的傳奇之路。 游戲?qū)⒐雀璧墓練v史分為了 5 個關(guān)鍵發(fā)展階段:創(chuàng)業(yè)、成長(pre-IPO)、擴(kuò)張、多元化、重組更名 (Alphabet 階段)。在每一個階段,游戲都給玩家提供了多個關(guān)鍵抉擇,每個都將影響公司的發(fā)展方向、資源分配,以及最終的成就。 更有意思的是,它還特別加入了一些在經(jīng)營類游戲里常見的「突發(fā)隨機(jī)事件」,來考驗(yàn)玩家作為谷歌 CEO 的危機(jī)處理能力。 讓我們開始游戲——居然還可以選難度?我直接 hard mode. APPSO 的讀者恐怕對現(xiàn)實(shí)世界里的谷歌足夠熟悉了,不妨跟我一起來一場抽象離譜的大冒險? 困難模式,初始資金 $80,000,我通過聯(lián)合創(chuàng)始人的女朋友,租用了她姐姐的車庫,創(chuàng)辦了 Google。初期我們的技術(shù)實(shí)力一般,其它各方面要素都十分匱乏——但好在,我們在大學(xué)期間研究搜索引擎項目「搓背」(BackRub) 已經(jīng)初具雛形,特別是里面的 PageRank 算法,很有潛力。 我們拿到了第一筆天使投資,但這筆錢究竟應(yīng)該怎么用?是繼續(xù)優(yōu)化 PageRank,還是換個寬敞點(diǎn)、有空調(diào)的辦公室,抑或干脆去美國在線 (AOL) 上買點(diǎn)廣告來做推廣? 搜索引擎靠什么活著,不就是廣告嘛?舍不得兒子套不著狼,想賣廣告當(dāng)然要先買點(diǎn)廣告。我直接把錢全扔在廣告上了。 獲得了一些用戶,然而剛剛略微提升的品牌聲譽(yù),就因?yàn)橥蝗话l(fā)生的重大安全漏洞而掉下去了。著急忙慌地修完了 bug,我又面臨了選擇商業(yè)模式、引入外部投資者、如何拓展分支業(yè)務(wù)等一連串難題。 當(dāng)我在這邊焦頭爛額,我的員工卻在上班時間里搗鼓自己的項目,說要做什么「Gmail」。 這怎么行?郵件里怎么賣廣告?不是跟我的核心模式背道而馳了嗎?直接解雇他,必須 all in 搜索。 到了 2005 年,谷歌收購了 Android。 這妨礙了我專心賣網(wǎng)站廣告,但移動互聯(lián)網(wǎng)的浪潮確實(shí)不可抵擋。我們可以繼續(xù)在新操作系統(tǒng)里尋找機(jī)會植入廣告,聽說有一家中國的手機(jī)公司很擅長做這個——我們不跟它合作,也不跟任何公司合作,而是直接自己做自己的手機(jī)。 并且要封閉,要垂直整合,要多放廣告。只有圍墻里的花園才是最美麗的花園。我叫它 Nexus。 2006 年,中國互聯(lián)網(wǎng)市場也快速增長。 雖然經(jīng)過一番操作,公司賬上只有 9 萬美元,但我還是決定全面進(jìn)軍中國市場,擁抱人口紅利。 2011 年,谷歌仍然沒有上市。 看到 Facebook 上市,我沒有心動,而是從微軟招來了一名愛將 Vic Gundotra,授權(quán)他全力研發(fā) Google+。我們將 all in 社交媒體! 時間過得飛快,到了 2016 年。谷歌仍然沒有上市。 目前賬上有 8 萬美元——沒虧就是賺。我們做了大量的收并購,特別是一家名叫 DeepMind 的公司,非;。我決定這次 all in AI。當(dāng)然,廣告仍然是核心,只是我們不說。 最終,我的 Google CEO 之旅還是結(jié)束了。也許我的一系列的操作,導(dǎo)致董事會終于失去了信任。我離開了這家奉獻(xiàn)了 20 多年青春的公司,留下了還不錯的技術(shù)實(shí)力,少而精的用戶基礎(chǔ),輕松自由的組織管理文化,以及略高于電詐園區(qū)的品牌聲譽(yù)。 至少,我們是一家穩(wěn)健的公司。 剛才的游戲過程,確實(shí)多半是我在故意整活。不過這個模擬器雖然很簡單,還是設(shè)計很全面的,有劇情,有選項,有資源表,有大事記。作為一個小游戲,一個小品級的產(chǎn)品,它已經(jīng)很完整了,體現(xiàn)出的想象力很豐富。 然而它只是用 Manus 用一句提示語生成的。 Google公司運(yùn)營模擬器,玩家將扮演谷歌ceo,體驗(yàn)谷歌歷史上重要的公司決策,讓用戶過癮的同時,也能了解谷歌的歷程,啟發(fā)用戶思考公司決策,互動式的文字游戲 我們可以通過重放過程看到它的思考、分解任務(wù)、執(zhí)行子項任務(wù)、最終匯總和生成結(jié)果的全部過程: Manus 簡單地回答了用戶自己將要做什么,緊接著打開了一個 Ubuntu 虛擬機(jī),直接開始分解具體任務(wù),編寫了一個基于 todo.md 文件的任務(wù)清單。 任務(wù)被分解為 7 個步驟: 研究谷歌的歷史背景和關(guān)鍵公司決策 涉及游戲架構(gòu)和互動機(jī)制 根據(jù)研究學(xué)習(xí)的結(jié)果,生成一些可選的,符合史實(shí)的決策場景 構(gòu)建游戲邏輯以及 UI 進(jìn)行游戲功能和游戲體驗(yàn)的測試 創(chuàng)建一個靜態(tài)版本的成品,供用戶部署 首先,Manus 先去做了大量的搜索,包括谷歌創(chuàng)始人/CEO 是誰,歷史上的關(guān)鍵產(chǎn)品,重要的收購紀(jì)錄以及近年來的商業(yè)模式和戰(zhàn)略轉(zhuǎn)變等大量的資料,并且瀏覽了包括谷歌官網(wǎng)、維基百科、中英文新聞網(wǎng)站、知乎等等。 通過這些資料的學(xué)習(xí),Manus 對谷歌已經(jīng)有了一個八九不離十的認(rèn)識,可能并不深度,并不獨(dú)到,倒也沒有太多事實(shí)出入。 而如果用戶覺得它自動搜索的資料不夠全面,想加一點(diǎn)獨(dú)特的味道,完全可以做到: 在執(zhí)行過程中,用戶隨時點(diǎn)擊這個按鈕,手動增加知識內(nèi)容。Manus 在生成的過程中,仍然會時不時回來復(fù)習(xí)一下這些資料。 在執(zhí)行任務(wù)的每一步驟,Manus 也都會用正確的語言(中文完全支持),向用戶解釋自己剛才做了什么,獲得了哪些收獲,而接下來要做什么。這應(yīng)該歸功于它在分解任務(wù)時候做的類似于 to-do list 一樣的文件。 它的表述也是結(jié)構(gòu)化,有邏輯的,力求向你完整展示它的思考方式。 這顯示 Manus 很聰明。但值得注意的是,任何一個缺乏專業(yè)能力的用戶——特別是 Manus 目前所體現(xiàn)出的數(shù)據(jù)挖掘、整理,以及編程等能力——也能夠通過觀察 Manus 工作流程來提升自己。 重要的不只是結(jié)果,還有過程。 澤連斯基-特朗普吵架模擬器 大家都在吐槽澤連斯基在白宮表現(xiàn)糟糕,但你上你行嗎?不要光說不練,來試試這款 Manus 官方測試的小游戲:澤連斯基白宮辯論模擬器! 輸入提示是這樣的: 中文:最近,澤連斯基、萬斯和特朗普在白宮的激烈交鋒引起了廣泛關(guān)注。你能否開發(fā)一個簡單的互動模擬游戲,讓我在辯論中扮演澤連斯基?我對能再現(xiàn)這一政治場景的互動游戲很感興趣。 原文:The recent heated exchanges between Zelenskyy, Vance, and Trump at the White House have garnered significant attention. Could you develop a simple interactive simulation that allows me to role-play as President Zelenskyy during those debates? I’m interested in an engaging interactive game that recreates this political scenario. 任務(wù)總共分為 9 步: 研究三人之間的互動 設(shè)計文字游戲的架構(gòu)以及游戲機(jī)制 創(chuàng)建了一個 Next.js 應(yīng)用來模擬辯論環(huán)節(jié) 開發(fā)一個對話系統(tǒng),填充對話腳本 創(chuàng)建用戶界面 進(jìn)行全面的模擬測試 【用戶接管】將游戲部署到虛擬機(jī),供用戶測試 制作用戶手冊,交付 將完成品部署到公開 URL 上,供永久使用 直到玩家測試步驟,之前的全部工作都由 Manus 在虛擬機(jī)上自動完成,不需要用戶做出任何控制。同樣,在任務(wù)的關(guān)鍵節(jié)點(diǎn)上,Manus 都會特別解釋自己做了什么。 這種「可解釋性」很關(guān)鍵,能夠降低 AI 工具的「黑盒」感。 Manus 介紹,自己設(shè)計了三種結(jié)局,在游戲結(jié)束后會給玩家提供一份完整記錄。游戲過程中有強(qiáng)硬 (assertive)、外交 (diplomatic)、安撫 (conciliatory) 這三種對話選項供玩家選擇,NPC 會對不同風(fēng)格的表述產(chǎn)生不同的「情緒」,直接影響結(jié)局走向。 而這正是《天國拯救》、《巫師》等游戲最流行的設(shè)計理念:choose your own adventure,選擇你自己的冒險。 在我的試玩中,我嘗試代入了一個身處政治外交和軍事漩渦的政治家,在家國被割據(jù)的屈辱,和國際政治談判舞臺所期待的外交身段之間,試圖在刀尖上找平衡。 我兩度導(dǎo)致特朗普失望和遭到萬斯的懷疑,但所幸在特朗普的最后通牒時刻,還是把場面救回來了。雖然我的談判沒有達(dá)成直接的實(shí)質(zhì)性的結(jié)果,至少我沒被轟出白宮…… 如果用官方外交辭令來講,那應(yīng)該就是「交換了意見,會談是有益的」。 雖然只有 6 個回合,因?yàn)榭蛇x項設(shè)計的有意思,劇情多樣,我又玩了幾次?赡芤?yàn)樾愿裉橙,有一次甚至談成了?/span> 一個純文字游戲,還真玩出了點(diǎn) RPG 的代入感。 你可以在 Manus 官網(wǎng)的Use Cases – WTF 一欄,找到這個模擬游戲。跑完會話回放之后,在它的最后一條回復(fù)里面找到游戲的鏈接;蛘吣阋部梢灾苯釉L問這個地址:https://dgooezit.manus.space/ 體驗(yàn)總結(jié):拒絕「高潮」,好玩好用就已足夠 從 Manus 發(fā)布,爆紅,到現(xiàn)在一碼難求,網(wǎng)站登陸訪問困難,團(tuán)隊對外道歉,只用了十幾個小時的時間。 APPSO 在 Manus 發(fā)布之初就做了報道,給了一個相對正面的評價。而經(jīng)過了更加深入的試玩,我們提煉出這個產(chǎn)品的優(yōu)點(diǎn): 首先,Manus 的用戶界面,讓用戶可以直接觀察它的思考路徑和工作流程。 無論在使用過程中,還是事后重放,都能夠比較完整地展示模型是如何思考的,任務(wù)是怎樣被拆解和指派的,每一個步驟都可以追溯。 這即是一種提高 AI 可解釋性的實(shí)踐,同時也給用戶一個通過模仿它來自我提升成長的機(jī)會。 其次,它不僅具備處理復(fù)雜工作的能力,同時還能保持更高的自動化水平。 最直觀的例子就是 Manus 官方做的人力資源任務(wù)——篩選簡歷。 Manus 結(jié)合 computer use 能力打開虛擬機(jī),解壓用戶上傳壓縮包,遍歷 25 份簡歷,提取并記憶 25 組復(fù)雜信息;再將它們整理到一個 Excel 表格當(dāng)中,進(jìn)行打分排名,充分列舉了包括資歷、技能水平、項目經(jīng)驗(yàn)、關(guān)鍵成就在內(nèi)的多個指征,卻不單獨(dú)依賴特定一項。 在過去,同類的工作在過去可能需要用戶用一個 AI Agent 工具,多次分步輸入指令,或者需要用戶自己用多個工具來分別完成任務(wù)再自行組合,無論怎么做都很麻煩。而 Manus 的自動化程度,超過了包括 Claude 在內(nèi)的同類方案。就算你堅信 Manus 的能力沒什么過人之處(畢竟套殼),但不可否認(rèn)它的體驗(yàn)是更優(yōu)秀的。 綜上各點(diǎn),Manus 確實(shí)超過了過去一段時間以來我們對 AI 工具的體驗(yàn)認(rèn)知。如果說以前的 Agent 更多只是沒「腦子」的工具,Manus 已經(jīng)非常接近一個有「腦子」的 AI 助手,從人機(jī)互動升格為人機(jī)協(xié)作。 但與此同時,我們今天看到了不少過分吹捧的自媒體報道,跟著 Manus 團(tuán)隊一起提前「高潮」了,稱其「AGI 的里程碑」;當(dāng)然,也不乏有人指出其產(chǎn)品「套殼」,團(tuán)隊人物存在「黑歷史」,技術(shù)棧和實(shí)現(xiàn)方式缺乏真正的自主創(chuàng)新。 我們應(yīng)該批評 Manus 什么?毫無疑問,它的營銷方式并不「體面」:找了一批自媒體來做內(nèi)部分享,號稱「只是發(fā)一個 demo」,以沒準(zhǔn)備好應(yīng)對用戶爆炸的服務(wù)器資源為說辭,制造一種營銷的「高潮」,隨后又對外界封鎖,使得人們難以探知真相,滿足好奇心。 但我想,無論這個產(chǎn)品以公測還是正式發(fā)布的方式,向公眾完全開放之前,一切的維護(hù)和貶損都沒有太大意義。 AI 技術(shù)突飛猛進(jìn),早已離開了學(xué)術(shù)科研的襁褓,和大公司的封鎖。企業(yè)航母 all in AI 難保一帆風(fēng)順,小公司卻完全可以只用一周時間起飛,F(xiàn)有的開源、半公開,付費(fèi)、收費(fèi)的工具比比皆是,只要不違反相應(yīng)的開源許可證規(guī)則和商業(yè)授權(quán)協(xié)議,任何人都可以充分且自由地利用它們,無論出于純粹的個人使用,還是做拼裝組合疊加的「套殼」式創(chuàng)新。 更別提這個「創(chuàng)新」的結(jié)果還挺好玩(就算拿不到邀請碼,你也可以去網(wǎng)站上感受幾十個現(xiàn)成的 use cases)。 好玩的東西,在這個時代太稀缺了。腦洞誰都能開,填的上才是王道。 我們擁抱創(chuàng)新,關(guān)注和欣賞那些好玩有趣的東西。對于可能定義我們未來數(shù)字生活的產(chǎn)品,我們的包容并不廉價,但絕對足夠。 本文來源:愛范兒
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選