一覺醒來,奇點又進了一步?! 昨天,OpenAI智能體安全研究員Stephen McAleer突然發(fā)出一番感慨: 有點懷念從前那段做AI研究的日子,那時我們還不知道如何創(chuàng)造超級智能。 緊隨其后,奧特曼發(fā)表了意味深長的「六字箴言」:near the singularity; unclear which side——奇點臨近;不知身處何方。 這句話是想表達兩層意思: 1. 模擬假說 2. 我們根本無法知道AI真正起飛的關鍵時刻,究竟是在什么時候 他又瘋狂暗示了一番,并期望這一點能引申出大家更多的解讀。 這一前一后,他們接連發(fā)出耐人尋味的信號,讓所有人不禁思考:奇點是否真的近在咫尺? 評論區(qū)下方,直接被新一輪的AGI大猜想和恐慌沖爆了。 若AGI/ASI真正降臨那天,我們將面臨著什么? 「谷歌文檔」之父Steve Newman在最新長文中認為,「屆時,AI將會取代95%人類工作,甚至包括未來新創(chuàng)造的工作」。 Apollo Research聯(lián)創(chuàng)Marius Hobbhahn則更進一步,列出了2024年-2030年所有AGI時間表。 他預測,「2027年,AI將直接取代AGI實驗室頂級AI研究員; 2028年,AI公司將有1萬-100萬個自動化的AI研究員,差不多所有需要知識型的工作都被AI自動化」。 與Newman觀點一致的是,Hobbhahn認為2024年95%以上經(jīng)濟價值的任務,都能被AI完全自動化。 不過,他將這個時間節(jié)點設定在了2029年。 AGI降臨,超95%工作被取代 Steve Newman在文章中,闡述了他對AGI的定義及其AI對未來世界的影響。 那么,AGI究竟指代的是什么時刻?Newman認為: AI能夠在超95%的經(jīng)濟活動中,以成本效益的方式取代人類,包括未來新創(chuàng)造的任何工作。 他認為,大多數(shù)假設的AI變革性影響都集中在這個節(jié)點上。 因此,這個「AGI」的定義,代表了世界開始顯著改變的時刻,也是所有人「感受到AGI」的時刻,具體而言: 1 AI系統(tǒng)能主動適應完成大多數(shù)經(jīng)濟活動所需的任務,并能完成完整而非孤立的任務。 2 一旦AI能夠完成大多數(shù)知識型工作,高性能的物理機器人將在幾年內隨之而來。 3 這種能力水平可以實現(xiàn)一系列變革場景,從經(jīng)濟超增長到AI接管世界等。 4 世界變革場景需要這種水平的AI(通常,專用AI不足以改變世界)。 5 在達到AGI之前,「遞歸自我改進」將成為主要推動力。 6 AGI指的是具備必要能力(以及經(jīng)濟效率)的AI被發(fā)明出來的時刻,而不是在整個經(jīng)濟中全面部署的時刻。 關于AI如何對世界產(chǎn)生變革性影響,有來自多方的推測: 一種觀點認為,AI可能帶來難以想象的經(jīng)濟增長——推動科學和工程領域快速進步,完成任務的成本比人類更低,幫助公司和政府做出更高效的決策。 根據(jù)最近的歷史數(shù)據(jù),世界人均GDP大約每40年翻一番。有人認為,高級AI可以使GDP在一年內至少翻一倍,也就是「超增長」。 十年的「超增長」將使人均GDP增加1000倍。也就意味著,目前每天靠2美元生活的家庭,未來可能會實現(xiàn)年收入73萬美元。 另一種觀點認為,AI可能會帶來災難性的風險。 它可能會發(fā)動毀滅性的網(wǎng)絡攻擊,制造出高死亡率的流行;可能讓獨裁者獲得對國家甚至全世界的絕對控制權;甚至,AI可能失去控制,最終摧毀所有人類生命。 還有人推測,AI可能淘汰人類,至少在經(jīng)濟領域會這樣。它可能終結資源稀缺,讓每個人都能過上富裕的生活(前提是選擇公平分配這些成果)。它可能將僅存在于科幻中的技術變?yōu)楝F(xiàn)實,比如治愈衰老、太空殖民、星際旅行、納米技術。 不僅如此,一些人設想了一個「奇點」,在奇點中,進步的速度如此之快,以至于我們什么都無法預測。 Steve Newman推測,AGI真正實現(xiàn)的時刻,就是這些設想幾乎同時變成現(xiàn)實的時刻。 「可能發(fā)生」,不是「肯定發(fā)生」 需要澄清的是,Newman并非在說,關于高級AI的預測,一定都會實現(xiàn)。 未來,技術突破逐漸變難,所謂的「奇點」也就不一定會出現(xiàn)。也就是說,「長生不老」可能根本就無法實現(xiàn)。 再說了,人們可能更喜歡與他人互動,這樣的話,人類也就不會真的在現(xiàn)實經(jīng)濟活動中變得沒用。 當提到「可能差不多同時發(fā)生」時,Steve Newman的意思是,AI如果能實現(xiàn)難以想象的經(jīng)濟增長,那也有能力制造真正的毀滅性流行病、接管世界或快速殖民太空。 為什么談論「通用人工智能」 經(jīng)濟超增長在理論上是否可能,有一些爭議。 但如果AI無法自動化幾乎所有的經(jīng)濟活動,那么超增長幾乎注定是不可能的。僅僅自動化一半的工作,不會帶來深遠的影響;對另一半工作的需求會隨之增加,直到人類達到一個新的、相對常規(guī)的平衡。(畢竟,這種情況在過去已發(fā)生過;在不久前,大多數(shù)人還從事農業(yè)或簡單的手工業(yè)。) 因此,超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應工作,而不是重新調整工作和流程來適應AI。 否則,AI將以類似于以往技術的速度滲透到經(jīng)濟中——這種速度太慢,無法帶來持續(xù)的超增長。超增長需要AI足夠通用,以完成人類能做的幾乎所有事情,并且足夠靈活以適應人類原本的工作環(huán)境。 還有太空殖民、超致命流行病、資源稀缺的終結、AI接管世界等預測,這些情景都可以被歸類為「AGI 完成」情景:它們與經(jīng)濟超增長需要的AI,具有相同的廣度和深度。 Newman進一步主張,只要AI能夠完成幾乎所有經(jīng)濟任務,它就足以實現(xiàn)全部預測,除非與AI能力無關的原因導致它們無法實現(xiàn)。 為什么這些截然不同的情景,需要相同水平的AI能力? 閾值效應 他提到了,上個月Dean Ball關于「閾值效應」的文章。 也就是說,技術的逐步進步可能在達到某個關鍵閾值時,引發(fā)突如其來的巨大影響: Dean Ball最近撰文探討了閾值效應:新技術在初期并不會迅速普及,只有當難以預測的實用性閾值被突破后,采用率才會迅速攀升。例如,手機起初是一種笨重且昂貴的滯銷產(chǎn)品,而后來卻變得無處不在。 幾十年來, 自動駕駛汽車還只是研究人員的興趣,而如今谷歌的Waymo服務每三個月就能實現(xiàn)翻倍增長。 對于任何特定任務,只有在突破該任務的實用性閾值后, AI才會被廣泛采用。這種突破可能發(fā)生得相當突然;從「還不夠好」到「足夠好」的最后一步不一定很大。 他認為,對于所有真正具有變革性影響的AI,其閾值與他之前描述的定義一致: 超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應任務,而不是調整任務去適應自動化。 當AI能夠完成幾乎所有經(jīng)濟價值任務,并且不需要為了適應自動化而調整任務時,它將具備實現(xiàn)全部預測的能力。在這些條件滿足之前,AI還需要人類專家的協(xié)助。 一些細節(jié) 不過,Ball略過了AI承擔體力工作的問題——即機器人技術。 大多數(shù)場景都需要高性能的機器人,但一兩個(例如高級網(wǎng)絡攻擊)可能不需要。然而,這種區(qū)別可能并不重要。 機器人學的進步——無論是物理能力還是用于控制機器人的軟件——最近都顯著加快。這并非完全偶然:現(xiàn)代「深度學習」技術既推動了當前AI浪潮,在機器人控制方面也非常有效。 這引發(fā)了物理機器人硬件領域的一波新研究。當AI有足夠的能力刺激經(jīng)濟高速增長時,幾年之內它也可能會克服剩余的障礙來制造可以勝任體力工作的機器人。 實際的影響將在至少幾年內逐步展開,一些任務將比其他任務更早實現(xiàn)。即使AI能夠完成大多數(shù)經(jīng)濟價值任務,也不是所有公司都會立即行動。 為了讓AI完成比人類更多的工作,需要時間去建設足夠多的數(shù)據(jù)中心,而大規(guī)模生產(chǎn)物理機器人可能需要更長時間。 當談到AGI時,指的是具備基本能力的時刻,而不是全面部署的時刻。 當提到AI能夠「完成幾乎所有經(jīng)濟價值任務」時,并不一定意味著單個AI系統(tǒng)可以完成所有這些任務。我們可能最終會創(chuàng)建從事不同任務的專用模型,就像人類從事不同的專業(yè)一樣。但創(chuàng)建專用模型的必須像培訓專業(yè)工人一樣容易。 實現(xiàn)AGI,我們該怎么做? 對于「如何實現(xiàn)AGI?」這個問題,現(xiàn)在的研究者幾乎沒有頭緒和理論依據(jù),各種流派都有,爭論不休。 Apollo Research聯(lián)創(chuàng)Marius Hobbhahn認為,AGI的核心特點應該有三個: - 對風險的來源、預期的風險程度、安全預算以及愿意承擔的風險做出更具體的明確假設。 - 明確的多層次防御方法,去除某些不相關、負相關的措施,而不是「嘗試疊加不同的策略以降低風險」。 - 計劃一致性,很多AI公司在宣傳和實際做的事不一致,比如聲稱為了安全性愿意付出更高代價,但卻不愿意承擔透明推理帶來的額外成本。 忠實且人類可讀的CoT范式從AGI的全局發(fā)展來看,我們很幸運:現(xiàn)在AI系統(tǒng)的大部分推理過程是「直接可見」且「易于理解的」。 所謂忠實且人類可讀,就是指模型的推理過程是以一種人類可以直接理解的方式進行的,并且準確地反映了模型行動的原因,模型不能進行與聲明不符的內部推理。 我們至少應該: 1. 共同認同將此作為一個重要考慮因素,并以此進一步發(fā)展。為了讓模型產(chǎn)生更易理解的CoT,我們可以并愿意承受相應的性能損失,哪怕是普通應用的運行成本會增加2倍,或是高風險應用的成本增加到5倍 2. 將更多的精力投入到研究易于理解且忠實的推理過程(CoT)。比如構建一套評估工具,以測試某個特定模型的推理過程是否忠實,或者探索直接優(yōu)化可讀性會帶來哪些副作用,如何隱藏掉非預期推理等。 3. 「從架構中移除可見CoT」的相關研究應該減少,例如Meta的COCONUT 假設可讀性帶來的額外成本并不太高(例如,不到2倍),那現(xiàn)在關于「移除CoT」的研究無異于自毀長城。 如果存在證據(jù)表明,像在o1和o3中使用的高計算強化學習(high compute RL)會導致不可讀的推理過程,例如模型自己發(fā)展出人類難以理解的語言,相應的觀念也應該發(fā)生轉變: 1. 人工智能開發(fā)者盡快分享此信息,「模型的推理性能很好,但我們不理解其推理過程」要比「模型的推理性能一般,但我們能夠理解其推理過程」可怕得多。 2. 轉變研究和治理策略的優(yōu)先級,比如投入更多精力去解碼模型所學到的語言。 用CoT監(jiān)控模型如果模型能生成人類可理解的CoT,我們的主要防御手段就是對模型進行詳細的監(jiān)控,雖然極具成本效益但經(jīng)常被忽視。 在理想情況下,可以用幾臺簡單的監(jiān)控設備來分析模型輸出,以檢測各種通用的故障模式和不良行為,可追蹤的行為類型包括: 各種類型的陰謀(scheming)行為,例如模型是否隱藏了某個特定目標,是否試圖逃避監(jiān)管,是否采取了不符合用戶利益的行動等; 各種類型的權力追求(power-seeking)行為,例如模型是否試圖獲取資源,試圖減少訪問限制,試圖以某種方式說服他人等; 強烈且廣泛的目標導向,例如模型在多個上下文中都一直在追求某個特定目標,需要在不同上下文之間進行對比; 可以使用較小但運行更快的模型作為「僅黑箱監(jiān)控器」(balck-box-only monitors),類似用Gemini-flash來監(jiān)控Gemini,或者使用「白盒探測器」(white-box probes),經(jīng)過訓練以檢測有問題的行為(例如,線性探測器或SAE探測器); 最好既能監(jiān)控行動本身(例如,工具調用),也能監(jiān)控導致這些行動的推理過程。 模型開發(fā)商已經(jīng)開始使用黑箱監(jiān)控器來防止模型越獄(jailbreaks),算是有了一個概念驗證;簡單的線性探測器極具成本效益(只需要一個簡單的向量乘積),可以在幾乎不增加額外開銷的情況下,并行運行上萬的探測器。 雖然這些方法看似簡單,但研究人員認為,還沒有人系統(tǒng)地研究如何對模型進行有效的監(jiān)控。 監(jiān)控在概念理解上看似簡單,但仍需要大量的迭代和調整,比如需要一個完善的數(shù)據(jù)集來訓練和評估探測器,校準閾值等。 每個AI實驗室都應該有一個完整的團隊來專門構建監(jiān)控設備,確保模型按預期工作,分析其結果,使其運行更高效等。 總的來說,監(jiān)控設備不僅可以直接防止模型生成傷害性內容,還可以更快、更全面地了解對齊(alignment)技術的有效性。 控制模型最壞情況下,模型可能有自己的想法,而且人類不一定能看清推理過程,所以需要最大限度地提高模型的實用性,同時最小化風險,具體措施包括: 1. 智能體(agents):以往的研究主要集中在小智能體系統(tǒng)或在較小任務,實驗室應該盡快將控制技術應用于最先進的系統(tǒng),以便盡早積累實踐經(jīng)驗; 2. 現(xiàn)實性(realism):在常見的應用場景下對模型進行控制,比如輔助研究等; 3. 藍隊與紅隊的規(guī)則:在某些變體下,紅隊過于強大,比如可以訪問藍隊的所有數(shù)據(jù),并針對藍隊進行訓練等,對團隊的假設應該更「合理」且「精確」。 4. 放寬假設(relaxed asummptions):控制的假設基于模型始終腹黑,相對保守;可以定義更嚴格的界限,減少約束,使模型表現(xiàn)大體不變。 模型的陰謀(scheming)在加速研發(fā)人工智能系統(tǒng)時,我們也應該加深對大模型圖謀不軌行為的理解: 1. 檢測工具:使用性能更好的工具來檢測模型的圖謀,例如更大規(guī)模的黑箱評估和更好的白箱技術; 2. 圖謀行為的發(fā)展:應該深入理解為什么模型會追求某種能力,了解模型如何學習非短視傾向,以及模型何時愿意為了這些傾向付出行動; 3. 現(xiàn)實中的傾向:了解模型在實踐中的圖謀頻率,比如分析1億個真實的模型回復,似乎是一個低投入、高回報的項目,但需要訪問大量真實的部署數(shù)據(jù)。 4. 隱藏的圖謀:分析哪些訓練方法會減少模型的圖謀行為,或識別出那些難以檢測的圖謀行為。如果模型每次出現(xiàn)圖謀不軌的時候,就對其進行懲罰,會導致負面行為減少,但可能會增加模型隱藏陰謀的能力。我們需要針對不同情況作出判斷和平衡; 5. 準備應對措施:根據(jù)模型的圖謀程度,采取無視、重新訓練模型,或者完全丟棄模型等不同策略; 6. 更多的能力評估:更進一步了解模型在規(guī)避監(jiān)管、干擾訓練等程度。 評估評估是一種高效的「模型圖謀」證據(jù)收集工具,可以支持其他策略,比如評價「監(jiān)控」或「控制」方法是否有效等。 另一方面,評估也可以讓我們了解模型的大體能力,但現(xiàn)有的評估在某些方面仍然不足: 1. 能力評估:應該繼續(xù)構建更多更好的能力評估,特別是針對人工智能研發(fā)、策劃、核生化、網(wǎng)絡和說服等方面,我們目前仍然不清楚模型的具體能力; 2. 誘導(Elicitation):如何對模型進行誘導以產(chǎn)生最大能力,盡可能找到模型的上限能力? 3. 預測評估:預測能力的正確方式是什么?那些模型表現(xiàn)仍然為0的基準,該如何突破?或許還有更好的預測評估方法; 4. 對齊評估:迄今為止,大多數(shù)研究都集中在能力評估上,而「對齊/傾向評估」(alignment/propensity)也很重要,應該加速構建對抗性對齊評估,比如設置各種非短視偏好陷阱等,為模型建立一個非常詳細的「心理檔案」,以了解其默認傾向; 5. 演示:對于研究人員或公司內部來說,需要用一篇嚴謹?shù)恼撐膩碜屑毧紤]所有的潛在可能性,還需要考慮如何傳遞演示給普通用戶。 短期對齊策略現(xiàn)有的技術,比如RLHF在模型中引入了非短視(non-myopic)且不可糾正的(non-corrigible)傾向,應該投入更多的精力來詳細了解模型獲得的目標類型,為模型建立詳細的「認知檔案」。 內部和外部使用的策略應該有明顯的區(qū)別,比如模型具有更強的抗越獄能力可能會降低其可糾正性,需要確定哪些策略適用于長期內部部署。 推理透明度在最好的情況下,內部計劃應該是完全透明的,并明確關于安全預算、組織隱含愿意承擔的風險、明確的紅線等假設。應該經(jīng)常與外部專家溝通具體計劃,專家可以來自獨立組織、學術界或人工智能安全研究所,可以簽訂保密協(xié)議。 從道德上講,公司應該與公眾分享計劃中的細節(jié),尤其是影響力更大的AI公司和技術,每個人都應該能夠理解他們「應該或不應該」期望這項技術是安全的。 https://x.com/sama/status/1875603249472139576 https://amistrongeryet.substack.com/p/defining-agi https://www.lesswrong.com/posts/bb5Tnjdrptu89rcyY/what-s-the-short-timeline-plan#So_what_s_the_plan_ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選