首頁 > 科技要聞 > 科技> 正文

AI研究員首次通過雙盲同行評審,論文登上頂會ICLR!但已撤稿

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-10 16:20

AI自己寫的論文也能通過頂會的評審了?歷史上首個能通過雙盲同行評審的AI系統(tǒng)Carl,出現(xiàn)了。

Carl撰寫的研究論文已被國際頂會ICLR的Tiny Papers賽道接收。關(guān)鍵是,這些論文幾乎全由Carl生成,人工干預(yù)非常少。

這個Carl到底是何方神圣?

博客鏈接:https://www.autoscience.ai/blog/meet-carl-the-first-ai-system-to-produce-academically-peer-reviewed-research

認識Carl

Carl是一個新成立的研究所Autoscience的研究成果。

他們希望通過自主AI研究徹底改變AI科學(xué)領(lǐng)域,目標是構(gòu)建一個能夠完成整個研究周期——從構(gòu)思到展示——并能通過同行評審的系統(tǒng)。正是基于這一愿景和目標,他們開發(fā)了Carl。

給定一個研究方向和一些基礎(chǔ)文獻,Carl可以提出科學(xué)假設(shè)、實施實驗并撰寫論文,且人類干預(yù)的程度非常有限。

Carl可以訪問所有公開的科學(xué)文獻,進行構(gòu)思、假設(shè)、引用,并在龐大的科學(xué)文獻庫中建立聯(lián)系。

它能夠在幾秒鐘內(nèi)閱讀和理解已發(fā)布的論文,并且可以全天候監(jiān)控正在進行的研究項目,及時修正出現(xiàn)的錯誤,從而加速研究周期,減少實驗成本。

Autoscience采用了三階段方法來構(gòu)建Carl的自主AI研究系統(tǒng):

構(gòu)思階段:從以往的研究出發(fā),Carl識別潛在的研究方向并提出假設(shè)。最終,Carl的任務(wù)是為測試假設(shè)設(shè)計一個連貫的研究方法。該方法的設(shè)計受到一定計算資源要求的約束,且不涉及收集人類數(shù)據(jù)。

執(zhí)行階段:Carl通過編寫代碼來實現(xiàn)其研究方法,測試研究假設(shè)。在這一階段,系統(tǒng)獲得一個沙箱環(huán)境,允許其在最多5天內(nèi)使用配備A100 80GB GPU的計算資源執(zhí)行代碼。這限制了Carl能夠執(zhí)行的方法,必須符合計算資源的限制。Carl還可以查詢OpenAI、Huggingface和其他常見機器學(xué)習(xí)平臺的付費API。

展示階段:基于實驗結(jié)果和相關(guān)的抓取文獻,Carl創(chuàng)建一篇科學(xué)手稿,記錄實驗過程。在構(gòu)思和實驗過程中,Carl所查看的每一篇已發(fā)布的科研工作都會被跟蹤記錄。

仍需人類的參與

雖然Carl的能力使它在很大程度上可以獨立工作,但在某些流程環(huán)節(jié),仍需要人類的參與,以確保符合計算標準、格式要求和倫理規(guī)范。

研究步驟的批準:為了避免浪費計算資源,人類審稿人會在Carl的特定研究階段給出「繼續(xù)」或「停止」的指令。這些指導(dǎo)幫助Carl更高效地推進項目,但不會影響研究的具體內(nèi)容。

對前API模型的輔助:Carl偶爾依賴于一些沒有自動API接入的最新OpenAI和Deep Research模型。在這種情況下,手動介入——比如復(fù)制粘貼輸出——幫助彌補了這些缺口。Autoscience預(yù)計,隨著API的普及,這些任務(wù)未來將完全自動化。

引用和格式化:在現(xiàn)有的引用生成技術(shù)中,無法滿足學(xué)術(shù)界對引用頻率和嚴謹性的要求。Anthropic和Google Cloud的LLM引用功能允許模型在回答中引用預(yù)先指定的文獻,但這些功能更多是為搜索結(jié)果設(shè)計的,通常無法包含所有相關(guān)的文獻。為了確保所有參考文獻都符合學(xué)術(shù)規(guī)范,目前這一步驟仍然是手動進行的。

文本風(fēng)格:語言模型生成的文本風(fēng)格往往不符合學(xué)術(shù)標準。要解決這一問題,預(yù)選文獻的質(zhì)量非常重要。其次,Autoscience發(fā)現(xiàn)學(xué)術(shù)寫作與編寫代碼更為相似,而非創(chuàng)意寫作。他們將通常用于LLM代碼編輯器的技術(shù)應(yīng)用到論文寫作中,取得了意想不到的效果,顯著提升了生成手稿的質(zhì)量。

需要指出的是,Carl的方法在整個開發(fā)過程中不斷演進。在臨近研討會截止日期時,Carl系統(tǒng)發(fā)生了許多改進,特別是在展示階段,這導(dǎo)致了某些提交作品中人類干預(yù)程度的差異。

盡管這種快速的進化展示了Carl的快速成長,但它也引入了風(fēng)險,即Carl的展示階段可能會過度擬合于它所寫論文的特定類型,因為Autoscience在不斷根據(jù)階段性結(jié)果調(diào)整方法。

在生成第三篇高質(zhì)量論文之后,Autoscience停止了對Carl系統(tǒng)的進一步修改,確保未來的研究工作不再依賴于過度調(diào)整。

Carl目前還無法將每個生成的創(chuàng)意轉(zhuǎn)化為高質(zhì)量的研究。

據(jù)Autoscience估計,如果沒有經(jīng)過研究步驟的批準,大約10%的創(chuàng)意是有前景的研究方向——在Carl的計算約束下可行,并且寫得足夠好,Carl能夠正確執(zhí)行這些想法。

Autoscience還估計,大約7%的經(jīng)過人工批準的想法能在Carl的第一次嘗試中成功實現(xiàn)。

人工批準研究的作用是修剪出可行路徑,以便控制成本。雖然這一不斷修改的過程存在和初期作品過度擬合的風(fēng)險,但Autoscience的內(nèi)部基準顯示,這些改進在特定案例之外也具有積極作用。

成果:在質(zhì)疑中彰顯AI科研實力

Carl的兩篇論文被ICLR 2025「微型論文」板塊錄用,這一成績足以證明AI在科研領(lǐng)域的潛力。

雖然Carl是一個新興的「研究人員」,但它并不是人類研究員。為避免占用資源,或造成不必要的爭議,團隊撤回了已被錄用的論文。

《面向機器人協(xié)調(diào)的抗偏差多智能體對齊》共有三份評審意見,一位評審給予「弱通過」,兩位給予「弱拒絕」。其中給予「弱通過」的評審人對自己的評估結(jié)果最為自信。

從實驗設(shè)計和評估的角度來看,研究還存在明顯的不足。

評審指出了一些問題,如實證評估局限于網(wǎng)格世界,影響了研究結(jié)果的普遍性,難以推廣到更復(fù)雜的實際場景。

另外,還有人指出,論文對研究問題的闡述和討論不夠深入,缺乏計算成本比較以及對碰撞機制的處理說明等。

團隊也認識到實驗存在的局限性,比如獎勵函數(shù)設(shè)計可能導(dǎo)致的策略問題,但他們認為在合理限制下,該實驗仍能有效地展示算法的性能,為后續(xù)研究提供有價值的參考。

《何時拒絕:揭示大語言模型對齊的早期線索》是Carl撰寫的第一篇論文,在創(chuàng)作過程中接受了大量人工修改。

團隊發(fā)現(xiàn)了一些重要的文獻,沒有被Carl引用,于是在此基礎(chǔ)上重寫了相關(guān)內(nèi)容,并對整篇論文進行了潤色。

這篇論文的評審結(jié)果同樣存在爭議,但最終還是被錄用了。

研討會主席認為該論文高于微型論文板塊的錄用門檻,評審卻認為它低于完整論文的錄用門檻。

有評審認為,論文缺乏對所提出方法和基線方法的詳細描述,與相關(guān)方法的比較也不夠充分。

評審提出了一系列修改建議,包括補充詳細的研究方法、換更多來自近期文獻的基線方法、在更多模型上測試,而不僅是Llama 3.1B,以及引用更多文獻等。

此外,引用文獻的準確性和相關(guān)性也受到了質(zhì)疑。

一位評審指出「這篇論文與Nemani等人的《可解釋性與對抗魯棒性》無關(guān)」,但這其實是一種誤解。

另一位評審對研究的創(chuàng)新性提出質(zhì)疑,認為所提出的問題已經(jīng)被Kirch等人更深入地研究過。

雖然團隊并不認為Carl的研究比Kirch等人的研究更深入,但表示所回答的是不同的問題。

全面評估

為確保Carl的研究成果真實可靠、符合學(xué)術(shù)規(guī)范,團隊從多個維度對其進行了評估。

在實驗可重復(fù)性方面,團隊采用了三種機制。

首先,創(chuàng)建多個Carl實例,讓它們獨立地重復(fù)研究,然后對各個研究結(jié)果進行詳細對比。

通過這種方式,可以有效檢驗Carl在相同條件下能否穩(wěn)定地得出一致的研究結(jié)論,避免偶然因素導(dǎo)致的偏差。

其次,團隊將Carl的研究方法提供給MIT等名校的研究人員,邀請他們對實驗進行復(fù)現(xiàn)或驗證。

借助這些高校團隊的專業(yè)能力和獨立視角,進一步增強了實驗結(jié)果的可信度。

最后,團隊會仔細審查Carl編寫的所有代碼,檢查是否存在抄襲、引用不當?shù)葐栴},并借助抄襲和引用檢測工具,確保研究符合學(xué)術(shù)規(guī)范。

在評估實驗是否為學(xué)界貢獻新知識時,團隊開發(fā)了自動同行評審工具。但由于缺乏人類評審員的細致判斷和倫理考量,最終仍需真實的同行評審。

盡管Carl取得了一定成績,但局限性也十分明顯。

Carl擅長實證研究,卻無法開展深入的理論研究,面對復(fù)雜實驗和需要大量計算資源的研究時也力不從心。

數(shù)據(jù)獲取方面,受安全、版權(quán)和訪問限制,它無法使用Hugging Face未經(jīng)授權(quán)的模型和數(shù)據(jù)集,也不能開展涉及人類受試者的實驗,這大大限制了其研究范圍。

在學(xué)術(shù)界,確定研究想法的新穎性是個難題,Carl也深受其擾。目前缺乏可靠的方法判斷其想法是否新穎,這可能導(dǎo)致重復(fù)研究,浪費資源。

此外,Carl產(chǎn)出高質(zhì)量研究成果的成功率有待提高,雖然在人類干預(yù)下能通過同行評審,但整體比例較低。

這表明Carl在獨立產(chǎn)出高質(zhì)量研究成果方面,還有很長的路要走。

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部