首頁(yè) > 科技要聞 > 科技> 正文

AI研究員首次通過(guò)雙盲同行評(píng)審,論文登上頂會(huì)ICLR!但已撤稿

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-10 16:20

AI自己寫的論文也能通過(guò)頂會(huì)的評(píng)審了?歷史上首個(gè)能通過(guò)雙盲同行評(píng)審的AI系統(tǒng)Carl,出現(xiàn)了。

Carl撰寫的研究論文已被國(guó)際頂會(huì)ICLR的Tiny Papers賽道接收。關(guān)鍵是,這些論文幾乎全由Carl生成,人工干預(yù)非常少。

這個(gè)Carl到底是何方神圣?

博客鏈接:https://www.autoscience.ai/blog/meet-carl-the-first-ai-system-to-produce-academically-peer-reviewed-research

認(rèn)識(shí)Carl

Carl是一個(gè)新成立的研究所Autoscience的研究成果。

他們希望通過(guò)自主AI研究徹底改變AI科學(xué)領(lǐng)域,目標(biāo)是構(gòu)建一個(gè)能夠完成整個(gè)研究周期——從構(gòu)思到展示——并能通過(guò)同行評(píng)審的系統(tǒng)。正是基于這一愿景和目標(biāo),他們開發(fā)了Carl。

給定一個(gè)研究方向和一些基礎(chǔ)文獻(xiàn),Carl可以提出科學(xué)假設(shè)、實(shí)施實(shí)驗(yàn)并撰寫論文,且人類干預(yù)的程度非常有限。

Carl可以訪問(wèn)所有公開的科學(xué)文獻(xiàn),進(jìn)行構(gòu)思、假設(shè)、引用,并在龐大的科學(xué)文獻(xiàn)庫(kù)中建立聯(lián)系。

它能夠在幾秒鐘內(nèi)閱讀和理解已發(fā)布的論文,并且可以全天候監(jiān)控正在進(jìn)行的研究項(xiàng)目,及時(shí)修正出現(xiàn)的錯(cuò)誤,從而加速研究周期,減少實(shí)驗(yàn)成本。

Autoscience采用了三階段方法來(lái)構(gòu)建Carl的自主AI研究系統(tǒng):

構(gòu)思階段:從以往的研究出發(fā),Carl識(shí)別潛在的研究方向并提出假設(shè)。最終,Carl的任務(wù)是為測(cè)試假設(shè)設(shè)計(jì)一個(gè)連貫的研究方法。該方法的設(shè)計(jì)受到一定計(jì)算資源要求的約束,且不涉及收集人類數(shù)據(jù)。

執(zhí)行階段:Carl通過(guò)編寫代碼來(lái)實(shí)現(xiàn)其研究方法,測(cè)試研究假設(shè)。在這一階段,系統(tǒng)獲得一個(gè)沙箱環(huán)境,允許其在最多5天內(nèi)使用配備A100 80GB GPU的計(jì)算資源執(zhí)行代碼。這限制了Carl能夠執(zhí)行的方法,必須符合計(jì)算資源的限制。Carl還可以查詢OpenAI、Huggingface和其他常見機(jī)器學(xué)習(xí)平臺(tái)的付費(fèi)API。

展示階段:基于實(shí)驗(yàn)結(jié)果和相關(guān)的抓取文獻(xiàn),Carl創(chuàng)建一篇科學(xué)手稿,記錄實(shí)驗(yàn)過(guò)程。在構(gòu)思和實(shí)驗(yàn)過(guò)程中,Carl所查看的每一篇已發(fā)布的科研工作都會(huì)被跟蹤記錄。

仍需人類的參與

雖然Carl的能力使它在很大程度上可以獨(dú)立工作,但在某些流程環(huán)節(jié),仍需要人類的參與,以確保符合計(jì)算標(biāo)準(zhǔn)、格式要求和倫理規(guī)范。

研究步驟的批準(zhǔn):為了避免浪費(fèi)計(jì)算資源,人類審稿人會(huì)在Carl的特定研究階段給出「繼續(xù)」或「停止」的指令。這些指導(dǎo)幫助Carl更高效地推進(jìn)項(xiàng)目,但不會(huì)影響研究的具體內(nèi)容。

對(duì)前API模型的輔助:Carl偶爾依賴于一些沒有自動(dòng)API接入的最新OpenAI和Deep Research模型。在這種情況下,手動(dòng)介入——比如復(fù)制粘貼輸出——幫助彌補(bǔ)了這些缺口。Autoscience預(yù)計(jì),隨著API的普及,這些任務(wù)未來(lái)將完全自動(dòng)化。

引用和格式化:在現(xiàn)有的引用生成技術(shù)中,無(wú)法滿足學(xué)術(shù)界對(duì)引用頻率和嚴(yán)謹(jǐn)性的要求。Anthropic和Google Cloud的LLM引用功能允許模型在回答中引用預(yù)先指定的文獻(xiàn),但這些功能更多是為搜索結(jié)果設(shè)計(jì)的,通常無(wú)法包含所有相關(guān)的文獻(xiàn)。為了確保所有參考文獻(xiàn)都符合學(xué)術(shù)規(guī)范,目前這一步驟仍然是手動(dòng)進(jìn)行的。

文本風(fēng)格:語(yǔ)言模型生成的文本風(fēng)格往往不符合學(xué)術(shù)標(biāo)準(zhǔn)。要解決這一問(wèn)題,預(yù)選文獻(xiàn)的質(zhì)量非常重要。其次,Autoscience發(fā)現(xiàn)學(xué)術(shù)寫作與編寫代碼更為相似,而非創(chuàng)意寫作。他們將通常用于LLM代碼編輯器的技術(shù)應(yīng)用到論文寫作中,取得了意想不到的效果,顯著提升了生成手稿的質(zhì)量。

需要指出的是,Carl的方法在整個(gè)開發(fā)過(guò)程中不斷演進(jìn)。在臨近研討會(huì)截止日期時(shí),Carl系統(tǒng)發(fā)生了許多改進(jìn),特別是在展示階段,這導(dǎo)致了某些提交作品中人類干預(yù)程度的差異。

盡管這種快速的進(jìn)化展示了Carl的快速成長(zhǎng),但它也引入了風(fēng)險(xiǎn),即Carl的展示階段可能會(huì)過(guò)度擬合于它所寫論文的特定類型,因?yàn)锳utoscience在不斷根據(jù)階段性結(jié)果調(diào)整方法。

在生成第三篇高質(zhì)量論文之后,Autoscience停止了對(duì)Carl系統(tǒng)的進(jìn)一步修改,確保未來(lái)的研究工作不再依賴于過(guò)度調(diào)整。

Carl目前還無(wú)法將每個(gè)生成的創(chuàng)意轉(zhuǎn)化為高質(zhì)量的研究。

據(jù)Autoscience估計(jì),如果沒有經(jīng)過(guò)研究步驟的批準(zhǔn),大約10%的創(chuàng)意是有前景的研究方向——在Carl的計(jì)算約束下可行,并且寫得足夠好,Carl能夠正確執(zhí)行這些想法。

Autoscience還估計(jì),大約7%的經(jīng)過(guò)人工批準(zhǔn)的想法能在Carl的第一次嘗試中成功實(shí)現(xiàn)。

人工批準(zhǔn)研究的作用是修剪出可行路徑,以便控制成本。雖然這一不斷修改的過(guò)程存在和初期作品過(guò)度擬合的風(fēng)險(xiǎn),但Autoscience的內(nèi)部基準(zhǔn)顯示,這些改進(jìn)在特定案例之外也具有積極作用。

成果:在質(zhì)疑中彰顯AI科研實(shí)力

Carl的兩篇論文被ICLR 2025「微型論文」板塊錄用,這一成績(jī)足以證明AI在科研領(lǐng)域的潛力。

雖然Carl是一個(gè)新興的「研究人員」,但它并不是人類研究員。為避免占用資源,或造成不必要的爭(zhēng)議,團(tuán)隊(duì)撤回了已被錄用的論文。

《面向機(jī)器人協(xié)調(diào)的抗偏差多智能體對(duì)齊》共有三份評(píng)審意見,一位評(píng)審給予「弱通過(guò)」,兩位給予「弱拒絕」。其中給予「弱通過(guò)」的評(píng)審人對(duì)自己的評(píng)估結(jié)果最為自信。

從實(shí)驗(yàn)設(shè)計(jì)和評(píng)估的角度來(lái)看,研究還存在明顯的不足。

評(píng)審指出了一些問(wèn)題,如實(shí)證評(píng)估局限于網(wǎng)格世界,影響了研究結(jié)果的普遍性,難以推廣到更復(fù)雜的實(shí)際場(chǎng)景。

另外,還有人指出,論文對(duì)研究問(wèn)題的闡述和討論不夠深入,缺乏計(jì)算成本比較以及對(duì)碰撞機(jī)制的處理說(shuō)明等。

團(tuán)隊(duì)也認(rèn)識(shí)到實(shí)驗(yàn)存在的局限性,比如獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可能導(dǎo)致的策略問(wèn)題,但他們認(rèn)為在合理限制下,該實(shí)驗(yàn)仍能有效地展示算法的性能,為后續(xù)研究提供有價(jià)值的參考。

《何時(shí)拒絕:揭示大語(yǔ)言模型對(duì)齊的早期線索》是Carl撰寫的第一篇論文,在創(chuàng)作過(guò)程中接受了大量人工修改。

團(tuán)隊(duì)發(fā)現(xiàn)了一些重要的文獻(xiàn),沒有被Carl引用,于是在此基礎(chǔ)上重寫了相關(guān)內(nèi)容,并對(duì)整篇論文進(jìn)行了潤(rùn)色。

這篇論文的評(píng)審結(jié)果同樣存在爭(zhēng)議,但最終還是被錄用了。

研討會(huì)主席認(rèn)為該論文高于微型論文板塊的錄用門檻,評(píng)審卻認(rèn)為它低于完整論文的錄用門檻。

有評(píng)審認(rèn)為,論文缺乏對(duì)所提出方法和基線方法的詳細(xì)描述,與相關(guān)方法的比較也不夠充分。

評(píng)審提出了一系列修改建議,包括補(bǔ)充詳細(xì)的研究方法、換更多來(lái)自近期文獻(xiàn)的基線方法、在更多模型上測(cè)試,而不僅是Llama 3.1B,以及引用更多文獻(xiàn)等。

此外,引用文獻(xiàn)的準(zhǔn)確性和相關(guān)性也受到了質(zhì)疑。

一位評(píng)審指出「這篇論文與Nemani等人的《可解釋性與對(duì)抗魯棒性》無(wú)關(guān)」,但這其實(shí)是一種誤解。

另一位評(píng)審對(duì)研究的創(chuàng)新性提出質(zhì)疑,認(rèn)為所提出的問(wèn)題已經(jīng)被Kirch等人更深入地研究過(guò)。

雖然團(tuán)隊(duì)并不認(rèn)為Carl的研究比Kirch等人的研究更深入,但表示所回答的是不同的問(wèn)題。

全面評(píng)估

為確保Carl的研究成果真實(shí)可靠、符合學(xué)術(shù)規(guī)范,團(tuán)隊(duì)從多個(gè)維度對(duì)其進(jìn)行了評(píng)估。

在實(shí)驗(yàn)可重復(fù)性方面,團(tuán)隊(duì)采用了三種機(jī)制。

首先,創(chuàng)建多個(gè)Carl實(shí)例,讓它們獨(dú)立地重復(fù)研究,然后對(duì)各個(gè)研究結(jié)果進(jìn)行詳細(xì)對(duì)比。

通過(guò)這種方式,可以有效檢驗(yàn)Carl在相同條件下能否穩(wěn)定地得出一致的研究結(jié)論,避免偶然因素導(dǎo)致的偏差。

其次,團(tuán)隊(duì)將Carl的研究方法提供給MIT等名校的研究人員,邀請(qǐng)他們對(duì)實(shí)驗(yàn)進(jìn)行復(fù)現(xiàn)或驗(yàn)證。

借助這些高校團(tuán)隊(duì)的專業(yè)能力和獨(dú)立視角,進(jìn)一步增強(qiáng)了實(shí)驗(yàn)結(jié)果的可信度。

最后,團(tuán)隊(duì)會(huì)仔細(xì)審查Carl編寫的所有代碼,檢查是否存在抄襲、引用不當(dāng)?shù)葐?wèn)題,并借助抄襲和引用檢測(cè)工具,確保研究符合學(xué)術(shù)規(guī)范。

在評(píng)估實(shí)驗(yàn)是否為學(xué)界貢獻(xiàn)新知識(shí)時(shí),團(tuán)隊(duì)開發(fā)了自動(dòng)同行評(píng)審工具。但由于缺乏人類評(píng)審員的細(xì)致判斷和倫理考量,最終仍需真實(shí)的同行評(píng)審。

盡管Carl取得了一定成績(jī),但局限性也十分明顯。

Carl擅長(zhǎng)實(shí)證研究,卻無(wú)法開展深入的理論研究,面對(duì)復(fù)雜實(shí)驗(yàn)和需要大量計(jì)算資源的研究時(shí)也力不從心。

數(shù)據(jù)獲取方面,受安全、版權(quán)和訪問(wèn)限制,它無(wú)法使用Hugging Face未經(jīng)授權(quán)的模型和數(shù)據(jù)集,也不能開展涉及人類受試者的實(shí)驗(yàn),這大大限制了其研究范圍。

在學(xué)術(shù)界,確定研究想法的新穎性是個(gè)難題,Carl也深受其擾。目前缺乏可靠的方法判斷其想法是否新穎,這可能導(dǎo)致重復(fù)研究,浪費(fèi)資源。

此外,Carl產(chǎn)出高質(zhì)量研究成果的成功率有待提高,雖然在人類干預(yù)下能通過(guò)同行評(píng)審,但整體比例較低。

這表明Carl在獨(dú)立產(chǎn)出高質(zhì)量研究成果方面,還有很長(zhǎng)的路要走。

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部