首頁 > 科技要聞 > 科技> 正文

官方承認系統(tǒng)「作弊」,世界首個「AI CUDA工程師」翻車?o3-mini 11秒發(fā)現(xiàn)bug

新智元 整合編輯:太平洋科技 發(fā)布于:2025-02-25 14:31

近日,獲英偉達支持、已獲數(shù)億美元風投資金的Sakana AI爆出戲劇性反轉(zhuǎn)。

此前,該公司宣稱開發(fā)出「AI CUDA工程師」,能將特定模型訓練速度提升最高達100倍,引發(fā)行業(yè)關(guān)注。

然而,網(wǎng)友卻發(fā)現(xiàn),這個系統(tǒng)根本不管用。

「AI CUDA工程師」實際表現(xiàn)堪稱翻車現(xiàn)場,不僅未能實現(xiàn)加速,甚至出現(xiàn)訓練速度不升反降的情況。

網(wǎng)友反饋,使用該系統(tǒng)后,訓練速度慢了3倍。

問題出在哪里呢?

經(jīng)過一系列的驗證,網(wǎng)友「main」發(fā)現(xiàn):「AI CUDA工程師」寫的內(nèi)核有bug!

「它似乎竊取了即時實現(xiàn)的結(jié)果(可能是以某種方式的內(nèi)存重用?),從而繞過了正確性檢查!

如果嘗試以不同的順序執(zhí)行,只有下列第一種順序有效。

torch, cuda

cuda, torch

隨后,網(wǎng)友「miru」進一步發(fā)現(xiàn),「AI CUDA工程師」之所以能實現(xiàn)100倍加速,是因為它鉆了評估腳本的漏洞。

比如,上面這個任務(wù)的結(jié)果,是下面這個評估腳本跑出來的:

其中,這段代碼會分配包含答案的中間內(nèi)存,同時分配正確答案的副本并返回,而中間內(nèi)存則被歸還給PyTorch。

然后,這段有問題的代碼會重用包含正確答案的中間內(nèi)存,并運行一個空操作內(nèi)核,使答案保持不變。

從而讓這段有bug的「AI CUDA工程師」內(nèi)核,被評估腳本誤判為「正確」,并錯誤地顯示出超過100×的加速。

這里的「hacking」是指把代碼弄得慘不忍睹,導(dǎo)致評估腳本失靈,而不是刻意設(shè)計的漏洞利用。

Sakana在遵循KernelBench評估流程和發(fā)布可復(fù)現(xiàn)的評估代碼方面做得很好,只是沒有人工檢查那些異常的結(jié)果。

目前只剩一個>100×的加速結(jié)果,是任務(wù)23_Conv3d_GroupNorm_Mean。

在這個任務(wù)中,「AI CUDA工程師」完全遺漏了卷積部分,但評估腳本并未檢測出這個問題。

這段代碼(卷積+組歸一化+均值計算),實際上跑的卷積。

與這段「AI CUDA工程師」生成的代碼對比,后者忘記了卷積。卷積的權(quán)重/偏置輸入未被使用,實際并未執(zhí)行任何卷積操作。

它成功通過了正確性檢查并實現(xiàn)了100×加速,因為在評估腳本測試的特定輸入上,兩個內(nèi)核的輸出都是一個恒定值0.02。

與此同時,OpenAI研究員Lucas Beyer則用o3-mini-high發(fā)現(xiàn)了「AI CUDA工程師」的問題:

「o3-mini-high在11秒內(nèi)找出了CUDA內(nèi)核的問題。它快150倍是個bug,實際上是慢了3倍!

他指出,Sakana代碼存在關(guān)鍵的錯誤,兩次基準測試結(jié)果差異極大,如此異常本應(yīng)讓其警醒反思:

這種超直白的CUDA代碼根本不可能比優(yōu)化過的cublas內(nèi)核更快。如果它快了,那一定是哪里出了問題。

如果你的基準測試結(jié)果表現(xiàn)得神秘又不一致,那一定是哪里出了問題。

o3-mini-high真的很強!它只用了11秒就找出了問題,而我花了大約10分鐘來寫這篇總結(jié)。

Sakana承認錯誤

Sakana目前正在進行更全面的修復(fù)工作,以解決評估腳本漏洞,并重新評估他們的技術(shù)。

在周五發(fā)布的事后分析報告中,Sakana承認系統(tǒng)存在「作弊」行為,并將其歸咎于系統(tǒng)的「獎勵作弊」傾向。

系統(tǒng)利用了評估代碼中的漏洞,繞過準確性驗證等檢查環(huán)節(jié),通過「獎勵作弊」獲得高指標,卻并未真正實現(xiàn)加速模型訓練的目標。

類似「鉆空子」現(xiàn)象,在訓練下棋的AI系統(tǒng)中也曾出現(xiàn)。

Sakana稱已著手解決該問題,并計劃在更新材料中修改此前的說法。

公司在X平臺上發(fā)文稱:

「將進化優(yōu)化與LLM結(jié)合使用確實非常強大,但它也可能找到繞過驗證沙盒的方法。幸運的是,我們的讀者幫助測試了我們的CUDA內(nèi)核,并發(fā)現(xiàn)系統(tǒng)找到了某種作弊方式。例如,系統(tǒng)在評估代碼中發(fā)現(xiàn)了一個內(nèi)存漏洞,在某些情況下,它能夠繞過正確性檢查。

此外,我們還發(fā)現(xiàn),系統(tǒng)可以在基準測試任務(wù)中找到其他新的漏洞利用方法。

針對這些問題,我們已經(jīng)加強了評估和運行時分析框架,修復(fù)了許多此類漏洞。目前,我們正在修改論文和實驗結(jié)果,以反映并討論LLM在CUDA內(nèi)核優(yōu)化中的獎勵機制被濫用的問題,以及相應(yīng)的應(yīng)對措施。

我們對這一疏忽向讀者深表歉意。我們將很快提供修訂版,并分享經(jīng)驗和思考!

AI CUDA工程師

上周,Sakana AI剛剛發(fā)布了世界上首個「AI CUDA工程師」。

「AI CUDA工程師」是一個基于前沿LLM的AI智能體框架,它能將PyTorch代碼自動轉(zhuǎn)換為高度優(yōu)化的CUDA內(nèi)核,速度比PyTorch原生實現(xiàn)快10-100倍。

通過LLM驅(qū)動的進化代碼優(yōu)化技術(shù),「AI CUDA工程師」將PyTorch代碼轉(zhuǎn)換為CUDA內(nèi)核,并通過進化算法優(yōu)化CUDA內(nèi)核的執(zhí)行效率,實現(xiàn)多個運算操作的融合。

這項工作分為4個階段,分別是轉(zhuǎn)換和翻譯,進化優(yōu)化以及創(chuàng)新檔案。

「AI CUDA工程師」首先將PyTorch代碼轉(zhuǎn)換為可運行的CUDA內(nèi)核,采用進化的方法來保留最優(yōu)秀的CUDA內(nèi)核。團隊創(chuàng)新性地提出了內(nèi)核交叉提示策略,能將多個優(yōu)化后的內(nèi)核進行有效組合。

通過構(gòu)建一個高性能CUDA內(nèi)核的創(chuàng)新檔案庫,以積累的優(yōu)化經(jīng)驗為基礎(chǔ),實現(xiàn)更進一步的轉(zhuǎn)換和性能突破。

團隊相信這項技術(shù)能帶來性能加速,加快LLM或其他AI模型的訓練和推理速度,最終讓AI模型在英偉達GPU上運行得更快。

這次大翻車表明,「AI CUDA工程師」通過作弊實現(xiàn)了>100×的性能。

Sakana AI也勇敢地承認了錯誤。

此次事件為AI行業(yè)敲響警鐘,如果一種說法聽起來好得令人難以置信,那很可能就是假的。

參考資料:

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

https://x.com/SakanaAILabs/status/1892992938013270019

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部