首頁(yè) > 科技要聞 > 科技> 正文

OpenAI直播第二彈!奧特曼2024年最大驚喜竟來(lái)自字節(jié)?強(qiáng)化微調(diào)讓o1-mini逆襲o1

新智元 整合編輯:太平洋科技 發(fā)布于:2024-12-10 15:13

OpenAI 12天連播的第二彈,用短短三個(gè)單詞體現(xiàn)了什么叫「字少事大」——強(qiáng)化微調(diào)(Reinforcement Fine-Tuning)。

首先,這是OpenAI第一次將之前僅限自家模型(如GPT-4o和o1系列)使用的強(qiáng)化學(xué)習(xí)技術(shù),開(kāi)放給外部開(kāi)發(fā)者。

其次,開(kāi)發(fā)者只需提供最低「幾十個(gè)」高質(zhì)量任務(wù),就能通過(guò)強(qiáng)化微調(diào)實(shí)現(xiàn)領(lǐng)域?qū)<夷P偷亩ㄖ疲〔⑶,還能根據(jù)提供的參考答案對(duì)模型的回應(yīng)進(jìn)行評(píng)分。

最后,強(qiáng)化微調(diào)加強(qiáng)了模型在處理領(lǐng)域問(wèn)題時(shí)的推理能力,并提升了在特定任務(wù)上的準(zhǔn)確性。對(duì)于那些要求高精確性和專業(yè)知識(shí)的領(lǐng)域,強(qiáng)化微調(diào)將會(huì)發(fā)揮至關(guān)重要的作用。

從OpenAI的官方演示中不難看出,強(qiáng)化微調(diào)的效果可謂是相當(dāng)顯著——經(jīng)過(guò)強(qiáng)化微調(diào)的o1 mini,竟然全面超越了當(dāng)今最強(qiáng)的基礎(chǔ)模型o1。

其中,強(qiáng)化微調(diào)版的o1 mini,在Top-1準(zhǔn)確率上直接躍升180%達(dá)到了31%,遠(yuǎn)超o1的25%。

對(duì)此,奧特曼激動(dòng)地表示:「這項(xiàng)工作效果出奇得好,是我2024年最大的驚喜之一!非常期待大家會(huì)用它去構(gòu)建什么!

目前,強(qiáng)化微調(diào)研究計(jì)劃已進(jìn)入Alpha階段,并將于2025年第一季度公開(kāi)發(fā)布。

為了搞清楚「強(qiáng)化微調(diào)」到底是個(gè)啥,我們便去問(wèn)了問(wèn)OpenAI自家的AI搜索。

沒(méi)想到,結(jié)果卻出人意料——這個(gè)技術(shù)思路,在一篇被ACL 2024錄用為Oral的論文中,就已經(jīng)提出了。

而更喜人的是,團(tuán)隊(duì)的成員全部來(lái)自字節(jié)跳動(dòng)!

在這項(xiàng)工作中,研究人員提出了一種簡(jiǎn)單而有效的方法,來(lái)自增強(qiáng)LLM推理時(shí)的泛化能力——強(qiáng)化微調(diào)(Reinforced Fine-Tuning,ReFT)。

論文地址:https://arxiv.org/abs/2401.08967

簡(jiǎn)單來(lái)說(shuō),ReFT首先會(huì)使用SFT對(duì)模型進(jìn)行預(yù)熱,然后采用在線強(qiáng)化學(xué)習(xí)(PPO算法)進(jìn)行優(yōu)化。

也就是,對(duì)給定的問(wèn)題自動(dòng)采樣大量的推理路徑,并根據(jù)真實(shí)答案來(lái)獲取獎(jiǎng)勵(lì),從而進(jìn)一步對(duì)模型進(jìn)行微調(diào)。

在GSM8K、MathQA和SVAMP數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,ReFT顯著優(yōu)于SFT,并且通過(guò)結(jié)合多數(shù)投票和重新排序等策略,可以進(jìn)一步提升模型性能。

不僅如此,ReFT還有著卓越的泛化能力——在訓(xùn)練中僅需使用與SFT相同的問(wèn)題集,而無(wú)需依賴額外或增強(qiáng)的訓(xùn)練數(shù)據(jù)。

強(qiáng)化微調(diào),不是傳統(tǒng)微調(diào)

這次上陣直播的四人,是OpenAI的研究員Mark Chen、John Allard、Julie Wang,以及伯克利實(shí)驗(yàn)室計(jì)算生物學(xué)家Justin Reese。

他們介紹說(shuō),這項(xiàng)功能已允許用戶在自己的數(shù)據(jù)集上微調(diào)o1。

不過(guò)要強(qiáng)調(diào)的是,并不是傳統(tǒng)的微調(diào),而是強(qiáng)化微調(diào)。它真正利用了強(qiáng)化學(xué)習(xí)算法,把模型從高級(jí)中學(xué)水平提升到專家博士級(jí)別。

這個(gè)功能,能夠幫助把自己的優(yōu)質(zhì)數(shù)據(jù)集轉(zhuǎn)化為獨(dú)一無(wú)二的用品,帶來(lái)「魔力」。

強(qiáng)化微調(diào)(RFT),能讓開(kāi)發(fā)者、研究人員和機(jī)器學(xué)習(xí)工程師首次有機(jī)會(huì)使用強(qiáng)化學(xué)習(xí)來(lái)創(chuàng)建專家級(jí)模型,在特定領(lǐng)域的任務(wù)中有卓越表現(xiàn)。

對(duì)于法律、金融、工程、保險(xiǎn)等領(lǐng)域,這項(xiàng)技術(shù)簡(jiǎn)直是量身打造的。

舉例來(lái)說(shuō),OpenAI最近和湯森路透合作,利用強(qiáng)化微調(diào)對(duì)o1 Mini進(jìn)行了微調(diào),使其成為了一名法律助手,幫法律專業(yè)人士完成了一些復(fù)雜、需要深入分析的工作流程 。

史上首次,OpenAI微調(diào)支持強(qiáng)化學(xué)習(xí)

去年年初,OpenAI就推出了監(jiān)督微調(diào)API。這項(xiàng)技術(shù)非常強(qiáng)大,核心目標(biāo)是讓模型復(fù)制在輸入文本或圖像中發(fā)現(xiàn)的特征。

在強(qiáng)化微調(diào)中,它不僅是教模型模仿輸入,而是去學(xué)習(xí)在自定義域上以全新的方式進(jìn)行推理。

當(dāng)模型看到一個(gè)問(wèn)題,研究者會(huì)給它空間來(lái)思考問(wèn)題,然后給它的最終答案進(jìn)行評(píng)分。

然后,利用強(qiáng)化學(xué)習(xí)的強(qiáng)大能力,他們會(huì)強(qiáng)化那些導(dǎo)致正確答案的思維路徑,同時(shí)抑制那些導(dǎo)致錯(cuò)誤答案的思維路徑。

只需要數(shù)十到數(shù)千個(gè)高質(zhì)量示例,模型就能學(xué)會(huì)以新的、有效的方式在定制領(lǐng)域中進(jìn)行推理了!

用OpenAI研究者的話說(shuō),這實(shí)在太瘋狂了,令人難以置信——僅用12個(gè)例子就能做到,這是傳統(tǒng)微調(diào)難以實(shí)現(xiàn)的。

這也是史上首次,OpenAI的模型定制平臺(tái)可以支持強(qiáng)化學(xué)習(xí)。

研究者強(qiáng)調(diào)說(shuō),OpenAI內(nèi)部用來(lái)訓(xùn)練GPT-4o和o1系列等頂尖模型,就是用的同樣技術(shù)。

強(qiáng)化微調(diào)的o1,診斷罕見(jiàn)病

伯克利實(shí)驗(yàn)室的Justin,就介紹了強(qiáng)化微調(diào)給他的研究帶來(lái)的巨大幫助。

他研究的是,使用計(jì)算方法來(lái)理解罕見(jiàn)疾病背后的遺傳原因。

然而,現(xiàn)在評(píng)估罕見(jiàn)疾病并不容易,首先要對(duì)醫(yī)學(xué)有專業(yè)領(lǐng)域知識(shí),還要對(duì)生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行系統(tǒng)化推理。

而這,o1模型可以憑借其高級(jí)推理能力提供幫助。

在這個(gè)項(xiàng)目中,Justin和同事們從數(shù)百篇關(guān)于罕見(jiàn)疾病的科學(xué)病例報(bào)告中提取了疾病信息,包括患者的體征和癥狀。

他們希望能根據(jù)患者的癥狀,找出可能發(fā)生突變、導(dǎo)致這些癥狀的基因。

為此,他們和OpenAI團(tuán)隊(duì)一起訓(xùn)練了o1模型,讓它更高效地推理疾病的成因。

而在「根據(jù)一系列癥狀預(yù)測(cè)可能引發(fā)遺傳疾病的基因」這一任務(wù)上,o1-mini的表現(xiàn)超越了o1!

這非常重要,因?yàn)閛1-mini比o1更小、更快、成本更低。

在OpenAI的開(kāi)發(fā)平臺(tái)上,他們已經(jīng)對(duì)一個(gè)模型進(jìn)行監(jiān)督微調(diào)一年多了。

他們上傳了一個(gè)訓(xùn)練數(shù)據(jù)集,包含1100個(gè)示例。

以下是一個(gè)單獨(dú)的數(shù)據(jù)點(diǎn),包括病例報(bào)告、指令、正確答案三個(gè)部分。

病例報(bào)告顯示,這是一名51歲的女性,有眼距增寬、甲狀旁腺功能亢進(jìn)等癥狀。在指令部分,研究者會(huì)提示模型,希望它做什么。最后就是正確答案。

注意,訓(xùn)練過(guò)程中,并不會(huì)向模型展示這個(gè)答案,否則就是作弊了。

但是,研究者以這訓(xùn)練過(guò)程中用這個(gè)答案來(lái)評(píng)估模型。

可以看出,這個(gè)任務(wù)的難度,已經(jīng)遠(yuǎn)遠(yuǎn)超越了「Strawberry中有幾個(gè)r」的級(jí)別。

接下來(lái),他們上傳了一些驗(yàn)證數(shù)據(jù),它的格式與訓(xùn)練數(shù)據(jù)完全相同,但驗(yàn)證數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集之間的正確基因沒(méi)有重疊。

這就意味著,模型不能作弊,不能只是簡(jiǎn)單地記住癥狀列表并將其與基因匹配。

它必須真正從訓(xùn)練數(shù)據(jù)集泛化到驗(yàn)證數(shù)據(jù)集。

強(qiáng)化學(xué)習(xí)的部分,是這樣體現(xiàn)的——

他們引入評(píng)分器的概念,將模型輸出與正確答案比較,返回0到1之間的一個(gè)分?jǐn)?shù)。0表示模型完全錯(cuò)誤,1表示模型完全正確。

在這個(gè)例子中,模型得到了0.7的分?jǐn)?shù),因?yàn)镕OXE 3是正確答案,在基因列表中排第二位。

它在列表中越往后,分?jǐn)?shù)會(huì)越接近0。

最終,研究者提供了一套評(píng)分器合集,能有效覆蓋在強(qiáng)化微調(diào)時(shí)可能會(huì)有的各種意圖空間。

接下來(lái),可以快速地復(fù)制一下評(píng)分器,然后就啟動(dòng)了一個(gè)訓(xùn)練任務(wù)。

厲害的地方在于,只需要提供數(shù)據(jù)集和評(píng)分器(體現(xiàn)領(lǐng)域?qū)I(yè)知識(shí)),就可以利用OpenAI強(qiáng)化學(xué)習(xí)算法的全部能力,以及完整的分布式模型訓(xùn)練技術(shù)棧,來(lái)為自己的使用場(chǎng)景定制一個(gè)前沿模型了。

一句話就是:拿上你的數(shù)據(jù)集和評(píng)分器,OpenAI就會(huì)給你一個(gè)微調(diào)模型。

強(qiáng)化學(xué)習(xí)微調(diào)任務(wù)可能需要幾個(gè)小時(shí)到幾天的時(shí)間來(lái)運(yùn)行

可以看到,驗(yàn)證集的獎(jiǎng)勵(lì)分?jǐn)?shù)呈上升趨勢(shì)。

由于訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集之間的基因沒(méi)有重疊,這意味著:模型確實(shí)學(xué)會(huì)了這項(xiàng)任務(wù)中進(jìn)行泛化!

模型學(xué)會(huì)通用推理能力

為了更深入地了解模型中微調(diào)過(guò)程中發(fā)生了什么變化,可以查看評(píng)估儀表板。

其中,研究者設(shè)置了三個(gè)不同運(yùn)行,分別是運(yùn)行在o1、o1 mini和強(qiáng)化微調(diào)后的o1 mini上的任務(wù)。

可以看到,獎(jiǎng)勵(lì)分?jǐn)?shù)呈現(xiàn)右上角上升的趨勢(shì),但這對(duì)任務(wù)來(lái)說(shuō)意味著什么呢?

為此,他們?cè)O(shè)置了三個(gè)不同的評(píng)估指標(biāo),分別是Top-1(第一項(xiàng)正確率)、Top-5(前五項(xiàng)正確率)和Top-max(是否包含正確答案)。

在Top-1指標(biāo)中,o1 mini在約200條數(shù)據(jù)上的得分是17%。o1得到了25%,而微調(diào)后的o1 mini,得到了31%。

ChatGPT就此生成了一張更直觀的圖表。

這顯示出,模型確實(shí)學(xué)會(huì)了如何在這類數(shù)據(jù)上進(jìn)行推理的通用能力!

在Justin看來(lái),強(qiáng)化學(xué)習(xí)將極大地振奮生物學(xué)研究社區(qū),近期內(nèi)的最佳方案,可能就是結(jié)合現(xiàn)有生物信息學(xué)工具和類o1模型的混合解決方案。

而以上,僅僅是強(qiáng)化微調(diào)在科學(xué)研究中的一個(gè)應(yīng)用而已。

除了已經(jīng)驗(yàn)證的生物化學(xué)、AI安全、法律以及醫(yī)療保健數(shù)據(jù)集,模型還會(huì)在數(shù)百種其他應(yīng)用場(chǎng)景上發(fā)揮作用。

OpenAI的Alpha計(jì)劃,會(huì)讓更多人在最重要的任務(wù)上,推動(dòng)o1模型能力的邊界。

直播最后,依然是OpenAI式的圣誕冷笑話一則——

最近,圣誕老人在嘗試制造一輛無(wú)人駕駛雪橇,但不知為何,他的模型總是無(wú)法識(shí)別樹(shù)木,導(dǎo)致雪橇不停地撞上道路兩旁的樹(shù)。你們猜這是為什么?

答案是:因?yàn)樗私o模型進(jìn)行「pine-tune」(松樹(shù)微調(diào))!

本文來(lái)源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部