電子表格也迎來了自己的ChatGPT時(shí)刻。 就在這兩天,一個(gè)名為TabPFN的表格處理模型登上Nature,隨后在數(shù)據(jù)科學(xué)領(lǐng)域引發(fā)熱烈討論。 據(jù)論文介紹,TabPFN專為小型表格而生,在數(shù)據(jù)集樣本量不超過10,000時(shí)性能達(dá)到新SOTA。 具體而言,它在平均2.8秒內(nèi)就能取得比之前所有方法更好的結(jié)果。 甚至即便其他方法擁有長(zhǎng)達(dá)4小時(shí)的“整頓”時(shí)間,也還是比不過。 更主要的是,它所采用的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)方法徹底終結(jié)了傳統(tǒng)ML(如梯度提升樹)在表格領(lǐng)域的統(tǒng)治地位。 目前TabPFN開箱即用,無需專門訓(xùn)練即可快速解讀任何表格。 開箱即用的表格處理模型 在Nature的另一篇文章中,傳統(tǒng)表格機(jī)器學(xué)習(xí)的局限性被提及。 比如針對(duì)以下常見應(yīng)用場(chǎng)景: 假如你經(jīng)營(yíng)著一家醫(yī)院,想要判斷哪些患者病情惡化風(fēng)險(xiǎn)最高,以便醫(yī)護(hù)人員能優(yōu)先照料,你可以創(chuàng)建一個(gè)電子表格,每行對(duì)應(yīng)一位患者,列則記錄年齡、血氧水平等相關(guān)屬性,最后一列標(biāo)注患者住院期間是否病情惡化。接著,用這些數(shù)據(jù)擬合數(shù)學(xué)模型,就能預(yù)估新入院患者的病情惡化風(fēng)險(xiǎn)。 在這個(gè)例子里,傳統(tǒng)表格機(jī)器學(xué)習(xí)利用數(shù)據(jù)表進(jìn)行推斷,這通常需要針對(duì)每個(gè)任務(wù)開發(fā)和訓(xùn)練定制模型。 而來自德國(guó)弗萊堡大學(xué)ML實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員,所推出的TabPFN做到了無需專門訓(xùn)練即可處理任意表格。 而且據(jù)作者們聲稱,本次發(fā)布的TabPFN v2相比兩年前的初代版本有了很大升級(jí)。 當(dāng)時(shí)的TabPFN v1被認(rèn)為“可能會(huì)徹底改變數(shù)據(jù)科學(xué)”,而現(xiàn)在: 我們離這一目標(biāo)又更進(jìn)了一步。 概括而言,v2版本改進(jìn)了分類能力,并擴(kuò)展了功能以支持回歸任務(wù),其在回歸任務(wù)上的性能也優(yōu)于經(jīng)過長(zhǎng)時(shí)間調(diào)優(yōu)的基線模型。 此外,它還原生支持缺失值和異常值等,使其在處理各種數(shù)據(jù)集時(shí)都能保持高效和準(zhǔn)確。 整體而言,TabPFN v2適用于處理不超過10,000樣本和500特征的中小規(guī)模數(shù)據(jù)集。 下面我們來看TabPFN模型完整的訓(xùn)練和應(yīng)用過程。 先說數(shù)據(jù)集采樣。為了讓模型能夠應(yīng)對(duì)各種實(shí)際情況,研究人員生成了大量合成數(shù)據(jù)。 第一步,他們對(duì)一些關(guān)鍵參數(shù)(如數(shù)據(jù)點(diǎn)、特征、節(jié)點(diǎn)等數(shù)量)進(jìn)行采樣,然后在中間部分構(gòu)建計(jì)算圖和圖結(jié)構(gòu)以處理數(shù)據(jù),最終生成具有不同分布和特征的數(shù)據(jù)集。 需要強(qiáng)調(diào)的是,為避免基礎(chǔ)模型常見問題,中間部分是基于結(jié)構(gòu)因果模型(SCMs)來生成合成訓(xùn)練數(shù)據(jù)集。 簡(jiǎn)單說,通過采樣超參數(shù)構(gòu)建因果圖,傳播初始化數(shù)據(jù)并應(yīng)用多種計(jì)算映射和后處理技術(shù),可以創(chuàng)建大量具有不同結(jié)構(gòu)和特征的合成數(shù)據(jù)集,從而使模型能學(xué)習(xí)處理實(shí)際數(shù)據(jù)問題的策略。 接下來進(jìn)行模型預(yù)訓(xùn)練,他們為表格結(jié)構(gòu)適配了新的架構(gòu)。 比如TabPFN模型為每個(gè)單元格分配獨(dú)立的表示,這意味著每個(gè)單元格的信息都能被單獨(dú)處理和關(guān)注。 而且還采用雙向注意力機(jī)制進(jìn)一步增強(qiáng)了模型對(duì)表格數(shù)據(jù)的理解能力。 一方面,通過1D特征注意力機(jī)制,同一特征列的單元格之間可以相互關(guān)聯(lián)和傳遞信息,使模型能夠捕捉到不同樣本在同一特征上的變化規(guī)律和關(guān)系。 另一方面,1D樣本注意力機(jī)制讓不同樣本行的單元格進(jìn)行信息交互,從而識(shí)別出不同樣本之間的整體差異和相似性。 這種雙向注意力機(jī)制保證了無論樣本和特征的順序如何改變,模型都能穩(wěn)定地提取和利用其中的信息,從而提高了模型的穩(wěn)定性和泛化能力。 而且后續(xù)還進(jìn)一步優(yōu)化了模型訓(xùn)練和推理過程。 比如為了減少重復(fù)計(jì)算,當(dāng)模型進(jìn)行測(cè)試樣本推理時(shí),允許直接利用之前保存的訓(xùn)練狀態(tài),避免了對(duì)訓(xùn)練樣本的重復(fù)計(jì)算。因?yàn)橛?xùn)練階段的表格數(shù)據(jù)都是單獨(dú)處理和學(xué)習(xí)的,已經(jīng)有所保存。 同時(shí),模型還通過采用半精度計(jì)算、激活檢查點(diǎn)等方法,進(jìn)一步減少了內(nèi)存占用。 最后,在模型實(shí)際預(yù)測(cè)生成階段。由于借助上下文學(xué)習(xí)(ICL)機(jī)制,模型無需針對(duì)每個(gè)新數(shù)據(jù)集進(jìn)行大量的重新訓(xùn)練,從而可以直接應(yīng)用于各種未曾見過的現(xiàn)實(shí)世界數(shù)據(jù)集了。 表格處理新SOTA 在定性實(shí)驗(yàn)中,與線性回歸、多層感知器(MLP)、CatBoost等相比,它能夠?qū)Χ喾N不同的函數(shù)類型進(jìn)行有效建模。(橙色表示訓(xùn)練數(shù)據(jù),藍(lán)色表示預(yù)測(cè)) 而在另一方面,在AutoML Benchmark和OpenML - CTR23等廣泛使用且具有代表性的數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),TabPFN比Random Forest、XGBoost等先進(jìn)的基線方法取得了更多SOTA,涵蓋了分類和回歸兩種主要任務(wù)的多個(gè)指標(biāo)。 甚至在實(shí)際的5場(chǎng)Kaggle競(jìng)賽中,在訓(xùn)練樣本少于10,000的情況下,TabPFN也都戰(zhàn)勝了CatBoost。 最最后,TabPFN還支持針對(duì)特定數(shù)據(jù)集進(jìn)行微調(diào)。 目前相關(guān)代碼已開源,作者們還發(fā)布了一個(gè)API,允許使用他們的GPU進(jìn)行計(jì)算。 感興趣的同學(xué)可以蹲一波了~ API調(diào)用: 參考鏈接: 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。