首頁(yè) > 科技要聞 > 科技> 正文

表格處理神器登上Nature!開箱即用,平均2.8s解讀任意表格

量子位 整合編輯:太平洋科技 發(fā)布于:2025-01-12 00:15

電子表格也迎來了自己的ChatGPT時(shí)刻。

就在這兩天,一個(gè)名為TabPFN的表格處理模型登上Nature,隨后在數(shù)據(jù)科學(xué)領(lǐng)域引發(fā)熱烈討論。

據(jù)論文介紹,TabPFN專為小型表格而生,在數(shù)據(jù)集樣本量不超過10,000時(shí)性能達(dá)到新SOTA。

具體而言,它在平均2.8秒內(nèi)就能取得比之前所有方法更好的結(jié)果。

甚至即便其他方法擁有長(zhǎng)達(dá)4小時(shí)的“整頓”時(shí)間,也還是比不過。

更主要的是,它所采用的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)方法徹底終結(jié)了傳統(tǒng)ML(如梯度提升樹)在表格領(lǐng)域的統(tǒng)治地位。


目前TabPFN開箱即用,無需專門訓(xùn)練即可快速解讀任何表格。

開箱即用的表格處理模型

在Nature的另一篇文章中,傳統(tǒng)表格機(jī)器學(xué)習(xí)的局限性被提及。

比如針對(duì)以下常見應(yīng)用場(chǎng)景:

假如你經(jīng)營(yíng)著一家醫(yī)院,想要判斷哪些患者病情惡化風(fēng)險(xiǎn)最高,以便醫(yī)護(hù)人員能優(yōu)先照料,你可以創(chuàng)建一個(gè)電子表格,每行對(duì)應(yīng)一位患者,列則記錄年齡、血氧水平等相關(guān)屬性,最后一列標(biāo)注患者住院期間是否病情惡化。接著,用這些數(shù)據(jù)擬合數(shù)學(xué)模型,就能預(yù)估新入院患者的病情惡化風(fēng)險(xiǎn)。

在這個(gè)例子里,傳統(tǒng)表格機(jī)器學(xué)習(xí)利用數(shù)據(jù)表進(jìn)行推斷,這通常需要針對(duì)每個(gè)任務(wù)開發(fā)和訓(xùn)練定制模型。

而來自德國(guó)弗萊堡大學(xué)ML實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員,所推出的TabPFN做到了無需專門訓(xùn)練即可處理任意表格。

而且據(jù)作者們聲稱,本次發(fā)布的TabPFN v2相比兩年前的初代版本有了很大升級(jí)。

當(dāng)時(shí)的TabPFN v1被認(rèn)為“可能會(huì)徹底改變數(shù)據(jù)科學(xué)”,而現(xiàn)在:

我們離這一目標(biāo)又更進(jìn)了一步。

概括而言,v2版本改進(jìn)了分類能力,并擴(kuò)展了功能以支持回歸任務(wù),其在回歸任務(wù)上的性能也優(yōu)于經(jīng)過長(zhǎng)時(shí)間調(diào)優(yōu)的基線模型。

此外,它還原生支持缺失值和異常值等,使其在處理各種數(shù)據(jù)集時(shí)都能保持高效和準(zhǔn)確。


整體而言,TabPFN v2適用于處理不超過10,000樣本和500特征的中小規(guī)模數(shù)據(jù)集。

下面我們來看TabPFN模型完整的訓(xùn)練和應(yīng)用過程。

先說數(shù)據(jù)集采樣。為了讓模型能夠應(yīng)對(duì)各種實(shí)際情況,研究人員生成了大量合成數(shù)據(jù)。

第一步,他們對(duì)一些關(guān)鍵參數(shù)(如數(shù)據(jù)點(diǎn)、特征、節(jié)點(diǎn)等數(shù)量)進(jìn)行采樣,然后在中間部分構(gòu)建計(jì)算圖和圖結(jié)構(gòu)以處理數(shù)據(jù),最終生成具有不同分布和特征的數(shù)據(jù)集。

需要強(qiáng)調(diào)的是,為避免基礎(chǔ)模型常見問題,中間部分是基于結(jié)構(gòu)因果模型(SCMs)來生成合成訓(xùn)練數(shù)據(jù)集。

簡(jiǎn)單說,通過采樣超參數(shù)構(gòu)建因果圖,傳播初始化數(shù)據(jù)并應(yīng)用多種計(jì)算映射和后處理技術(shù),可以創(chuàng)建大量具有不同結(jié)構(gòu)和特征的合成數(shù)據(jù)集,從而使模型能學(xué)習(xí)處理實(shí)際數(shù)據(jù)問題的策略。

接下來進(jìn)行模型預(yù)訓(xùn)練,他們為表格結(jié)構(gòu)適配了新的架構(gòu)。

比如TabPFN模型為每個(gè)單元格分配獨(dú)立的表示,這意味著每個(gè)單元格的信息都能被單獨(dú)處理和關(guān)注。

而且還采用雙向注意力機(jī)制進(jìn)一步增強(qiáng)了模型對(duì)表格數(shù)據(jù)的理解能力。

一方面,通過1D特征注意力機(jī)制,同一特征列的單元格之間可以相互關(guān)聯(lián)和傳遞信息,使模型能夠捕捉到不同樣本在同一特征上的變化規(guī)律和關(guān)系。

另一方面,1D樣本注意力機(jī)制讓不同樣本行的單元格進(jìn)行信息交互,從而識(shí)別出不同樣本之間的整體差異和相似性。

這種雙向注意力機(jī)制保證了無論樣本和特征的順序如何改變,模型都能穩(wěn)定地提取和利用其中的信息,從而提高了模型的穩(wěn)定性和泛化能力。

而且后續(xù)還進(jìn)一步優(yōu)化了模型訓(xùn)練和推理過程。

比如為了減少重復(fù)計(jì)算,當(dāng)模型進(jìn)行測(cè)試樣本推理時(shí),允許直接利用之前保存的訓(xùn)練狀態(tài),避免了對(duì)訓(xùn)練樣本的重復(fù)計(jì)算。因?yàn)橛?xùn)練階段的表格數(shù)據(jù)都是單獨(dú)處理和學(xué)習(xí)的,已經(jīng)有所保存。

同時(shí),模型還通過采用半精度計(jì)算、激活檢查點(diǎn)等方法,進(jìn)一步減少了內(nèi)存占用。

最后,在模型實(shí)際預(yù)測(cè)生成階段。由于借助上下文學(xué)習(xí)(ICL)機(jī)制,模型無需針對(duì)每個(gè)新數(shù)據(jù)集進(jìn)行大量的重新訓(xùn)練,從而可以直接應(yīng)用于各種未曾見過的現(xiàn)實(shí)世界數(shù)據(jù)集了。

表格處理新SOTA

在定性實(shí)驗(yàn)中,與線性回歸、多層感知器(MLP)、CatBoost等相比,它能夠?qū)Χ喾N不同的函數(shù)類型進(jìn)行有效建模。(橙色表示訓(xùn)練數(shù)據(jù),藍(lán)色表示預(yù)測(cè))

而在另一方面,在AutoML Benchmark和OpenML - CTR23等廣泛使用且具有代表性的數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),TabPFN比Random Forest、XGBoost等先進(jìn)的基線方法取得了更多SOTA,涵蓋了分類和回歸兩種主要任務(wù)的多個(gè)指標(biāo)。

甚至在實(shí)際的5場(chǎng)Kaggle競(jìng)賽中,在訓(xùn)練樣本少于10,000的情況下,TabPFN也都戰(zhàn)勝了CatBoost。

最最后,TabPFN還支持針對(duì)特定數(shù)據(jù)集進(jìn)行微調(diào)。

目前相關(guān)代碼已開源,作者們還發(fā)布了一個(gè)API,允許使用他們的GPU進(jìn)行計(jì)算。

感興趣的同學(xué)可以蹲一波了~

API調(diào)用:
https://priorlabs.ai/tabpfn-nature/
代碼:
https://github.com/PriorLabs/TabPFN

參考鏈接:
[1]https://www.nature.com/articles/s41586-024-08328-6
[2]https://www.automl.org/tabpfn-a-transformer-that-solves-small-tabular-classification-problems-in-a-second/
[3]https://x.com/FrankRHutter/status/1877088937849520336

本文來源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部