DeepSeek帶火知識(shí)蒸餾,原作者現(xiàn)身爆料:原來(lái)一開(kāi)始就不受待見(jiàn)。 稱得上是“蒸餾圣經(jīng)”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合寫(xiě)的《Distilling the Knowledge in a Neural Network》,當(dāng)年被NeurIPS 2014拒收。 如何評(píng)價(jià)這篇論文的含金量? 它提出了知識(shí)蒸餾這一概念,能在保證準(zhǔn)確率接近的情況下,大幅壓縮模型參數(shù)量,讓模型能夠部署在各種資源受限的環(huán)境。 比如Siri能夠出現(xiàn)在手機(jī)上,就是用知識(shí)蒸餾壓縮語(yǔ)音模型。 自它之后,大模型用各種方法提高性能上限,再蒸餾到小模型上已經(jīng)成為一種行業(yè)標(biāo)配。 再來(lái)看它的主創(chuàng)陣容。 Hinton,深度學(xué)習(xí)之父,如今已是諾獎(jiǎng)得主。 Oriol Vinyals,Google DeepMind研究科學(xué)家,參與開(kāi)發(fā)的明星項(xiàng)目包括TensorFlow、AlphaFold、Seq2Seq、AlphaStar等。 Jeff Dean,Google DeepMind首席科學(xué)家、從2018年開(kāi)始全面領(lǐng)導(dǎo)谷歌AI。大模型浪潮里,推動(dòng)了PaLM、Gemini的發(fā)展。 主創(chuàng)之一Oriol Vinyals表示,因?yàn)槿狈?chuàng)新和影響力,這篇論文被拒啦。謝謝審稿人(字面意思),謝謝arxiv! 方法簡(jiǎn)單、適用于各種模型 簡(jiǎn)單粗暴總結(jié),《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改進(jìn)的文章,但是帶來(lái)的效果提升非常顯著。 Caruana等人在2006年提出了將集成知識(shí)壓縮到單模型的可能性,論文中也明確提到了這一點(diǎn)。 Hinton等人的工作是提出了一種簡(jiǎn)單有效的知識(shí)遷移框架,相較于Caruana團(tuán)隊(duì)的方法更加通用。 方法看上去非常簡(jiǎn)單: 用軟目標(biāo)代替硬目標(biāo) 在softmax層加入溫度參數(shù)T。當(dāng)T=1時(shí),就是普通的softmax輸出。T越大,輸出的概率分布越平滑(soft)。 他們認(rèn)為此前人們習(xí)慣性地將模型中的知識(shí)與模型的具體參數(shù)綁定在一起,因此很難想到該如何在改變模型結(jié)構(gòu)的同時(shí)仍舊保留這些知識(shí)。 如果把知識(shí)看作是輸入向量到輸出向量的一個(gè)抽象映射,而不是某種固定的參數(shù)實(shí)現(xiàn),就能更容易理解如何將知識(shí)從一個(gè)模型轉(zhuǎn)移到另一個(gè)模型。 知識(shí)蒸餾的關(guān)鍵就是讓小模型模仿大模型的“理解方式”,如果大模型是多個(gè)模型的集成,表現(xiàn)出很強(qiáng)的泛化能力,那就通過(guò)蒸餾訓(xùn)練小模型去學(xué)習(xí)這種泛化方式,這種方法能讓小模型集成大模型的知識(shí)精髓,同時(shí)更適合實(shí)際應(yīng)用部署。 怎么將泛化能力轉(zhuǎn)移? 讓大模型生成類別概率作為軟目標(biāo),以此訓(xùn)練小模型。 在這個(gè)轉(zhuǎn)移階段,使用與原始訓(xùn)練相同的數(shù)據(jù)集,或者單獨(dú)準(zhǔn)備一個(gè)“遷移”數(shù)據(jù)集。 如果大模型是由多個(gè)模型集成,那就取它們的預(yù)測(cè)平均值。 軟目標(biāo)的特點(diǎn)是,它具有高熵時(shí)(即預(yù)測(cè)的概率分布更平滑),每個(gè)訓(xùn)練樣本中包含的信息量比硬目標(biāo)要多得多,訓(xùn)練樣本之間的梯度變化也更小。 因此,用軟目標(biāo)訓(xùn)練小模型時(shí),往往可以使用比原始模型更少的數(shù)據(jù),并且可以采用更高的學(xué)習(xí)率。 小模型可以用無(wú)標(biāo)簽數(shù)據(jù)或原始訓(xùn)練。如果用原始訓(xùn)練數(shù)據(jù),可以讓小模型同時(shí)學(xué)習(xí)來(lái)自大模型的軟目標(biāo)和真實(shí)標(biāo)簽,這樣效果會(huì)更加好。 具體方法是使用軟目標(biāo)的交叉熵?fù)p失、真實(shí)標(biāo)簽的交叉熵?fù)p失兩個(gè)目標(biāo)函數(shù)加權(quán)平均。如果真實(shí)標(biāo)簽的交叉熵?fù)p失權(quán)重較小時(shí),往往能獲得最佳效果。 此外,他們還發(fā)現(xiàn)軟目標(biāo)的梯度大小隨著T²縮放,同時(shí)使用真實(shí)標(biāo)簽和軟目標(biāo)時(shí),比如將軟目標(biāo)的梯度乘以T²,這樣可以確保在調(diào)整蒸餾溫度這一超參數(shù)時(shí),硬目標(biāo)和軟目標(biāo)的相對(duì)貢獻(xiàn)保持大致不變。 實(shí)驗(yàn)結(jié)果顯示,在MINIST數(shù)字時(shí)延中,教師模型(1200層)的錯(cuò)誤案例為67個(gè),學(xué)生模型(800層)使用蒸餾后的錯(cuò)誤案例為74個(gè)。 在JFT數(shù)據(jù)集上,基準(zhǔn)模型的錯(cuò)誤率為27.4%,集成模型的錯(cuò)誤率為25%。蒸餾模型錯(cuò)誤率為25.6%,效果接近集成模型但計(jì)算量大幅減少。 語(yǔ)音識(shí)別實(shí)驗(yàn)上,蒸餾模型也達(dá)到了與集成模型相同的性能,但是僅使用了3%的訓(xùn)練數(shù)據(jù)。 或許還有很多滄海遺珠 值得一提的是,Vinyals還表示,提出了LSTM的Jürgen Schmidhuber在1991年發(fā)表的一篇文章,這可能與現(xiàn)在火熱的長(zhǎng)上下文息息相關(guān)。 他提到的應(yīng)該是《Learning complex, extended sequences using the principle of history compression》這篇論文。其核心內(nèi)容是利用歷史壓縮的原則,即通過(guò)模型結(jié)構(gòu)和算法將序列的歷史信息有效地編碼和存儲(chǔ),從而減少處理長(zhǎng)序列時(shí)的計(jì)算開(kāi)銷,同時(shí)保留關(guān)鍵的信息。 有人就說(shuō),不妨設(shè)置一個(gè)時(shí)間檢驗(yàn)獎(jiǎng)?lì)C給那些未被接收的論文吧。 同時(shí)也有人在這個(gè)話題下想到了DeepSeek。 曾在蘋(píng)果、谷歌工作過(guò)的Matt Henderson表示,DeepSeek做的蒸餾只是基于教師模型輸出的微調(diào),并沒(méi)有用到軟目標(biāo)(因?yàn)槟P偷姆衷~方式不同)。 Vinyals回應(yīng)說(shuō),那看來(lái)我們?nèi)≌麴s這個(gè)名字真的不錯(cuò)~ 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。