首頁 > 科技要聞 > 科技> 正文

微軟清華改進(jìn)Transformer:用降噪耳機(jī)原理升級注意力,一作在線答疑

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-04 16:40

Transformer自問世后就大放異彩,但有個小毛病一直沒解決:

總愛把注意力放在不相關(guān)的內(nèi)容上,也就是信噪比低。

現(xiàn)在微軟亞研院、清華團(tuán)隊出手,提出全新改進(jìn)版Differential Transformer,專治這個老毛病,引起熱議。

論文中介紹,整體思路類似差分放大電路或降噪耳機(jī),用兩個信號的差值來濾除共模噪聲。

具體到在語言模型中,如果句子很長,只有少數(shù)token會真正影響當(dāng)前token的含義。而注意力機(jī)制允許每兩個詞之間產(chǎn)生交互,其中就包含大量噪聲了。

團(tuán)隊提出的方法是在注意力層中增加一個Softmax,然后兩個Softmax做減法。

這一減,噪音信息就被大幅抵消,讓注意力更集中在相關(guān)內(nèi)容上。

語言建模任務(wù)上的一系列實驗結(jié)果顯示,僅需約65%的模型大小或訓(xùn)練tokens,DIFF Transformer就能達(dá)到與傳統(tǒng)Transformer相當(dāng)?shù)男阅堋?/p>

新架構(gòu)在長上下文建模、關(guān)鍵信息檢索、減少幻覺、提高上下文學(xué)習(xí)能力以及減少激活異常值等各項指標(biāo)中,普遍優(yōu)于Transformer架構(gòu)。

論文上傳到arXiv平臺后,有不少學(xué)者到劃線提問。一作Tianzhu Ye正絕贊在線答疑中。

差分Transformer

與傳統(tǒng)Tranformer相比,DIFF Transformer保持宏觀架構(gòu)不變,主要區(qū)別在于用差分注意力替換傳統(tǒng)softmax注意力。

此外還采用了LLaMA系列中的一些改進(jìn),如pre-RMSNorm歸一化和SwiGLU激活函數(shù)。

在差分注意力模塊中,需要先給Q和K分成兩個組,然后分別計算softmax。

第二組乘了一個標(biāo)量λ,是可學(xué)習(xí)的參數(shù),在同一層的注意力頭之間共享。

λ的引入是為了在差分操作中平衡兩組注意力的貢獻(xiàn),使得差分注意力機(jī)制能夠更好地適應(yīng)不同的任務(wù)需求和數(shù)據(jù)分布。

接下來是一系列實驗結(jié)果。

語言建模評估

在1T tokens上訓(xùn)練3B大小的DIFF Transformer,遵循 StableLM-3B-4E1T的配方,在各種下游任務(wù)中與以前訓(xùn)練良好的Transformer模型相比表現(xiàn)出優(yōu)勢。

可擴(kuò)展性評估

只需約65%的模型參數(shù)或訓(xùn)練tokens來匹配Transformer的性能。

長上下文能力評估

在額外1.5B tokens上訓(xùn)練3B大小的DIFF Transformer,擴(kuò)展上下文長度至64k。

隨著上下文長度增加,累計平均負(fù)對數(shù)似然(NLL)持續(xù)降低,并且比傳統(tǒng)Transformer的NLL值更低。

表明DIFF Transformer可以有效利用不斷增加的上下文。

關(guān)鍵信息檢索能力評估

也就是多個“針”的大海撈針試驗,設(shè)置不同的上下文長度(4K和64K)來模擬不同復(fù)雜程度的信息檢索場景。

在4K上下文長度下,隨著插入 “針” 數(shù)量和查詢數(shù)量的增加,DIFF Transformer的準(zhǔn)確率保持穩(wěn)定,而Transformer 的準(zhǔn)確率顯著下降。

在64K上下文長度下,DIFF Transformer在不同答案針深度(即關(guān)鍵信息在長上下文中的位置)和上下文長度下都能保持穩(wěn)定性能,且在關(guān)鍵信息位于上下文前半部分時優(yōu)勢明顯。

特別是當(dāng)關(guān)鍵信息位于25%深度時,DIFF Transformer比Transformer的準(zhǔn)確率提高了 76%。

上下文學(xué)習(xí)能力評估

分為兩個角度來評估,分別是多樣本分類和上下文學(xué)習(xí)的穩(wěn)健性。

多樣本分類任務(wù),同樣使用64K上下文長度的3B參數(shù)模型,DIFF Transformer的準(zhǔn)確率始終高于Transformer,提升幅度從5.2%到21.6%不等

上下文學(xué)習(xí)穩(wěn)健性采用排列順序任務(wù),DIFF Transformer的結(jié)果方差遠(yuǎn)小于傳統(tǒng)Transformer。

上下文幻覺評估

主要關(guān)注輸入中包含正確事實,但模型仍然無法產(chǎn)生準(zhǔn)確輸出的情況。

將模型輸出與ground-truth一起發(fā)給GPT-4o,讓GPT-4o來判斷是否存在幻覺,此前試驗表明GPT-4o與人類評判結(jié)果一致率較高,相對可靠。

在不同數(shù)據(jù)集上DIFF Transformer的準(zhǔn)確率更高,幻覺更少。

激活異常值分析

Transformer中的激活異常值,導(dǎo)致模型在訓(xùn)練和推理過程中難以量化。

試驗比較了注意力logits和隱藏狀態(tài)兩種激活類型下的最大激活值,DIFF Transformer都表現(xiàn)出更低的頂部激活值,即產(chǎn)生更少的激活異常值。

在對注意力logits進(jìn)行量化實驗時,DIFF Transformer在降低比特寬度量化時仍能保持較高性能,而Transformer在6-bi 量化時準(zhǔn)確性顯著下降。

4-bit的DIFF Transformer能達(dá)到與6-bit的Transformer相當(dāng)?shù)臏?zhǔn)確性,且比4-bit的Transformer準(zhǔn)確率提高約 25%。

代碼已開源, 降噪耳機(jī)類比引熱議

對于目前讀者的疑問,作者已做出幾點(diǎn)答復(fù)

問題1:Diff Transformer與每個注意力頭溫度可學(xué)習(xí)的方法有什么不同?與門控注意力對比如何?

作者回應(yīng)在實驗中,可學(xué)習(xí)溫度效果不大。而本文方法是門控注意力的改進(jìn)。

問題2:差分注意力是否意味著將標(biāo)準(zhǔn)注意力矩陣參數(shù)翻倍?

作者澄清,單個注意力頭維度翻倍,但是注意力頭數(shù)量減半,總體在參數(shù)和FLOPS上都是對齊的。

問題3:第二組Softmax乘可學(xué)習(xí)參數(shù)lambda的研究思路。

作者也做出詳細(xì)回應(yīng)。

DIFF Transformer在純學(xué)術(shù)圈之外也引起非常多的討論,有不少人困惑論文中將方法與降噪耳機(jī)的類比。

降噪耳機(jī)采集環(huán)境噪聲并生成相反的信號,在這種情況下哪些信號屬于噪聲是已知的,但差分注意力中并不能事先確定哪些是噪聲。

一種解釋是,低注意力分?jǐn)?shù)的噪聲也有很低的梯度,因此模型其實已知哪些是噪聲,只是單個Softmax無法輸出0,所以噪聲很難去除。

也有人提出,比起降噪耳機(jī),其實專業(yè)音頻中“平衡線”,或者USB、網(wǎng)卡等傳輸方式更適合一些。

使用兩條信號線傳輸正負(fù)信號,接收器只對比他們之間的差異,由于在空間中離得很近,受到的干擾是相同的。

有用的正負(fù)信號相減會被放大,相同的噪聲相減卻被抵消,大大增強(qiáng)抗干擾能力。

總之,DIFF Transformer代碼已開源在微軟unilm項目下,其中還包含魔改版支持差分注意力的FlashAttention-2的代碼。

感興趣的可以試起來了。

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部