首頁 > 科技要聞 > 科技> 正文

“大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠

量子位 整合編輯:龔震 發(fā)布于:2024-04-02 15:37

大模型長文本能力測試,又有新方法了!

騰訊MLPD實驗室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測試。

相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。

利用這種方法,研究人員對GPT-4和國內(nèi)知名的Kimi Chat進行了“數(shù)星星”測試。

結(jié)果,在不同的實驗條件下,兩款模型各有勝負,但都體現(xiàn)出了很強的長文本能力。

橫軸系以2為底的對數(shù)坐標

那么,“數(shù)星星”究竟是怎樣的一種測試呢?

比“大海撈針”更加精準

首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。

然后,根據(jù)不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。

實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子,每個句子中的x都各不相同。

然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數(shù)字,且只輸出數(shù)字。

得到模型的輸出之后,研究人員會將這些數(shù)字和Ground Truth進行對比,最終計算出模型輸出的正確率。

相比于之前的“大海撈針”測試,這種“數(shù)星星”的方法更能體現(xiàn)出模型處理長依賴關系能力。

簡而言之,“大海撈針”中插入多個“針”就是插入多個線索,然后讓大模型找到并串聯(lián)推理多個線索,并獲得最終答案。

但實際的“大海撈多針”測試中,模型并不需要找到所有“針”才能答對問題,甚至有時只需要找到最后一根就可以了。

但“數(shù)星星”則不同——因為每句話中“星星”的數(shù)量都不一樣,模型必須把所有星星都找到才能把問題答對。

所以,雖然看似簡單,但至少在多“針”任務上,“數(shù)星星”對模型長文本能力有著更為精準的體現(xiàn)。

那么,有哪些大模型最先接受了“數(shù)星星”測試呢?

GPT-4與Kimi難分高下

參加這場測試的大模型分別是GPT-4和國內(nèi)以長文本能力而知名的大模型Kimi。

在“星星”數(shù)量和文本粒度均為32時,GPT-4的準確率達到了96.8%,Kimi則有86.4%。

但當“星星”增加到64顆時,Kimi則以93.1%的準確率超過了準確率為89.7%的GPT-4.

減少到16時,也是Kimi的表現(xiàn)略勝于GPT-4。

而劃分的顆粒度也會對模型的表現(xiàn)造成一些影響,在“星星”同樣出現(xiàn)32次時,顆粒度從32變?yōu)?6,GPT-4的成績有所上升,而Kimi則有所下降。

需要注意的是,在以上的測試中,“星星”的數(shù)量是依次遞增的,但研究人員很快發(fā)現(xiàn),這種情況下大模型很喜歡“偷懶”——

當模型發(fā)現(xiàn)星星數(shù)量是遞增的的時候,即使區(qū)間內(nèi)的數(shù)字是隨機生成,也會引起大模型的敏感度增加。

例如:模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更加敏感

所以,研究人員又特意將數(shù)字的順序進行了打亂,重新進行了一次測試。

結(jié)果在打亂之后,GPT-4和Kimi的表現(xiàn)都出現(xiàn)了明顯下降,不過準確率仍在60%以上,兩者相差8.6個百分點。

One More Thing

這個方法的準確性可能還需要時間檢驗,但不得不說名字起得真的很有一手。

英文系同名歌曲Counting Stars歌詞

網(wǎng)友也不禁感嘆,現(xiàn)在關于大模型的研究,真的是越來越魔幻了。

但魔幻的背后,也體現(xiàn)出人們對于大模型長語境處理能力和性能的了解還不夠充分。

就在前些天,先后有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基于上下文窗口實現(xiàn)),最高可達上千萬,但實際表現(xiàn)還是未知數(shù)。

而Counting Stars的出現(xiàn),或許正好有助于我們了解這些模型的真實表現(xiàn)。

那么,你還想看看哪些模型的測試成績呢?

論文地址:https://arxiv.org/abs/2403.11802GitHub:https://github.com/nick7nlp/Counting-Stars

文章來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部