開(kāi)源模型上下文窗口卷到超長(zhǎng),達(dá)400萬(wàn)token! 剛剛,“大模型六小強(qiáng)”之一MiniMax開(kāi)源最新模型—— MiniMax-01系列,包含兩個(gè)模型:基礎(chǔ)語(yǔ)言模型MiniMax-Text-01、視覺(jué)多模態(tài)模型MiniMax-VL-01。 MiniMax-01首次大規(guī)模擴(kuò)展了新型Lightning Attention架構(gòu),替代了傳統(tǒng)Transformer架構(gòu),使模型能夠高效處理4M token上下文。 在基準(zhǔn)測(cè)試中,MiniMax-01性能與頂級(jí)閉源模型表現(xiàn)相當(dāng)。 MiniMax-Text-01性能與前段時(shí)間大火的DeepSeek-V3、GPT-4o等打的有來(lái)有回: 如下圖(c)所示,當(dāng)上下文超過(guò)20萬(wàn)token,MiniMax-Text-01的優(yōu)勢(shì)逐漸明顯。 在預(yù)填充延遲方面也有顯著優(yōu)勢(shì),在處理超長(zhǎng)上下文時(shí)更高效,延遲更低: 網(wǎng)友直呼“難以置信”: 開(kāi)放權(quán)重,擁有400萬(wàn)token的上下文窗口!我原本以為這可能要五年后才會(huì)實(shí)現(xiàn)。 官方表示,MiniMax-01是為支持之后Agent相關(guān)應(yīng)用而預(yù)備的: 因?yàn)锳gent越來(lái)越需要擴(kuò)展的上下文處理能力和持續(xù)的內(nèi)存。 目前官方還公開(kāi)了MiniMax-01的68頁(yè)技術(shù)論文,并且已將MiniMax-01在Hailuo AI上部署了,可免費(fèi)試用。 另外,新模型API價(jià)格也被打下來(lái)了: 輸入每百萬(wàn)token0.2美元,輸出每百萬(wàn)token1.1美元。 下面是模型更多細(xì)節(jié)。 4M超長(zhǎng)上下文 MiniMax-Text-01MiniMax-Text-01,參數(shù)456B,每次推理激活45.9B。 它創(chuàng)新性地采用了混合架構(gòu),結(jié)合了Lightning Attention、Softmax Attention以及Mixture-of-Experts(MoE)。 并且通過(guò)LASP+、varlen ring attention、ETP等優(yōu)化的并行策略和高效的計(jì)算通信重疊方法,MiniMax-Text-01訓(xùn)練上下文長(zhǎng)度達(dá)100萬(wàn)token,推理時(shí)可以擴(kuò)展到400萬(wàn)token上下文。 模型架構(gòu)細(xì)節(jié)如下: 在Core Academic Benchmark上,MiniMax-Text-01在GPQA Diamond上獲得54.4分,超越GPT-4o。 在長(zhǎng)基準(zhǔn)測(cè)試之4M大海撈針測(cè)試,MiniMax-Text-01一水兒全綠。 也就是說(shuō),這400萬(wàn)上下文里,有細(xì)節(jié)MiniMax-Text-01是真能100%捕捉到。 除此之外,還有LongBench v2、Ruler基準(zhǔn)測(cè)試,考驗(yàn)的是模型長(zhǎng)上下文理解能力,包含基于長(zhǎng)上下文輸入的邏輯推理能力。 MiniMax-Text-01模型在處理Ruler的長(zhǎng)上下文推理任務(wù)時(shí)表現(xiàn)出顯著的優(yōu)勢(shì)。 在64K輸入級(jí)別的表現(xiàn)與頂尖模型GPT-4o、Claude-3.5-Sonnet等競(jìng)爭(zhēng)力相當(dāng),變化微小,但從128K開(kāi)始顯現(xiàn)出明顯的優(yōu)勢(shì),并超越了所有基準(zhǔn)模型。 LongBench-V2包括不同難度級(jí)別的問(wèn)答任務(wù),涵蓋多種上下文類(lèi)型,包括單文檔和多文檔、多輪對(duì)話、代碼倉(cāng)庫(kù)和長(zhǎng)結(jié)構(gòu)化數(shù)據(jù)等。團(tuán)隊(duì)考慮了兩種測(cè)試模式:不使用思維鏈推理(w/o CoT)和使用思維鏈推理(w/ CoT)。 MiniMax-Text-01在w/ CoT設(shè)置中實(shí)現(xiàn)了所有評(píng)估系統(tǒng)中的最佳結(jié)果,在w/o CoT中表現(xiàn)也很顯著。 團(tuán)隊(duì)還用MTOB( Machine Translation from One Book)數(shù)據(jù)集評(píng)估了模型從上下文中學(xué)習(xí)的能力。 該任務(wù)要求模型在英語(yǔ)和Kalamang(一種在公開(kāi)數(shù)據(jù)中非常有限的語(yǔ)言)之間進(jìn)行翻譯,因此在訓(xùn)練語(yǔ)料庫(kù)中,LLM僅從一部語(yǔ)法書(shū)的部分內(nèi)容和375個(gè)翻譯示例中學(xué)習(xí)該語(yǔ)言。 測(cè)試結(jié)果顯示,MiniMax-Text-01在無(wú)上下文場(chǎng)景下eng→kalam (ChrF)得分最低,團(tuán)隊(duì)認(rèn)為其它模型可能是在預(yù)訓(xùn)練或后訓(xùn)練數(shù)據(jù)中集加入了kalam相關(guān)數(shù)據(jù)。在delta half book和full book上,MiniMax-Text-01超過(guò)了所有模型。 在kalam→eng(BLEURT)得分上MiniMax-Text-01也與其它模型表現(xiàn)相當(dāng)。 MiniMax-VL-01MiniMax-VL-01采用多模態(tài)大語(yǔ)言模型常用的“ViT-MLP-LLM”框架: 一個(gè)具有3.03億參數(shù)的ViT用于視覺(jué)編碼 一個(gè)隨機(jī)初始化的雙層MLP projector用于圖像適配 以及作為基礎(chǔ)LLM的MiniMax-Text-01 MiniMax-VL-01特別具有動(dòng)態(tài)分辨率功能,可以根據(jù)預(yù)設(shè)網(wǎng)格調(diào)整輸入圖像的大小,分辨率從336×336到2016×2016不等,并保留一個(gè)336×336的縮略圖。 調(diào)整后的圖像被分割成大小相同的不重疊塊,這些塊和縮略圖分別編碼后組合,形成完整的圖像表示。 MiniMax-VL-01的訓(xùn)練數(shù)據(jù)涵蓋標(biāo)題、描述和指令。ViT從頭開(kāi)始在6.94億圖像-標(biāo)題對(duì)上進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程的四個(gè)階段,處理了總計(jì)5120億token。 最終,MiniMax-VL-01 在多模態(tài)排行榜上表現(xiàn)突出,證明了其在處理復(fù)雜多模態(tài)任務(wù)中的優(yōu)勢(shì)和可靠性。 網(wǎng)友們已開(kāi)始第一波實(shí)測(cè) 得知新模型已在Hailuo AI上部署,網(wǎng)友們已緊忙趕往測(cè)試。 有網(wǎng)友使用相同的prompt將它和Gemini、o1對(duì)比,感嘆MiniMax-01表現(xiàn)令人印象深刻。 下面這個(gè)測(cè)試也沒(méi)能難倒它: 給我5個(gè)奇數(shù),這些數(shù)的英文拼寫(xiě)中不包含字母“e”。 感興趣的童鞋可以玩起來(lái)了。 技術(shù)論文:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。