首頁 > 科技要聞 > 科技> 正文

新SOTA來了:國產(chǎn)9B模型多項得分超4o-mini,中國出海電商已經(jīng)用上了

量子位 整合編輯:太平洋科技 發(fā)布于:2024-09-19 14:30

阿里開源,又拿第一了。

這次是在多模態(tài)領(lǐng)域

就在剛剛,阿里國際AI團隊開源多模態(tài)大模型Ovis1.6。在多模態(tài)權(quán)威綜合評測基準OpenCompass上,Ovis1.6-Gemma2-9B版本綜合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流開源模型,在300億以下參數(shù)開源模型中位居第一。

在數(shù)學推理和視覺理解等多項任務中,得分甚至超過了閉源的GPT-4o-mini。

具體來說,Ovis1.6能勝任視覺感知推理、數(shù)學和科學、生活場景等多種多模態(tài)任務。

拿大家伙兒都很關(guān)注的數(shù)理能力舉個,Ovis1.6的表現(xiàn)是醬嬸的:

媽媽再也不用擔心我學不明白大學數(shù)學。

用來輔助讀讀論文:

分析財報,效果也相當不錯。

還能當場看圖教你做一道經(jīng)典的炸魚薯條(手動狗頭)。

值得一提的是,阿里國際的Ovis系列多模態(tài)大模型,遵循的是Apache 2.0開源協(xié)議。也就是說,協(xié)議很寬松,商用很友好

從結(jié)構(gòu)上對齊視覺和文本嵌入

話不多說,我們照例來拆解一下Ovis這個新科第一背后的技術(shù)細節(jié)。

根據(jù)OpenCompass評測基準,Ovis1.6-Gemma2-9B超過了Qwen2-VL-7B、MiniCPM-V-2.6等一眾相同參數(shù)量級的知名多模態(tài)模型。

在數(shù)學等推理任務中,甚至有媲美70B參數(shù)模型的表現(xiàn)。

Ovis1.6的幻覺現(xiàn)象和錯誤率也低于同級別模型,展現(xiàn)了更高的文本質(zhì)量和準確率。

如何做到?阿里國際AI團隊的核心思路是:從結(jié)構(gòu)上對齊視覺和文本嵌入。

當前,多數(shù)開源多模態(tài)大語言模型(MLLM)并非從頭訓練整個模型,而是通過像多層感知機(MLP)這樣的連接器,將預訓練的大語言模型(LLM)和視覺Transformer集成起來,給LLM裝上“眼睛”。

這樣一來,就導致了一個問題:MLLM的文本和視覺模塊采用不同的嵌入策略,使得視覺和文本信息沒辦法無縫融合,限制了模型性能的進一步提升。

針對這個問題,Ovis采用了視覺tokenizer+視覺嵌入表+大語言模型的架構(gòu)。

Ovis借鑒了大語言模型中的文本嵌入策略,引入了可學習的視覺嵌入表,將連續(xù)的視覺特征先轉(zhuǎn)換為概率化的視覺token,再經(jīng)由視覺嵌入表多次索引加權(quán)得到結(jié)構(gòu)化的視覺嵌入。

文本方面,Ovis沿用當前大語言模型的處理方式,文本tokenizer將輸入文本轉(zhuǎn)化為one-hot token,并根據(jù)文本嵌入表查找到每個文本token對應的嵌入向量。

最后,Ovis將所有視覺嵌入向量與文本嵌入向量拼接起來,經(jīng)由Transformer處理,完成多模態(tài)任務。

此次開源的Ovis1.6,相較于前代Ovis1.5,還在架構(gòu)、數(shù)據(jù)、訓練策略等方面做出了進一步優(yōu)化。

架構(gòu)方面,采用動態(tài)子圖方案,能靈活應對不同分辨率圖像特征,提升了模型處理復雜視覺任務的能力。

數(shù)據(jù)方面,Ovis1.6在訓練中涵蓋了多種類型的數(shù)據(jù)集,包括Caption、OCR、Table、Chart、Math等,確保模型在廣泛的應用場景中都有出色表現(xiàn)。

訓練策略方面,采用DPO等方案持續(xù)優(yōu)化模型性能,增強了模型在生成文本和理解復雜指令方面的能力,使得模型在復雜任務上的表現(xiàn)進一步提升。

消融實驗的結(jié)果還顯示,在訓練數(shù)據(jù)、模型參數(shù)、LLM和視覺底座都保持相同的情況下,與基于MLP連接器的多模態(tài)大模型架構(gòu)相比,Ovis性能整體提升了8.8%。

量子位還了解到,作為一項基礎(chǔ)研究,Ovis目前已經(jīng)被廣泛應用到了阿里國際的實際業(yè)務中。

AI能力變革出海電商

正如大家所知,阿里國際是一家AI驅(qū)動的、擁有多個全球知名電商的公司。

而事實上,出海電商這個場景,早已第一批被AIGC“滲透”。

原因很直接:做出海生意,往往面臨海外市場復雜、成本和競爭壓力大、跨境人才短缺等等共性問題,而多模態(tài)大模型這樣的AIGC技術(shù),恰恰能在這些問題上,提供適配的降本增效方案。

舉個例子,在跨境電商領(lǐng)域,退貨退款一直是影響用戶體驗的重要因素。

傳統(tǒng)方案是人工進行退款退貨的審核和判責。這不僅需要大量審核人力和較久的審核時間,還會因為人工主觀的評判標準不一,導致判罰的不穩(wěn)定性較高。多數(shù)平臺為了保證用戶體驗,傾向于給消費者更多的傾斜,但這也傷害了部分商家和平臺的權(quán)益。

現(xiàn)在,基于Ovis,阿里國際融合過去積累的大量電商知識,上線了智能退款系統(tǒng)。

相比于人工,Ovis針對用戶提供的退貨退款圖文和視頻詳情,可以提供秒級的審核服務,且具有高度穩(wěn)定的一致性。這就在保證消費者和商家公平權(quán)益的同時,實現(xiàn)了快速低成本的退貨退款方案。

另外,在商品屬性提取、生成賣點等場景中,Ovis也已落地應用。

阿里國際AI團隊,正是在如此預判下成立試跑的。而就在成立這一年多時間里,阿里國際已經(jīng)實現(xiàn)AI能力在跨境電商領(lǐng)域的規(guī);瘧茫

AI發(fā)布商品達到百萬規(guī)模,并且通過AI優(yōu)化,這些產(chǎn)品在海外的搜索量提升了37%。

AI能力覆蓋營銷、客戶服務、商品發(fā)布、設(shè)計、合規(guī)等40+應用場景,服務全球50萬商家。

阿里國際AI能力日均超5千萬次調(diào)用,規(guī)模每兩月翻番。

……

Ovis之外,阿里國際還構(gòu)建了多語言增強大模型Marco,電商版多模態(tài)大模型MarcoVL,提供的MaaS服務包括:

多語言文本生成技術(shù):為商品詳情描述適配當?shù)卣Z言,讓AI為商品介紹改寫優(yōu)化多語言標題,突破語言和文化壁壘。

AI圖片處理,比如一鍵生成多張?zhí)摂M試衣效果。

以及智能消除、智能摳圖等圖像設(shè)計類能力。

可以說,從創(chuàng)立店鋪到市場營銷,再到售前售后,在出海電商的各個環(huán)節(jié),阿里國際都已提供相應的AI技術(shù)予以輔助——

潛移默化中,AI已經(jīng)完全改變商家的工作方式和生產(chǎn)效率。

大模型之所以能在各行各業(yè)掀起驚濤駭浪,核心原因就是對生產(chǎn)力的解放和降本增效。

在這一波變革之中,對于阿里國際這樣的平臺而言,AI技術(shù)能力再次成為最受關(guān)注的核心競爭力。

而借助平臺之力,出海電商商家已經(jīng)開始第一批享受擁抱AI的紅利。

對于廣大開發(fā)者而言,來自于實干家們的開源貢獻,亦是福音。

Ovis1.6開源地址和Demo:
arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部