首頁 > 科技要聞 > 人物> 正文

螞蟻百靈大模型一號位:GPT-4o發(fā)布不意外,原生多模態(tài)方向已明

量子位 整合編輯:龔震 發(fā)布于:2024-05-16 18:01

與之前的版本相比,GPT-4o最大改進在于它在整合方面的精細度,它將所有模態(tài)集成在一個端到端的模型中(All in One)。

OpenAI這三個關(guān)鍵能力值得借鑒:數(shù)據(jù)組織能力、技術(shù)聚焦以及工程優(yōu)化。如果我們能把這些關(guān)鍵點做好,也有可能會開發(fā)出具有類似效果的模型。

原生多模態(tài)大模型,大概率成為國內(nèi)大模型主要競爭點。

OpenAI再度用GPT-4o震撼世界,這一次將如何影響行業(yè)?螞蟻AI創(chuàng)新研發(fā)與應(yīng)用部門NextEvo一號位徐鵬博士如是說道。

誰是徐鵬博士?

徐鵬博士,目前是螞蟻集團副總裁,AI創(chuàng)新研發(fā)與應(yīng)用部門NextEvo一號位。他曾在谷歌工作11年,負責和領(lǐng)導(dǎo)了谷歌翻譯的核心技術(shù)研發(fā),并參與了谷歌顯示廣告系統(tǒng)的算法研發(fā)。NextEvo則承擔了螞蟻AI的所有核心技術(shù)研發(fā),包括螞蟻百靈大模型的所有研發(fā)工作。

據(jù)徐鵬透露,螞蟻在今年年初判斷了原生多模態(tài)的技術(shù)方向,并持續(xù)投入,目前正在研發(fā)全模態(tài)數(shù)字人和全模態(tài)智能體相關(guān)產(chǎn)品。

作為OpenAI第一個整合所有模態(tài)的大模型GPT-4o,它還擁有驚人的響應(yīng)速度,這到底是如何做到的?給整個行業(yè),以及躬身大模型的企業(yè),又有哪些借鑒意義?

量子位第一時間同徐鵬博士聊了聊。在不改變原意的基礎(chǔ)上,量子位聯(lián)合各位大模型做了如下整理。

對話螞蟻百靈大模型一號位徐鵬

1、怎么看OpenAI發(fā)布的GPT-4o?

徐鵬:今天OpenAI展示的這款demo產(chǎn)品并不出人意料。從OpenAI的角度來看,他們一直希望將語音能力和語言理解能力進行深度融合。幾年前,他們推出了的Whisper語音識別模型,這可以看作是他們在這方面的早期研究。

他們將各種模態(tài)的數(shù)據(jù),包括語音、圖像、視頻和文字,都整合在一個統(tǒng)一的表征框架下,這實際上是他們實現(xiàn)人工通用智能(AGI)的自然途徑,因為在他們看來,人類就是這樣一個多模態(tài)理解并交互的智能體。他們的智能體最終發(fā)展的方向也是如此。

從效果上來看,這次發(fā)布GPT-4o與之前的版本相比,最大的改進在于它在整合方面的精細度。

它將所有模態(tài)集成在一個端到端的模型中,而之前的GPT-4在語音識別和語音回復(fù)方面還是由三個不同的模塊完成的,盡管這些模塊已經(jīng)提供了相當不錯的體驗,盡管可能需要等待一兩秒。

這次整合后,GPT 4o能夠?qū)崿F(xiàn)大約300毫秒的延遲響應(yīng),并且能夠感知人的情緒以及其他非語音信號,這是一個非常顯著的進步。

這也讓人聯(lián)想到,可能明天Google I/O發(fā)布也會有類似的功能,因為谷歌已經(jīng)強調(diào)多模態(tài)原生模型作為其重要特點。因此,盡管我們期待的是GPT-5的推出,但他們推出這個產(chǎn)品是完全可以理解的,這在智能交互,特別是在超自然交互模式上,是一個巨大的進步。

2、這里面最厲害的地方在哪里?

徐鵬:我認為OpenAI一個非常厲害的措施是,在谷歌推出了原生多模態(tài)大模型Gemini之后,他們顯然已經(jīng)開始有計劃地應(yīng)對競爭。

在整合資源、聚焦突破方面,他們的組織能力確實值得敬佩。要開發(fā)這樣的產(chǎn)品,無論是數(shù)據(jù)準備,還是端到端模型的訓(xùn)練,都需要處理極其龐大的數(shù)據(jù)量。雖然他們已經(jīng)擁有像GPT-4作為基礎(chǔ),但要將模型訓(xùn)練完善并實現(xiàn)300毫秒以下的響應(yīng)延遲,這無疑考驗了他們在數(shù)據(jù)組織能力、技術(shù)聚焦以及工程優(yōu)化方面的能力,這些成就確實值得稱贊。

在借鑒他們的做法時,如果這些關(guān)鍵點能夠做好,我們很可能會開發(fā)出具有類似效果的模型

近半年多來我注意到業(yè)界,包括國內(nèi)一些公司在原生多模態(tài)領(lǐng)域已經(jīng)進行了相當大的投入。雖然這些公司在投入速度上可能不及OpenAI,但在這一領(lǐng)域特別在端到端語音模型上也都取得了一定的進展。包括螞蟻集團今年年初在原生多模態(tài)領(lǐng)域也做了戰(zhàn)略判斷和重大投入。

3、多模態(tài)與原生多模態(tài)之間的區(qū)別在哪里?

徐鵬:在我看來,多模態(tài)與原生多模態(tài)之間的主要區(qū)別在于實際應(yīng)用時,系統(tǒng)背后是基于多個模型的簡單協(xié)作,還是由單一模型端到端完成所有任務(wù)。

以之前GPT-4為例,它可以通過語音識別模型將語音轉(zhuǎn)換為文字,也能通過圖像識別模型提取圖像內(nèi)容,然后利用GPT-4的大型語言模型作為中控生成優(yōu)質(zhì)的回答;卮鹜戤吅,系統(tǒng)決定是向用戶返回一張圖片、一段文字,還是通過語音合成技術(shù)返回一段語音輸出。

這些功能在GPT-4中都是可行的,但它并不是一個原生多模態(tài)模型,而是由多個模型組合而成的,這些模型在訓(xùn)練時各自有獨立的訓(xùn)練目標。

相比之下,原生多模態(tài)模型則將圖像、文字、語音甚至視頻等多種編碼集成到一個模型中。在訓(xùn)練過程中,這些不同模態(tài)的數(shù)據(jù)被統(tǒng)一輸入給模型內(nèi)部學習。當不同模態(tài)的信息相關(guān)且指向同一類事物時,它們的內(nèi)部表征是非常相似的。在生成階段,模型可以更加靈活地利用統(tǒng)一的表征進行不同模態(tài)的生成。

因此,最核心的區(qū)別在于模型訓(xùn)練過程中,是否同時處理所有模態(tài)的數(shù)據(jù),還是分別針對不同目標進行優(yōu)化。

4、要從傳統(tǒng)大模型技術(shù)思路轉(zhuǎn)向原生多模態(tài)大模型,困難嗎?

徐鵬:技術(shù)本身可能并不是大家想象中那樣的難度,真正挑戰(zhàn)在于實際操作過程中,如何有效地聚合多種模態(tài)的數(shù)據(jù),然后做成一個能整合各種能力的端到端模型。

這其中不僅是工程方面的挑戰(zhàn),還涉及到數(shù)據(jù)的準備,以及在訓(xùn)練過程中采用何種方法能夠使進展更加順利。因為這樣一個模型訓(xùn)練,過程中會遇到各種各樣的小問題,解決這些問題需要經(jīng)驗和知識的積累。

5、會成為國內(nèi)大模型公司競爭點嗎?

徐鵬:我覺得大概率是會的。但不管是大廠還是初創(chuàng)公司,當中關(guān)鍵是能力的一個聚焦,然后在這個領(lǐng)域里面持續(xù)優(yōu)化。

6、GPT-4o低延時,跟端到端訓(xùn)練有怎樣關(guān)聯(lián)?

徐鵬:這里面是有直接關(guān)聯(lián)的。

以現(xiàn)有GPT-4為例在進行語音識別時,需要等待用戶完整地表述完一句話,才能完成整句話識別。識別完成后,將整句話輸入到后續(xù)的語言模型中,然后根據(jù)這些信息生成回復(fù)。再之后才能調(diào)用語音合成模型來轉(zhuǎn)換成語音。

這個過程中可以進行一定程度的優(yōu)化。例如,語音識別的輸出到大模型理解這一環(huán)節(jié),很難達到100%的融合,因為有些話語需要等到完全表述出來才能被理解。同樣,在語音合成時輸出的內(nèi)容越多,合成的聲調(diào)和語調(diào)等就越自然。

而現(xiàn)在將這些功能集成到一個模型中,各部分之間的依賴性就會降低。因為模型內(nèi)部表征已經(jīng)融合在一起,所以它可以更快地開始生成語音輸出,而不必等待前面的所有信息都處理完畢。在這個模型內(nèi)部,信息已經(jīng)被統(tǒng)一表征,因此無需等待所有信息都準備好,就能作為一個整體進行處理。

7、怎么看它的商業(yè)價值?

徐鵬:我認為,OpenAI的這次發(fā)布會實際上并不是直接針對商業(yè)化的活動。在發(fā)布會上,他們提到了GPT-4o將對外界免費開放。

從這一點來看,OpenAI似乎更看重基于這種能力的未來發(fā)展?jié)摿。他們期待未來有更多的企業(yè)能夠在這一基礎(chǔ)上開發(fā)出更自然的、能夠與人交互的、更專業(yè)的產(chǎn)品,并通過這些產(chǎn)品實現(xiàn)商業(yè)化。

在過去由于技術(shù)條件的限制,產(chǎn)品設(shè)計上的一些創(chuàng)新想法很難實現(xiàn)突破,能做的東西相對有限。然而,GPT-4o模型的出現(xiàn),將發(fā)展的上限提高了很多,使得不同行業(yè)的企業(yè)在進行業(yè)務(wù)設(shè)計時,可以更放心地將交互任務(wù)交給這種自然的交互模式。

8、能不能理解為OpenAI是想再形成一個新的入口,或者是成為一個超級入口

徐鵬:我認為是會這樣的,然后包括他們跟蘋果的這個合作、自研搜索引擎也是在朝著這個方向去努力的。

9、今天OpenAI展現(xiàn)出來新的軟件形態(tài),接下來如何平衡技術(shù)創(chuàng)新與商業(yè)模式之間的關(guān)系?與像蘋果、多鄰國之間合作關(guān)系如何演變?

徐鵬:我的理解是,技術(shù)能力固然重要,但要真正實現(xiàn)有效的實際應(yīng)用,還需要深入理解不同業(yè)務(wù)領(lǐng)域和行業(yè)的核心需求。只有了解了行業(yè)面臨的問題,技術(shù)的應(yīng)用才能帶來業(yè)務(wù)模式的變革,這也正是我們對AI發(fā)展所期待的——通過AI技術(shù)的發(fā)展推動新的業(yè)務(wù)模式改革。

目前看來,OpenAI似乎更專注于技術(shù)層面的深入準備。他們之前推出的GPT Store旨在鼓勵開發(fā)者利用GPT技術(shù)開發(fā)自己的應(yīng)用程序。然而,就目前而言,這些應(yīng)用在深度和廣度上可能還未達到OpenAI預(yù)期能引發(fā)行業(yè)變革的程度。

但我認為,OpenAI這次的技術(shù)展示可能會激發(fā)更多的期待和探索。更多的行業(yè)參與者可能會愿意利用其技術(shù)能力,在業(yè)務(wù)模式上進行更深入的探索。盡管目前商業(yè)上能否取得成功還是未知數(shù),但我認為這需要結(jié)合對行業(yè)的深入理解,真正融入行業(yè)內(nèi)部,才能實現(xiàn)行業(yè)內(nèi)的實質(zhì)性變革。OpenAI所提供的基礎(chǔ),為未來的變革提供了良好的起點。

10、如果是產(chǎn)品經(jīng)理這樣一個創(chuàng)業(yè)人物,想基于這個百靈或者是螞蟻生態(tài)去做應(yīng)用創(chuàng)新,那我應(yīng)該做什么?不做什么?

徐鵬:我不是做產(chǎn)品經(jīng)理的,我只能通過技術(shù)這個角度探討產(chǎn)品與技術(shù)應(yīng)該如何合作。畢竟,產(chǎn)品最終是要服務(wù)于用戶的。我認為產(chǎn)品經(jīng)理應(yīng)該做的是深入理解當前AI模型發(fā)展,明確其能力邊界所在,并預(yù)判能力提升的可能方向。在此基礎(chǔ)上,去思考這些能力如何為用戶創(chuàng)造價值,以及它們將如何影響用戶的使用習慣。

從螞蟻集團的角度來看,我們擁有底層技術(shù),并不斷演進這方面的技術(shù),我們不擔心在技術(shù)上落后太多。我認為,我們更應(yīng)該在產(chǎn)品層面進行投入,思考如何創(chuàng)造出真正有價值的產(chǎn)品,更快地與用戶建立聯(lián)系,讓用戶通過這種全新極致體驗的交互模式迅速獲得服務(wù)。

這可能是我們未來產(chǎn)品開發(fā)中需要重點關(guān)注的方向。

11、人機交互體驗上面,還有哪些技術(shù)挑戰(zhàn)?原生多模態(tài)這條路徑是最好的嗎?

徐鵬:這次GPT-4o發(fā)布確實令人驚艷,它能一定程度捕捉說話者語音語調(diào)和語氣,還能通過視覺能力識別人的面部表情和情緒。但這些能力在實際應(yīng)用場景中能夠達到什么程度,還需要進一步探索和驗證。

但像這種能在交流過程中全方位理解這個人,無疑是未來產(chǎn)品和技術(shù)發(fā)展中需要突破的重要方向,到時會帶來真正的交互變革。

原生多模態(tài)這條路徑應(yīng)該是體驗最好的,尤其在交互流暢度上面。但技術(shù)難度不小,比如要準確地理解和響應(yīng)所有視覺和聽覺信息;此外,相較于多模態(tài)數(shù)據(jù),單模態(tài)數(shù)據(jù)收集會相對容易一些。

接下來的產(chǎn)品決策需要考慮的是,這種極致的體驗對于產(chǎn)品來說是否剛需。另一方面,我們是否可以利用單模態(tài)數(shù)據(jù)進行合成,生成有助于模型訓(xùn)練的合成數(shù)據(jù)。

文章來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部