老被人說在大模型競賽中掉隊的華為,這次終于帶著它的家伙事兒來了。 這不,在昨天的華為開發(fā)者大會 2023 上,華為就狠狠地秀了一把。 將近三個小時的發(fā)布會,還是繼承了華為以往大雜燴的風(fēng)格,看得世超是眼花繚亂。 不過,總結(jié)下來其實也就突出了一個主題:盤古大模型 3.0 。 最主要的是,它的預(yù)測精度甚至超過了號稱全球最強的歐洲氣象中心的 IFS 系統(tǒng),算是頭一個 AI 預(yù)測贏了傳統(tǒng)數(shù)值預(yù)測的產(chǎn)品。 而且,之前的 AI 模型會在預(yù)測的過程當中不斷累計迭代的誤差,容易影響到結(jié)果的精確性。 所以 AI 預(yù)測方法一直都不咋受待見。 而盤古氣象大模型牛就牛在,他們用了個叫 3DEST 的三維神經(jīng)網(wǎng)絡(luò)來處理氣象數(shù)據(jù), 2D 干不了的那就換 3D 來。 這詞兒雖然聽起來挺容易被唬住的,但其實很好理解。 就比如,之前的 AI 氣象預(yù)測模型 FourCastNet ,在臺風(fēng)來之前,它會提前 6 小時進行預(yù)測,在這 6 個小時里,模型會多次計算臺風(fēng)到底啥時候來。 可能一會兒算出來 5 個小時,一會兒又算出來 4 個半小時,這些結(jié)果加到一起誤差就大了。 但盤古氣象大模型想了個法子,訓(xùn)練了 4 個不同預(yù)報間隔的模型,分別是 1 小時迭代 1 次,還有 3 小時、 6 小時和 24 小時迭代 1 次。 再根據(jù)具體的氣象預(yù)測需求,選擇相應(yīng)的模型進行迭代。 迭代次數(shù)越少,誤差也就越小。 這波操作,讓天氣預(yù)報又邁向了一個新的 level 。 不過,可能有差友開始犯嘀咕了,人家的大模型都是生成圖像和文字,怎么到華為這就變成了天氣預(yù)報了? 有一說一啊,這盤古大模型跟咱之前接觸到的 ChatGPT 、 Midjourney 的確不太一樣,人家做的是行業(yè)的生意。 它并不是大家期待的 ChatGPT“ 克星 ” ,而是針對平時不太能接觸到的To B 市場。 咱先不提難與不難,至少華為這么多年積累下來的企業(yè)客戶資源,確實很容易變現(xiàn)。 而且華為這次的發(fā)布會可不止帶來了氣象預(yù)測模型這一個狠角色。 40 多年都沒發(fā)現(xiàn)新的抗生素,盤古藥物分子大模型一來就找著了超級抗菌藥 Drug X ,而且藥物的研發(fā)周期從數(shù)年縮短至幾個月,研發(fā)成本降低 70% 。 要知道,一家年產(chǎn) 1000 萬噸焦煤的選煤廠,每提升 0.1% 精煤產(chǎn)率,每年就能多 1000 萬的利潤。 這可都是白花花的銀子啊。。。 事實上,除了上邊兒咱提到的天氣預(yù)測、藥物研發(fā)和選煤,盤古大模型在很多行業(yè)里都已經(jīng)用起來了。 發(fā)布會上,華為云人工智能首席科學(xué)家田奇就表示,華為云人工智能項目已經(jīng)應(yīng)用在了超過 1000 個項目中,其中 30% 用在客戶的核心生產(chǎn)系統(tǒng)里,平均推動客戶盈利能力提升了 18% 。 而華為能夠量產(chǎn)這些各不相同的行業(yè)大模型,要歸功于華為盤古大模型 3.0 的 5+N+X 三層架構(gòu)。 為什這么說呢? 因為 AI 落地行業(yè),數(shù)據(jù)是一大難點。 張平安在發(fā)布會上就說, “ 由于行業(yè)數(shù)據(jù)獲取難,技術(shù)與行業(yè)結(jié)合難,大模型在行業(yè)的落地進展較慢。 ” 而盤古則很巧妙,通過 5+N+X 的三層架構(gòu),直接把這個大難題拆成了 3 個小問題來解決。 首先,是先讓盤古 L0 層的 5 個大模型,學(xué)習(xí)了上百 TB 的百科知識、文學(xué)作品、程序代碼等文本數(shù)據(jù),以及數(shù) 10 億張帶文本標簽的互聯(lián)網(wǎng)圖像。 咱們可以理解為,先讓第一層 L0 的大模型( 自然語言大模型、視覺大模型、多模態(tài)大模型、預(yù)測大模型、科學(xué)計算大模型這 5 個基礎(chǔ)大模型 )建立起基本的認知,也就是有點像咱們大學(xué)前的素質(zhì)教育階段。 然后,在第二層 L1 中的模型,則是讓 L0 中的某一個基礎(chǔ)大模型學(xué)習(xí) N 個相關(guān)行業(yè)的數(shù)據(jù)形成的。這就像大學(xué)的本科階段,需要選擇各種專業(yè)去學(xué)習(xí)。 但畢竟一個是醫(yī)院,一個是工廠,使用場景完全不一樣,光靠基礎(chǔ)大模型那肯定行不通,但如果把行業(yè)數(shù)據(jù)加進去,可能就有驚喜了。 與此同時呢,華為還在里頭加入一個反饋環(huán)節(jié),有點進公司實習(xí)內(nèi)味了。 根據(jù)他們的說法,過去開發(fā)一個 GPT-3 規(guī)模的行業(yè)大模型,通常需要 5 個月;而有了這套東西,開發(fā)周期能縮短至原來的 1/5 。 同時很多行業(yè)數(shù)據(jù)集小的限制也能被解決。比如造大飛機這種很細很細的行業(yè),也能有大模型。 眾所周知,咱們在 AI 算力方面,確實是比較尷尬。 一來, AI 行業(yè)的核心設(shè)備英偉達的 H100/A100 咱們買不到,二來,即使英偉達 “ 貼心 ” 出了平替 H800 ,但是也有所保留。比如,在傳輸速率上就砍了不少。 在大模型動輒幾個月訓(xùn)練時間的背景之下,這就很容易被算力更強的國外同行彎道超車。 而這一回,針對這個問題,華為還是掏了些真家伙出來的。 不過實際應(yīng)用起來,還是有一些差距的。而且 A100 這也不是英偉達的終極武器。 比如,根據(jù)發(fā)布會的說法,算上 AI 昇騰云算力底座、計算框架 CANN 。。。等環(huán)節(jié),華為在訓(xùn)練大模型方面,效率是業(yè)界主流 GPU 的 1.1 倍。 還是挺可觀的。 而且華為還說,他們現(xiàn)在有近 400 萬的開發(fā)者,這個數(shù)量,是和英偉達 CUDA 生態(tài)對齊了。 總的來說,一場華為發(fā)布會看下來,差評君覺得華為在 AI 方面的布局是很深刻的,他們早就開始思考 “AI 真正能帶給我們什么 ” 這個問題了。 過去半年里, AI 行業(yè)雖然掌聲雷動,但是真正落到行業(yè)層面,多少有些尷尬。 而華為的這一次動作,恰好印證了如任正非說的: “ 未來在 AI 大模型方面會風(fēng)起云涌的,不只是微軟一家。人工智能軟件平臺公司對人類社會的直接貢獻可能不到 2% , 98% 都是對工業(yè)社會、農(nóng)業(yè)社會的促進。 ” AI 領(lǐng)域,真正的大時代還在后頭。 文章來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選