首頁 > 科技要聞 > 科技> 正文

百度點(diǎn)亮自研萬卡集群,大模型應(yīng)用拐點(diǎn)加速到來

鈦媒體 整合編輯:太平洋科技 發(fā)布于:2025-02-07 15:55

就像ChatGPT在2023年年初掀起大模型熱潮一樣,在剛剛過去的2025年春節(jié)期間,一款名為DeepSeek的大模型產(chǎn)品再次攪動全球科技市場,成為2025人工智能戮戰(zhàn)的開端。

DeepSeek獨(dú)特之處在于以更少的GPU芯片和訓(xùn)練成本,實(shí)現(xiàn)了堪比全球主流大模型的性能,作為國產(chǎn)大模型的又一明星產(chǎn)品,DeepSeek迅速得到了國內(nèi)包括百度等主流云廠商的鼎力支持。

百度智能云是在2月3日正式官宣千帆平臺正式上架DeepSeek-R1、DeepSeek-V3模型的,價(jià)格僅為DeepSeek-V3官方刊例價(jià)的3折,DeepSeek-R1官方刊例價(jià)的5折,并宣布從上線當(dāng)日到2月18日24點(diǎn),模型限時(shí)免費(fèi)使用。模型上線首日,已有超1.5萬家客戶通過千帆平臺進(jìn)行模型調(diào)用。

對DeepSeek在內(nèi)的國產(chǎn)大模型的支持是百度構(gòu)建大模型生態(tài)的一部分,為企業(yè)用戶提供更多維強(qiáng)大的模型選擇。與此同時(shí),在支撐大模型發(fā)展的基石層面,百度智能云在近日官宣成功點(diǎn)亮了昆侖芯三代萬卡集群。

作為國內(nèi)首個(gè)正式點(diǎn)亮的自研萬卡集群,昆侖芯三代萬卡集群不僅解決了百度自身大模型發(fā)展的算力問題,也再次為國內(nèi)大模型產(chǎn)業(yè)發(fā)展提供了新思路。

百模大戰(zhàn)的算力之憂

2024年,“降本”成了新一輪百模大戰(zhàn)的關(guān)鍵詞。

大模型第一波降價(jià)潮出現(xiàn)在2024年年中,大模型主流玩家們紛紛在這一年宣布了新的價(jià)格策略。

百度在2024世界人工智能大會期間官宣,文心旗艦款模型ERNIE 3.5、ERNIE 4.0大幅降價(jià),彼時(shí)面向企業(yè)開放的ERNIE 4.0 Turbo輸入輸出價(jià)格分別低至了0.03元/千Tokens、0.06元/千Tokens,ERNIE Speed、ERNIE Lite兩款主力模型繼續(xù)免費(fèi)。

降價(jià)是為了推動大模型產(chǎn)業(yè)落地,而算力緊張是導(dǎo)致大模型訓(xùn)練成本、推理成本,乃至使用成本居高不下的主要原因之一。

要想降低大模型的算力成本,自研芯片就成了一條不可忽視的路徑。

實(shí)際上,早在云計(jì)算成為數(shù)字時(shí)代新基建、深度學(xué)習(xí)開始引領(lǐng)人工智能技術(shù)變革時(shí),百度就已經(jīng)在著手自研AI芯片,2018年7月,在2018年百度AI開發(fā)者大會上,百度昆侖芯正式問世。

作為百度第一款自研AI芯片,也是國內(nèi)第一款云端全功能AI芯片,百度昆侖芯基于XPU神經(jīng)處理器架構(gòu),采用三星14nm制程和2.5D I-Cube封裝技術(shù),擁有512GB/s內(nèi)存帶寬,并且憑借260TOPS算力成為彼時(shí)業(yè)內(nèi)設(shè)計(jì)算力最高的AI芯片。

相較于當(dāng)時(shí)基于FPGA最新的AI加速器,百度昆侖芯性能提升了近30倍。

在這之后,百度持續(xù)在AI芯片領(lǐng)域發(fā)力,并在2021年8月的百度世界大會上宣布了基于7nm制程、搭載第二代XPU架構(gòu)、性能再次提升2-3倍的第二代自研AI芯片——昆侖芯2正式量產(chǎn)。

百度在AI芯片領(lǐng)域的多年積累,為其在大模型時(shí)代構(gòu)建大規(guī)模算力集群奠定了基礎(chǔ),而百度在近日官宣點(diǎn)亮的自研萬卡集群正是基于百度自研的AI芯片。

那么,什么是萬卡集群?

所謂萬卡集群是指由一萬張及以上計(jì)算加速卡組成的高性能計(jì)算系統(tǒng),主要用于訓(xùn)練和推理AI大模型。

構(gòu)建萬卡集群并非上萬張GPU卡簡單堆疊那么簡單,對于算力集群而言,規(guī)模越大,故障率往往越高,Meta官方就曾透露,在Meta的大模型Llama3.1訓(xùn)練過程中,其運(yùn)行的1.6萬張GPU訓(xùn)練集群每3小時(shí)就會出現(xiàn)一次故障。

然而,由于萬卡集群可以將千億參數(shù)模型的訓(xùn)練周期大幅降低,并可以滿足AI原生應(yīng)用快速迭代需求,如今已經(jīng)成為大模型時(shí)代重要的基礎(chǔ)設(shè)施。

對于百度而言,萬卡集群的建成不僅為百度帶來了強(qiáng)大、穩(wěn)定的算力支持,避免外部因素導(dǎo)致的斷供風(fēng)險(xiǎn),確保企業(yè)研發(fā)和生產(chǎn)的連續(xù)性。

更重要的是,隨著國產(chǎn)大模型的興起,萬卡集群逐漸從“單任務(wù)算力消耗”到“集群效能最大化”過渡,百度自研萬卡集群通過對多任務(wù)并發(fā)、動態(tài)資源切分等能力的支持,還可同時(shí)訓(xùn)練多個(gè)輕量化模型,通過通信優(yōu)化與容錯機(jī)制減少算力浪費(fèi),實(shí)現(xiàn)訓(xùn)練成本指數(shù)級下降,從而進(jìn)一步推動模型成本的下降。

而百度之所以能建成穩(wěn)定、高效的萬卡集群,離不開百度自研的大模型訓(xùn)推一體化基礎(chǔ)設(shè)施。

萬卡集群的技術(shù)底座

2024年9月25日,百度智能云事業(yè)群總裁沈抖在百度云智大會上指出,“極致規(guī)模、極致高密、極致互聯(lián)讓GPU集群完全不同于傳統(tǒng)的CPU集群,開啟了全新的計(jì)算時(shí)代!

大規(guī)模GPU集群的構(gòu)建天然存在高成本、難運(yùn)維兩大挑戰(zhàn),為了應(yīng)對這兩大挑戰(zhàn),作為國內(nèi)大模型領(lǐng)域頭部玩家,百度智能云團(tuán)隊(duì)開始重新思考如何構(gòu)建管理和維護(hù)這樣龐大的GPU集群,如何屏蔽掉硬件的復(fù)雜性,為大模型全流程提供一個(gè)簡單好用的算力平臺。

于是,百舸平臺再次升級,百度智能云在百舸3.0版本中開始支持大模型訓(xùn)練和推理,并在百舸4.0版本中進(jìn)一步解決了多芯混訓(xùn)、高故障率等難題,由此,百舸平臺逐漸成長為大模型時(shí)代的訓(xùn)推一體化基礎(chǔ)設(shè)施。

具體而言,圍繞大模型落地全過程的算力需求,百舸平臺在集群創(chuàng)建、開發(fā)實(shí)驗(yàn)、模型訓(xùn)練、模型推理四個(gè)方面,為企業(yè)和開發(fā)者提供了提供“多、快、穩(wěn)、省”的AI基礎(chǔ)設(shè)施。

在集群創(chuàng)建階段,企業(yè)和開發(fā)者最關(guān)注的是如何快速將企業(yè)業(yè)務(wù)在集群上跑起來,這其中的資源配置和調(diào)試往往需要幾個(gè)月的時(shí)間,而由于百舸平臺內(nèi)置了業(yè)界流行的訓(xùn)練工具和框架,基于百舸平臺,用戶只需要1個(gè)小時(shí)就可以快速完成集群創(chuàng)建,讓業(yè)務(wù)迅速上線。

在開發(fā)實(shí)驗(yàn)階段,針對特定業(yè)務(wù)目標(biāo)在大規(guī)模訓(xùn)練之前需要測試不同參數(shù)和架構(gòu)對模型的影響,進(jìn)而制定合適的模型訓(xùn)練策略,保證模型訓(xùn)練的有效性和最終效果,百舸平臺在4.0版本升級的可觀測大盤可以幫助企業(yè)提供直觀的決策依據(jù),幫助企業(yè)更好地把控項(xiàng)目。

在模型訓(xùn)練階段,企業(yè)和開發(fā)者更關(guān)注集群的穩(wěn)定性,在提升穩(wěn)定性方面,百舸平臺提供容錯與穩(wěn)定性機(jī)制,避免了由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降,保障有效訓(xùn)練率達(dá)到98%。

在多芯混訓(xùn)方面,百舸平臺展現(xiàn)了強(qiáng)大的資源整合能力,它能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理,構(gòu)建起多芯資源池。

當(dāng)業(yè)務(wù)提交工作負(fù)載時(shí),百舸平臺可自動進(jìn)行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價(jià)比最高的芯片來運(yùn)行任務(wù),從而最大化地利用集群的剩余資源,實(shí)現(xiàn)高達(dá)95%的萬卡多芯混合訓(xùn)練效能。

在集群穩(wěn)定性方面,百度自研的BCCL(百度集合通信庫)能夠快速自動偵測到導(dǎo)致訓(xùn)練任務(wù)異常的節(jié)點(diǎn)故障并提供自動化的容錯能力,將故障恢復(fù)時(shí)間從小時(shí)級降低到分鐘級,極大地提高了集群的可靠性和可用性。

模型訓(xùn)練不僅需要擁有高穩(wěn)定性,還需要更高效,為此,百舸平臺構(gòu)建了十萬卡級別的超大規(guī)模HPN高性能網(wǎng)絡(luò),針對跨地域通信中的高延遲問題,通過優(yōu)化的拓?fù)浣Y(jié)構(gòu)、多路徑負(fù)載均衡策略及通信策略,實(shí)現(xiàn)了幾十公里的跨地域通信。

在通信效率上,百舸平臺通過先進(jìn)的擁塞控制算法和集合通信算法策略,實(shí)現(xiàn)了完全無阻塞,并通過10ms級別超高精度網(wǎng)絡(luò)監(jiān)控,保障了網(wǎng)絡(luò)的穩(wěn)定性。

在模型推理方面,企業(yè)和開發(fā)者更關(guān)注的則是速度和成本,速度事關(guān)模型使用體驗(yàn),成本則關(guān)于模型的性價(jià)比,百舸平臺通過架構(gòu)分離、KV Cashe、負(fù)載分配等一系列加速,實(shí)現(xiàn)了長文本推理效率翻倍提升。

正是有了這樣的大模型訓(xùn)推一體化基礎(chǔ)設(shè)施,再結(jié)合百度自研AI芯片獨(dú)特的技術(shù)優(yōu)勢,百度為大模型自研的萬卡集群構(gòu)建了一個(gè)穩(wěn)定、高效的技術(shù)底座。

大模型應(yīng)用拐點(diǎn)將至

在過去一年里,隨著大模型從技術(shù)變革走向產(chǎn)業(yè)變革,國內(nèi)各類大模型產(chǎn)品不斷涌現(xiàn)。

九章大模型(MathGPT)是好未來教育集團(tuán)面向教育領(lǐng)域發(fā)布的教育大模型,具備多學(xué)科的解題、講題、對話、批改、推薦等能力,目前已經(jīng)廣泛應(yīng)用到了好未來的智能硬件學(xué)而思旗艦學(xué)習(xí)機(jī)及多個(gè)業(yè)務(wù)場景。

Vidu是生數(shù)科技與清華大學(xué)聯(lián)合發(fā)布的中國首個(gè)長時(shí)長、高一致性、高動態(tài)性視頻大模型,發(fā)布之初,這個(gè)文生視頻大模型支持一鍵生成16秒、1080P分辨率的視頻內(nèi)容,被業(yè)界視為“國產(chǎn)Sora”。

這些大模型在集群創(chuàng)建、模型訓(xùn)練、產(chǎn)品迭代過程中,都選用了百度智能云的百舸平臺。

基于百舸平臺,好未來快速、方便地創(chuàng)建千卡級別的訓(xùn)推任務(wù)集群,算力方面,集群以A800、H800作為典型的異構(gòu)算力,最大支撐16000GPU卡的規(guī)模,存儲方面,集群適用于大規(guī)模深度學(xué)習(xí)訓(xùn)練場景,可提供亞毫秒級(300us)的時(shí)延,服務(wù)可用性不低于99.95%。

基于百舸平臺,生數(shù)科技得以在短時(shí)間內(nèi)完成了Vidu的上線和開放API,同樣是得益于百度百舸在大模型訓(xùn)練方面的硬實(shí)力,Vidu訓(xùn)練效率大幅提升,其素材渲染加速效率提升3倍,數(shù)據(jù)拉取效率提升51倍。

此外,無論是上海交通大學(xué)這樣的頂級科研院校,還是長安汽車這樣的頭部車企玩家,都已經(jīng)在基于百舸平臺將大模型切實(shí)地應(yīng)用到實(shí)際科研、生產(chǎn)場景。

值得注意的是,這些大模型產(chǎn)品已經(jīng)在百度智能云千帆大模型平臺上線。

百度智能云千帆大模型平臺的服務(wù)與開發(fā)平臺ModelBuilder不僅為用戶提供了高效價(jià)比的文心模型及開源模型服務(wù),還為模型效果調(diào)優(yōu)提供了包含數(shù)據(jù)加工、模型精調(diào)、模型評估、模型量化的一站式工具鏈,目前,這一平臺已經(jīng)幫助客戶精調(diào)了3.3萬個(gè)模型、開發(fā)了77萬個(gè)企業(yè)應(yīng)用。

而就在DeepSeek春節(jié)期間火出圈后,百度智能云也在2月3日官宣在千帆大模型平臺上架DeepSeek-R1、DeepSeek-V3模型。

基于在大模型推理性能優(yōu)化方向的技術(shù)積累,百度智能云團(tuán)隊(duì)針對DeepSeek模型MLA結(jié)構(gòu)的計(jì)算進(jìn)行了極致的性能優(yōu)化,并通過計(jì)算、通信、訪存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構(gòu)等,在核心延遲指標(biāo)TTFT/TPOT滿足SLA的條件下,實(shí)現(xiàn)模型吞吐的大幅度提升,進(jìn)而顯著降低模型推理成本。相較而言,通過百度千帆平臺調(diào)用DeepSeek-R1僅為官方刊例價(jià)的5折,調(diào)用DeepSeek-V3僅為官方刊例價(jià)的3折,使用價(jià)格直接降到了全網(wǎng)最低。

花旗銀行在近日發(fā)布的研報(bào)中曾表示,DeepSeek、百度等的中國模型展現(xiàn)出高效和低成本優(yōu)勢,將有助于加速全球AI應(yīng)用開發(fā),并在全球引發(fā)更多技術(shù)創(chuàng)新,推動2025年人工智能應(yīng)用的拐點(diǎn)到來。

此次隨著百度自研萬卡集群點(diǎn)亮,無論是在算力資源穩(wěn)定供應(yīng)上,還是企業(yè)算力資源采購和維護(hù)成本優(yōu)化上,都將得到再次提升,百度也得以借助自研萬卡集群優(yōu)化公有云的服務(wù)模式,進(jìn)一步推動大模型應(yīng)用在2025年涌現(xiàn)。

本文來源:鈦媒體

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部