m男拘束榨精地狱,国产成人亚洲精品无码H在线

百度點亮自研萬卡集群，大模型應(yīng)用拐點加速到來

鈦媒體整合編輯：太平洋科技發(fā)布于：2025-02-07 15:55

就像ChatGPT在2023年年初掀起大模型熱潮一樣，在剛剛過去的2025年春節(jié)期間，一款名為DeepSeek的大模型產(chǎn)品再次攪動全球科技市場，成為2025人工智能戮戰(zhàn)的開端。

DeepSeek獨特之處在于以更少的GPU芯片和訓(xùn)練成本，實現(xiàn)了堪比全球主流大模型的性能，作為國產(chǎn)大模型的又一明星產(chǎn)品，DeepSeek迅速得到了國內(nèi)包括百度等主流云廠商的鼎力支持。

百度智能云是在2月3日正式官宣千帆平臺正式上架DeepSeek-R1、DeepSeek-V3模型的，價格僅為DeepSeek-V3官方刊例價的3折，DeepSeek-R1官方刊例價的5折，并宣布從上線當(dāng)日到2月18日24點，模型限時免費使用。模型上線首日，已有超1.5萬家客戶通過千帆平臺進行模型調(diào)用。

對DeepSeek在內(nèi)的國產(chǎn)大模型的支持是百度構(gòu)建大模型生態(tài)的一部分，為企業(yè)用戶提供更多維強大的模型選擇。與此同時，在支撐大模型發(fā)展的基石層面，百度智能云在近日官宣成功點亮了昆侖芯三代萬卡集群。

作為國內(nèi)首個正式點亮的自研萬卡集群，昆侖芯三代萬卡集群不僅解決了百度自身大模型發(fā)展的算力問題，也再次為國內(nèi)大模型產(chǎn)業(yè)發(fā)展提供了新思路。

百模大戰(zhàn)的算力之憂

2024年，“降本”成了新一輪百模大戰(zhàn)的關(guān)鍵詞。

大模型第一波降價潮出現(xiàn)在2024年年中，大模型主流玩家們紛紛在這一年宣布了新的價格策略。

百度在2024世界人工智能大會期間官宣，文心旗艦款模型ERNIE 3.5、ERNIE 4.0大幅降價，彼時面向企業(yè)開放的ERNIE 4.0 Turbo輸入輸出價格分別低至了0.03元/千Tokens、0.06元/千Tokens，ERNIE Speed、ERNIE Lite兩款主力模型繼續(xù)免費。

降價是為了推動大模型產(chǎn)業(yè)落地，而算力緊張是導(dǎo)致大模型訓(xùn)練成本、推理成本，乃至使用成本居高不下的主要原因之一。

要想降低大模型的算力成本，自研芯片就成了一條不可忽視的路徑。

實際上，早在云計算成為數(shù)字時代新基建、深度學(xué)習(xí)開始引領(lǐng)人工智能技術(shù)變革時，百度就已經(jīng)在著手自研AI芯片，2018年7月，在2018年百度AI開發(fā)者大會上，百度昆侖芯正式問世。

作為百度第一款自研AI芯片，也是國內(nèi)第一款云端全功能AI芯片，百度昆侖芯基于XPU神經(jīng)處理器架構(gòu)，采用三星14nm制程和2.5D I-Cube封裝技術(shù)，擁有512GB/s內(nèi)存帶寬，并且憑借260TOPS算力成為彼時業(yè)內(nèi)設(shè)計算力最高的AI芯片。

相較于當(dāng)時基于FPGA最新的AI加速器，百度昆侖芯性能提升了近30倍。

在這之后，百度持續(xù)在AI芯片領(lǐng)域發(fā)力，并在2021年8月的百度世界大會上宣布了基于7nm制程、搭載第二代XPU架構(gòu)、性能再次提升2-3倍的第二代自研AI芯片——昆侖芯2正式量產(chǎn)。

百度在AI芯片領(lǐng)域的多年積累，為其在大模型時代構(gòu)建大規(guī)模算力集群奠定了基礎(chǔ)，而百度在近日官宣點亮的自研萬卡集群正是基于百度自研的AI芯片。

那么，什么是萬卡集群？

所謂萬卡集群是指由一萬張及以上計算加速卡組成的高性能計算系統(tǒng)，主要用于訓(xùn)練和推理AI大模型。

構(gòu)建萬卡集群并非上萬張GPU卡簡單堆疊那么簡單，對于算力集群而言，規(guī)模越大，故障率往往越高，Meta官方就曾透露，在Meta的大模型Llama3.1訓(xùn)練過程中，其運行的1.6萬張GPU訓(xùn)練集群每3小時就會出現(xiàn)一次故障。

然而，由于萬卡集群可以將千億參數(shù)模型的訓(xùn)練周期大幅降低，并可以滿足AI原生應(yīng)用快速迭代需求，如今已經(jīng)成為大模型時代重要的基礎(chǔ)設(shè)施。

對于百度而言，萬卡集群的建成不僅為百度帶來了強大、穩(wěn)定的算力支持，避免外部因素導(dǎo)致的斷供風(fēng)險，確保企業(yè)研發(fā)和生產(chǎn)的連續(xù)性。

更重要的是，隨著國產(chǎn)大模型的興起，萬卡集群逐漸從“單任務(wù)算力消耗”到“集群效能最大化”過渡，百度自研萬卡集群通過對多任務(wù)并發(fā)、動態(tài)資源切分等能力的支持，還可同時訓(xùn)練多個輕量化模型，通過通信優(yōu)化與容錯機制減少算力浪費，實現(xiàn)訓(xùn)練成本指數(shù)級下降，從而進一步推動模型成本的下降。

而百度之所以能建成穩(wěn)定、高效的萬卡集群，離不開百度自研的大模型訓(xùn)推一體化基礎(chǔ)設(shè)施。

萬卡集群的技術(shù)底座

2024年9月25日，百度智能云事業(yè)群總裁沈抖在百度云智大會上指出，“極致規(guī)模、極致高密、極致互聯(lián)讓GPU集群完全不同于傳統(tǒng)的CPU集群，開啟了全新的計算時代�！�

大規(guī)模GPU集群的構(gòu)建天然存在高成本、難運維兩大挑戰(zhàn)，為了應(yīng)對這兩大挑戰(zhàn)，作為國內(nèi)大模型領(lǐng)域頭部玩家，百度智能云團隊開始重新思考如何構(gòu)建管理和維護這樣龐大的GPU集群，如何屏蔽掉硬件的復(fù)雜性，為大模型全流程提供一個簡單好用的算力平臺。

于是，百舸平臺再次升級，百度智能云在百舸3.0版本中開始支持大模型訓(xùn)練和推理，并在百舸4.0版本中進一步解決了多芯混訓(xùn)、高故障率等難題，由此，百舸平臺逐漸成長為大模型時代的訓(xùn)推一體化基礎(chǔ)設(shè)施。

具體而言，圍繞大模型落地全過程的算力需求，百舸平臺在集群創(chuàng)建、開發(fā)實驗、模型訓(xùn)練、模型推理四個方面，為企業(yè)和開發(fā)者提供了提供“多、快、穩(wěn)、省”的AI基礎(chǔ)設(shè)施。

在集群創(chuàng)建階段，企業(yè)和開發(fā)者最關(guān)注的是如何快速將企業(yè)業(yè)務(wù)在集群上跑起來，這其中的資源配置和調(diào)試往往需要幾個月的時間，而由于百舸平臺內(nèi)置了業(yè)界流行的訓(xùn)練工具和框架，基于百舸平臺，用戶只需要1個小時就可以快速完成集群創(chuàng)建，讓業(yè)務(wù)迅速上線。

在開發(fā)實驗階段，針對特定業(yè)務(wù)目標(biāo)在大規(guī)模訓(xùn)練之前需要測試不同參數(shù)和架構(gòu)對模型的影響，進而制定合適的模型訓(xùn)練策略，保證模型訓(xùn)練的有效性和最終效果，百舸平臺在4.0版本升級的可觀測大盤可以幫助企業(yè)提供直觀的決策依據(jù)，幫助企業(yè)更好地把控項目。

在模型訓(xùn)練階段，企業(yè)和開發(fā)者更關(guān)注集群的穩(wěn)定性，在提升穩(wěn)定性方面，百舸平臺提供容錯與穩(wěn)定性機制，避免了由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降，保障有效訓(xùn)練率達到98%。

在多芯混訓(xùn)方面，百舸平臺展現(xiàn)了強大的資源整合能力，它能夠?qū)⒉煌攸c、不同規(guī)模的異構(gòu)算力進行統(tǒng)一管理，構(gòu)建起多芯資源池。

當(dāng)業(yè)務(wù)提交工作負載時，百舸平臺可自動進行芯片選型，依據(jù)集群剩余的芯片資源，選擇性價比最高的芯片來運行任務(wù)，從而最大化地利用集群的剩余資源，實現(xiàn)高達95%的萬卡多芯混合訓(xùn)練效能。

在集群穩(wěn)定性方面，百度自研的BCCL（百度集合通信庫）能夠快速自動偵測到導(dǎo)致訓(xùn)練任務(wù)異常的節(jié)點故障并提供自動化的容錯能力，將故障恢復(fù)時間從小時級降低到分鐘級，極大地提高了集群的可靠性和可用性。

模型訓(xùn)練不僅需要擁有高穩(wěn)定性，還需要更高效，為此，百舸平臺構(gòu)建了十萬卡級別的超大規(guī)模HPN高性能網(wǎng)絡(luò)，針對跨地域通信中的高延遲問題，通過優(yōu)化的拓撲結(jié)構(gòu)、多路徑負載均衡策略及通信策略，實現(xiàn)了幾十公里的跨地域通信。

在通信效率上，百舸平臺通過先進的擁塞控制算法和集合通信算法策略，實現(xiàn)了完全無阻塞，并通過10ms級別超高精度網(wǎng)絡(luò)監(jiān)控，保障了網(wǎng)絡(luò)的穩(wěn)定性。

在模型推理方面，企業(yè)和開發(fā)者更關(guān)注的則是速度和成本，速度事關(guān)模型使用體驗，成本則關(guān)于模型的性價比，百舸平臺通過架構(gòu)分離、KV Cashe、負載分配等一系列加速，實現(xiàn)了長文本推理效率翻倍提升。

正是有了這樣的大模型訓(xùn)推一體化基礎(chǔ)設(shè)施，再結(jié)合百度自研AI芯片獨特的技術(shù)優(yōu)勢，百度為大模型自研的萬卡集群構(gòu)建了一個穩(wěn)定、高效的技術(shù)底座。

大模型應(yīng)用拐點將至

在過去一年里，隨著大模型從技術(shù)變革走向產(chǎn)業(yè)變革，國內(nèi)各類大模型產(chǎn)品不斷涌現(xiàn)。

九章大模型（MathGPT）是好未來教育集團面向教育領(lǐng)域發(fā)布的教育大模型，具備多學(xué)科的解題、講題、對話、批改、推薦等能力，目前已經(jīng)廣泛應(yīng)用到了好未來的智能硬件學(xué)而思旗艦學(xué)習(xí)機及多個業(yè)務(wù)場景。

Vidu是生數(shù)科技與清華大學(xué)聯(lián)合發(fā)布的中國首個長時長、高一致性、高動態(tài)性視頻大模型，發(fā)布之初，這個文生視頻大模型支持一鍵生成16秒、1080P分辨率的視頻內(nèi)容，被業(yè)界視為“國產(chǎn)Sora”。

這些大模型在集群創(chuàng)建、模型訓(xùn)練、產(chǎn)品迭代過程中，都選用了百度智能云的百舸平臺。

基于百舸平臺，好未來快速、方便地創(chuàng)建千卡級別的訓(xùn)推任務(wù)集群，算力方面，集群以A800、H800作為典型的異構(gòu)算力，最大支撐16000GPU卡的規(guī)模，存儲方面，集群適用于大規(guī)模深度學(xué)習(xí)訓(xùn)練場景，可提供亞毫秒級（300us）的時延，服務(wù)可用性不低于99.95%。

基于百舸平臺，生數(shù)科技得以在短時間內(nèi)完成了Vidu的上線和開放API，同樣是得益于百度百舸在大模型訓(xùn)練方面的硬實力，Vidu訓(xùn)練效率大幅提升，其素材渲染加速效率提升3倍，數(shù)據(jù)拉取效率提升51倍。

此外，無論是上海交通大學(xué)這樣的頂級科研院校，還是長安汽車這樣的頭部車企玩家，都已經(jīng)在基于百舸平臺將大模型切實地應(yīng)用到實際科研、生產(chǎn)場景。

值得注意的是，這些大模型產(chǎn)品已經(jīng)在百度智能云千帆大模型平臺上線。

百度智能云千帆大模型平臺的服務(wù)與開發(fā)平臺ModelBuilder不僅為用戶提供了高效價比的文心模型及開源模型服務(wù)，還為模型效果調(diào)優(yōu)提供了包含數(shù)據(jù)加工、模型精調(diào)、模型評估、模型量化的一站式工具鏈，目前，這一平臺已經(jīng)幫助客戶精調(diào)了3.3萬個模型、開發(fā)了77萬個企業(yè)應(yīng)用。

而就在DeepSeek春節(jié)期間火出圈后，百度智能云也在2月3日官宣在千帆大模型平臺上架DeepSeek-R1、DeepSeek-V3模型。

基于在大模型推理性能優(yōu)化方向的技術(shù)積累，百度智能云團隊針對DeepSeek模型MLA結(jié)構(gòu)的計算進行了極致的性能優(yōu)化，并通過計算、通信、訪存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構(gòu)等，在核心延遲指標(biāo)TTFT/TPOT滿足SLA的條件下，實現(xiàn)模型吞吐的大幅度提升，進而顯著降低模型推理成本。相較而言，通過百度千帆平臺調(diào)用DeepSeek-R1僅為官方刊例價的5折，調(diào)用DeepSeek-V3僅為官方刊例價的3折，使用價格直接降到了全網(wǎng)最低。

花旗銀行在近日發(fā)布的研報中曾表示，DeepSeek、百度等的中國模型展現(xiàn)出高效和低成本優(yōu)勢，將有助于加速全球AI應(yīng)用開發(fā)，并在全球引發(fā)更多技術(shù)創(chuàng)新，推動2025年人工智能應(yīng)用的拐點到來。

此次隨著百度自研萬卡集群點亮，無論是在算力資源穩(wěn)定供應(yīng)上，還是企業(yè)算力資源采購和維護成本優(yōu)化上，都將得到再次提升，百度也得以借助自研萬卡集群優(yōu)化公有云的服務(wù)模式，進一步推動大模型應(yīng)用在2025年涌現(xiàn)。

本文來源：鈦媒體