為什么說GPU再火,AI平臺也少不了強力的CPU AIGC的這把火,燃起來的可不只是百模大戰(zhàn)的熱度和雨后春筍般的各式AI應用。 更是由于算力與通信需求的爆發(fā)式增長,使得底層的專用加速芯片、以及配備這些芯片的AI加速服務器再次被拉到了大眾的聚光燈下。 據(jù)統(tǒng)計,2023年全球范圍內(nèi)的AI服務器市場規(guī)模已經(jīng)達到了211億美元,并且IDC還發(fā)布預測說: 預計2025年達317.9億美元,2023-2025年CAGR為22.7%。 AIGC大模型的訓練和推理需要大量的高性能算力支持,對AI服務器需求還將提升。 而且AI加速服務器不同于普通服務器,在架構(gòu)上一般采用異構(gòu)的方式,且GPU的數(shù)量更是能配多少就配多少,這也就是造成目前GPU千金難求的因素之一。 但你知道嗎?即使在大模型時代GPU或各式AI加速芯片的光芒變得更加耀眼,但對于AI基礎設施來說,CPU依然是必不可少的存在——至少一臺高端的AI加速服務器中每8個GPU就需得搭配2個CPU。 不僅如此,由于AI加速服務器異構(gòu)的特點,市場上除了CPU+GPU的組合方式之外,還有其它多種多樣的架構(gòu),例如: CPU+FPGA、CPU+TPU、CPU+ASIC、CPU+多種加速卡 不難看出,即使AI加速服務器架構(gòu)的組合方式萬般變化,唯獨不能變的就是CPU,而且往往還得是搭配高端的那種。那么為什么會這樣呢? AI加速服務器中的CPU 首先,CPU對于AI加速服務器來說相當于人的大腦。 它可以負責整個服務器的運算與控制,是直接影響到服務器整體性能的核心部件。 CPU處理操作系統(tǒng)的指令,協(xié)調(diào)各個硬件組件的工作,包括內(nèi)存管理、數(shù)據(jù)流控制和I/O操作。 即使在AI服務器中,GPU或其他加速器負責執(zhí)行大部分計算密集型任務,CPU仍然是不可或缺的,因為它確保了整個系統(tǒng)的穩(wěn)定運行、各組件的高效通信協(xié)作,最終推進任務的順利執(zhí)行。 其次,CPU還具備靈活性和通用性。 CPU的設計一般為通用處理器,能夠執(zhí)行各種類型的計算任務。 雖然GPU在并行處理方面更為高效,但CPU在處理序列化任務、執(zhí)行復雜邏輯和運行通用應用程序方面更為靈活。 真正完整的AI應用平臺其實需要處理一系列密切相關又特色各異的任務,包括數(shù)據(jù)預處理、模型訓練、推理和后處理等,這些任務也可能甚至特別需要CPU的通用處理能力。 不僅如此,CPU還是系統(tǒng)啟動和維護的關鍵點。 因為服務器的啟動過程、系統(tǒng)監(jiān)控、故障診斷和維護操作都需要CPU來執(zhí)行;沒有CPU,這些關鍵的系統(tǒng)級任務將無法進行。 而且CPU在軟件兼容性方面更是有積累多年的優(yōu)勢。 市面上大多數(shù)軟件和應用程序都是為CPU設計的,包括操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)和開發(fā)工具。AI加速服務器需要運行這些軟件來支持AI應用的開發(fā)和部署。 也正如我們剛才所說,現(xiàn)在AI加速服務器均是采用異構(gòu)的形式,CPU在此過程中可以作為控制節(jié)點,管理GPU或其他加速器的計算任務,以此來實現(xiàn)高效的資源分配和任務調(diào)度。 最后,便是成本的問題。 雖然GPU在AI計算中非常高效,但CPU或其他專用加速芯片仍然是成本效益較高的選擇,特別是在處理不適合GPU或加速器的任務時。CPU和它們的組合可以提供更佳的性能和成本平衡。 這也就不難理解為什么AI加速服務器里唯獨不能缺少CPU了。 那么接下來的一個問題便是,主流的服務器廠商都在用什么樣的CPU。 我們以國內(nèi)AI加速服務器市場份額排第一的浪潮為例,從最新消息來看,其NE5260G7服務器便已經(jīng)適配了老牌芯片巨頭英特爾最新發(fā)布的第五代英特爾® 至強® 可擴展處理器。 而之所以浪潮要適配最新的高端CPU,可以理解為“高端的游戲需要搭配高端GPU和CPU”,AI服務器要想在性能上取得新突破,同樣也是要適配高端的硬件。 具體而言,與前一代相比,第五代英特爾® 至強® 可擴展處理器在處理人工智能工作負載方面表現(xiàn)出色,其性能提升了21%,特別是在AI推理任務上,性能增幅更是達到了42%。 此外,它的內(nèi)存帶寬也增加了16%;在執(zhí)行一般計算任務時,第五代至強® 可擴展處理器能夠?qū)⒄w性能提高至多21%,并且在多個客戶實際工作負載中實現(xiàn)了每瓦特功耗性能提升高達36%。 也正因“內(nèi)核”如此強悍,才使得浪潮的服務器在性能上實現(xiàn)了平均21%的提升。 不過有一說一,畢竟AI也不完全就是單純的模型或大模型的加速,因此上述的CPU優(yōu)勢也還僅是能力的一隅,在各個細分的應用場景中,它還有更大的作為。 AI不完全是大模型 即使在配備了GPU或?qū)S眉铀倨鞯腁I服務器中,CPU的角色也遠不止于主控或為加速器提供服務。 而是在AI系統(tǒng)的整個生命周期中扮演著多樣化的角色,貫穿從數(shù)據(jù)采集、預處理、訓練、推理、應用等全流程。 先說最關鍵的AI模型,尤其是模型推理這一環(huán)節(jié)。 不論是現(xiàn)在占據(jù)最強話題熱度的大語言模型,還是傳統(tǒng)的深度學習模型,抑或是科學計算與人工智能交融形成的AI for Science應用,CPU,特別是內(nèi)置AI加速能力的英特爾® 至強® 可擴展處理器,都在推理應用中有不俗戰(zhàn)績。 例如在AlphaFold2掀起的蛋白質(zhì)折疊預測熱潮之中,借助第三代和第四代至強® 可擴展處理器不斷優(yōu)化端到端通量能力,就能實現(xiàn)比GPU更具性價比的加速方案,直接拉低AI for Science的入場門檻。 再例如OCR技術應用,也隨著至強® 可擴展處理器在內(nèi)置AI加速技術上的演進,被賦予了新的“靈魂”,不但準確率飆升、響應延遲也進一步降低。 更別提以ChatGLM為代表的通用大模型,以及衛(wèi)寧、惠每等行業(yè)軟件或解決方案提供商輸出的行業(yè)特定場景的大模型應用,它們都提供了有力的實踐佐證,能驗證至強® 在大模型推理上的實力,以及相比加速器芯片更優(yōu)的成本,以及更易獲取,更易部署、優(yōu)化和使用的優(yōu)勢。 再說AI全流程中大量涉及數(shù)據(jù)處理的環(huán)節(jié)。 實際業(yè)務中的AI應用,背后往往需要包含大量數(shù)據(jù)的知識庫作為支撐。 這些數(shù)據(jù)通過將海量文本語料壓縮成密集向量的形式存儲,并通過高效的相似度搜索迅速找到與查詢最相關的信息,也就是大家所熟知的向量數(shù)據(jù)庫了。 在這方面,專門針對向量和矩陣計算優(yōu)化的英特爾® AVX-512指令集和英特爾® AMX加速技術有了用武之地,可應對海量、多維向量數(shù)據(jù)的高并發(fā)和實時計算等挑戰(zhàn)。 業(yè)界知名的向量數(shù)據(jù)庫開發(fā)商如騰訊云和星環(huán)科技等,底層都選擇第五代英特爾® 至強® 可擴展處理器作為承載和加速的平臺。 騰訊云VectorDB與英特爾合作,在第五代至強® 平臺經(jīng)軟硬件雙方面優(yōu)化后,在提升向量數(shù)據(jù)庫的向量檢索效率方面相比基準組提升了約2.3倍,在使用英特爾® AMX 加速數(shù)據(jù)格式為INT8的測試場景中再次性能提升達約5.8倍。 星環(huán)科技則基于第五代至強® 可擴展處理器推出了Transwarp Hippo 分布式向量數(shù)據(jù)庫解決方案,實現(xiàn)了約2倍的代際性能提升,可有效滿足大模型時代海量、高維向量的存儲和計算需求。 △圖:星環(huán)科技分布向量數(shù)據(jù)庫Transwarp Hippo產(chǎn)品架構(gòu) AI全流程中與數(shù)據(jù)相關的環(huán)節(jié),不止包含可用作大模型外部知識庫的向量數(shù)據(jù)庫這一種。還涉及模型訓練前數(shù)據(jù)預處理,訓練中的數(shù)據(jù)調(diào)度,模型上線后的持續(xù)優(yōu)化和維護、異常數(shù)據(jù)的發(fā)現(xiàn)和處理等。 眾所周知,數(shù)據(jù)是AI三要素之一,相當于AI的血液和原料,沒有優(yōu)質(zhì)的數(shù)據(jù),再先進的算法和模型也是空中樓閣。但原始數(shù)據(jù)往往參差不齊,需要通過數(shù)據(jù)清洗、轉(zhuǎn)換、特征工程等一系列流程,最終才能為AI系統(tǒng)所用。 這些數(shù)據(jù)處理任務涉及海量邏輯運算,以及同樣、甚至更大量級的內(nèi)存操作,如存取、傳輸,對處理速度和時延要求都非常高,因此通常也是由最離系統(tǒng)內(nèi)存最近、更擅長通用計算的CPU來承擔。 第五代英特爾® 至強® 可擴展處理器充分考慮到這些需求,內(nèi)置多款加速器來為數(shù)據(jù)處理提供支持,如: DSA數(shù)據(jù)流加速器(Data Streaming Accelerator):負責優(yōu)化數(shù)據(jù)復制和轉(zhuǎn)換操作,提高網(wǎng)絡和存儲性能。 IAA存內(nèi)分析加速器 (In-Memory Analytics Accelerator):提高分析性能,同時卸載CPU內(nèi)核任務以加速數(shù)據(jù)庫查詢吞吐量等工作負載。 QAT數(shù)據(jù)保護與壓縮加速技術(QuickAssist Technology):可顯著加速數(shù)據(jù)壓縮、對稱和非對稱數(shù)據(jù)加密解密,提高CPU效率和整體系統(tǒng)性能。 DLB動態(tài)負載均衡器(Dynamic Load Balancer),幫助防止性能瓶頸并實現(xiàn)低時延控制平面工作負載。 在第五代至強® 可擴展處理器的不同細分型號中,對上述加速器有靈活的配置或支持方案,并且還支持通過Intel On Demand按需啟用,可以適應不同工作負載的需求。 最后,還特別要提到的對數(shù)據(jù)隱私、模型和應用安全的更優(yōu)防護,畢竟所有AI場景都不能以犧牲安全為代價,更是有些AI應用場景對此格外在意,如在金融、醫(yī)療行業(yè)。 對這些行業(yè)場景來說,能用上基于CPU實現(xiàn)的硬件級可信執(zhí)行環(huán)境(TEE)技術來保護敏感數(shù)據(jù)和代碼免受攻擊可是非常關鍵的。 如平安科技,就曾使用英特爾® Software Guard Extensions(英特爾® SGX)構(gòu)建聯(lián)邦學習解決方案。 平安科技通過英特爾® SGX的“飛地”內(nèi)存區(qū)域,在本地安全地執(zhí)行模型訓練,而無需共享原始數(shù)據(jù)。同時SGX支持安全的多方計算協(xié)議,如同態(tài)加密、安全聚合等,從而在聯(lián)邦學習中實現(xiàn)了更優(yōu)的隱私保護。 阿里云則基于最新第五代英特爾® 至強® 可擴展處理器推出了BigDL-LLM 隱私保護方案。 它在這款全新處理器內(nèi)置的英特爾® Trust Domain Extension (英特爾® TDX)技術的加持下實現(xiàn)了對分布式節(jié)點或 AI管道的更優(yōu)防護,從而能讓客戶在不犧牲數(shù)據(jù)隱私的前提下將更多數(shù)據(jù)運用到 AI 應用中,有效挖掘數(shù)據(jù)價值,為客戶構(gòu)建更為高效的隱私保護機器學習方案,助力大模型的廣泛應用。 要知道,基于 TEE 的聯(lián)邦學習或隱私保護機器學習技術,可是未來AI在大規(guī)模實踐中打通和共享多機構(gòu)數(shù)據(jù)的一大基座。 通過這種技術,不同機構(gòu)之間才能在保證數(shù)據(jù)安全和隱私的前提下,實現(xiàn)數(shù)據(jù)的共享和聯(lián)合分析,才能為 AI 的持續(xù)發(fā)展演進提供更加豐富和全面的數(shù)據(jù)支持。 搞好AI全流程加速,CPU不能是短板 所以,讓我們從單純的模型加速,將眼界擴展到更全面、多維、流水線化的AI平臺應用,不難預見,隨著這種平臺級應用的成熟與走向?qū)崙?zhàn),我們對小到AI加速服務器,大到AI基礎設施的期望也在不斷拓展和升級。 僅僅關注AI模型本身以及GPU、專用加速器的性能,會越來越像一個單點化的思維。 未來大家必須更重視整個AI平臺中多種硬件與軟件的搭配及協(xié)同工作,這其中CPU作為主控、加速、輔助的多面手,對于補齊整個平臺的短板,提升整個平臺的質(zhì)量至關重要。 這或許就是在如今的技術浪潮下,以第五代英特爾® 至強® 可擴展處理器為代表的高端CPU,依然會在AI服務器或基礎設施市場中贏得一席之地的根因。 畢竟,高端CPU的作用不僅是直接上手加速AI推理,還關系到整個AI平臺或系統(tǒng)整體性能的提升,更是提供更加穩(wěn)定和安全的運行環(huán)境來拓展AI的邊界,只有這幾個環(huán)節(jié)都照顧到,才能推動AI Everywhere愿景進一步走向現(xiàn)實。 或者簡言之,AI如果要真正走向更多的實用場景,又怎么能少得了更強大、更可靠、更全面多能的CPU呢? 參考鏈接: [1]https://www.bilibili.com/read/cv23242562/ 文章來源:量子位
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選