首頁 > 科技要聞 > 科技> 正文

DeepSeek真正成為了一條鯰魚

鳳凰科技 整合編輯:太平洋科技 發(fā)布于:2025-02-16 23:05

自走紅之初,DeepSeek就因成本優(yōu)勢不斷震驚業(yè)界,這為其開源生態(tài)發(fā)展奠定了非常好的基礎。

過去大模型走閉源路線與成本息息相關。許多大模型在預訓練階段幾乎都選擇了不計成本地投入,而DeepSeek選擇劍走偏鋒,把重點放在了上崗之后的強化學習。用反復高強度地訓練,倒逼自身不斷地調整姿勢,理解邏輯,自我反思,直到結果令人滿意。

以一直在難產的OpenAI GPT-5為例,估算顯示,該項目一次為期半年的訓練,僅計算成本就高達約 5億美元。目前,該項目已開發(fā)超過18個月,成本花費巨大,卻仍未取得預期成果。

這給國內很多大模型公司都敲響了警鐘,意味著想訓練頂級的模型,單是GPU的采購成本就高達幾十億,部署十萬卡集群的 “燒錢”程度更是難以想象。

相比之下,DeepSeek找到了一條低算力,高效率的路徑,其訓練成本只是OpenAI相關模型的十幾甚至幾十分之一。

DeepSeek還狠狠回擊了所謂“開源是硅谷精神”的論調,其不僅開源了所有的模型和論文,供所有人去免費下載,還公開了訓練方法,允許大家去做數據的蒸餾,去訓練自家的模型。

這意味著全球所有相關的技術人員,都能在現(xiàn)有的能力基礎之上,去做研發(fā)與開發(fā),至此,新的技術,新的應用就會在這個新生態(tài)里產生。

DeepSeek在2025年1月20日發(fā)布R1模型后,僅7天新增用戶1億(含網頁端與應用端),成為史上最快破億的AI應用。至2月1日,其日活躍用戶(DAU)突破3000萬大關,超越豆包(1695萬),直逼ChatGPT的5323萬。

從云服務商、電信運營商,到多數手機、汽車廠商,越來越多企業(yè)正在奮力擁抱 DeepSeek。

這條鯰魚很快也攪動了全球AI市場,兩大“AI巨頭”先后決定一改閉源態(tài)度,松口向公眾免費。

先是1月31日,OpenAI上線了新的推理模型o3-mini,并進一步下放了免費的權限。OpenAI CEO Sam Altman首次承認在開源上的失誤,指出后續(xù)可能找到不同的開源策略,有望重拾模型開源。

最新消息則來自于百度,其在2月13宣布,從4月1日起,文心一言將全面免費。同時即日起,文心一言上線深度搜索功能;該功能也將于4月1日起免費開放使用。

要知道,去年李彥宏還是堅定的閉源擁躉!敖裉觳还苁窃谥袊埠、美國也好,最強的基礎模型都是閉源的。閉源是有真正商業(yè)模式的,是能夠賺到錢的,能賺到錢才能聚集算力、聚集人才”。

僅僅不到一年過去,情況就開始逆轉。

開源的底氣到底是什么?

其實許多人仍對DeepSeek如何算得又快又好抱有好奇,其中比較重要的一點,就是它實現(xiàn)了芯片最底層的優(yōu)化。DeepSeek在其發(fā)布的技術論文中表示,DeepSeek采用了PTX(Parallel Thread Execution)編程,通過定制PTX優(yōu)化,使DeepSeek的系統(tǒng)和模型可以更好釋放底層硬件的性能。

相比于外界盛傳的算力限制讓其尋找性價比方案,DeepSeek其實是主動擁抱的優(yōu)化,用PTX把某些SM(GPU里負責計算的核)做了編程,讓他們來負責做數據的傳輸,使得多個GPU之間的數據傳輸的速度變快,解決了大模型計算中的一大瓶頸;同時,它還用PTX優(yōu)化了其他的包括計算梯度在內的運算,使得同樣的GPU發(fā)揮出了10倍的效能,這在訓練與推理過程中扮演著十分重要的角色。

除了芯片優(yōu)化,DeepSeek在訓練方法上也下了真功夫。不同于傳統(tǒng)的大模型訓練方法,它選擇直接跳過監(jiān)督微調階段,專注于通過規(guī)則驅動的強化學習訓練推理模型。

從DeepSeek V3 Base的預訓練模型開始,完全省略了監(jiān)督微調階段,為了實現(xiàn)大規(guī)模的強化學習,研究團隊使用了一種名為GRPO(群體相對策略優(yōu)化)的方法。有人用現(xiàn)實生活生動類比了這一數學原理的精妙之處,“通俗的說,就是一群學生在解決一個問題。老師不再單獨給每個學生打分,而是讓學生自己比較答案。答案更好的學生會受到鼓勵,而其他人則會從錯誤中吸取教訓。隨著時間的推移,整個團隊會共同進步,變得更加準確和一致”。

觀察DeepSeek這一本土化大模型的發(fā)展路徑,芯片優(yōu)化與GRPO,可謂是兩大法寶,提供源源不斷的光照與養(yǎng)分,但光有養(yǎng)分還不夠,一個好的土壤更加重要。DeepSeek的全資母公司幻方量化,原本對AI押寶許久,同時也是國內少數破千億的量化私募,既不缺錢也沒有融資需求。跟國內絕大多數AI相比,DeepSeek在商業(yè)化上可以說完全佛系,內部甚至沒有設立過多的營銷、產品崗位。

同時,據公開信息顯示,DeepSeek研發(fā)團隊有 139人,均是立足于本土的年輕團隊,他們更知道這片土地到底需要什么,所以以上這些快速迭代,前沿的實驗成果才有了茁壯成長的土壤。

工程上精益求精,技術上大刀闊斧進行創(chuàng)新,DeepSeek的爆火絕非偶然。事實上,六年前這場布局就已開始。它的母公司幻方量化早在2019年就花費2億打造螢火一號超算集群, 2022年默默地屯了萬張A100顯卡,是ChatGPT 3.5發(fā)布之后第一波手握萬卡入場券的少數模型公司,積累下的豐富資源增強了開疆拓土的信心。

至此,他們在V3實現(xiàn)了震撼的性價比,R1在實現(xiàn)性價比的同時還跑通了影響很大的新范式,一躍成為AI領域的新星,甚至有些觀點認為,DeepSeek可以稱為中國AI大模型的ChatGPT時刻。對于行業(yè)而言,DeepSeek的案例再次證明:在AI競賽中,垂直突破、開放協(xié)作、長期主義仍是贏得競爭的關鍵。

全球資本重估中國科技企業(yè)

DeepSeek掀起的人工智能革命浪潮還改變了中國科技企業(yè)的估值敘事。

截至2025年2月12日,恒生科技指數ETF近1周累計上漲7.67%。2月13日,恒生指數再度高開0.46%,恒生科技指數漲0.77%。嗶哩嗶哩-W、網易-S、百度集團-SW、中芯國際等漲超2%。

據中國證券報報道,高盛日前發(fā)布報告稱,中國人工智能(AI)企業(yè)深度求索(DeepSeek)的出現(xiàn)正激發(fā)投資者加速購買中國股票的熱情。同時,高盛維持對明晟(MSCI)中國指數的超配評級,預計該指數今年將上漲14%。

此前,中國科技企業(yè)一直普遍處于被低估的狀態(tài)中。大摩的一篇報告指出,全球投資者對中國科技企業(yè)的估值體系仍停留在傳統(tǒng)互聯(lián)網思維,未能充分反映其在前沿科技領域的突破。以騰訊、阿里為例,二者港股市盈率分別只有19和15,遠遠低于美股科技股的市盈率。

現(xiàn)在,DeepSeek真正成為了一條鯰魚。

美國針對DeepSeek的報道里,有一個高頻詞匯經常出現(xiàn):“Sputnik Moment”,又名斯普特尼克時刻(該術語源于1957年10月4日蘇聯(lián)成功發(fā)射的 “斯普特尼克 1號”人造衛(wèi)星。這是人類歷史上第一顆人造地球衛(wèi)星,它的發(fā)射成功使蘇聯(lián)在太空領域取得了領先地位,讓美國意識到自己在科技,尤其是太空技術方面的落后,給美國帶來了巨大的危機感和緊迫感)。

這件事對當時的美國沖擊很大,隨后1958年NASA成立,美國舉全國之力完成了登月,重新回到太空領域里面領先的地位,才拔掉了自己心頭的這根刺。而這次,在美國最核心的AI領域里,DeepSeek又扎進去了一根新的刺。

本文來源:鳳凰科技

鳳凰科技

網友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部