春節(jié)期間,一場關(guān)于 DeepSeek 的風(fēng)波正在 AI 圈掀起波瀾。 據(jù)彭博社最新報道,微軟安全研究人員在去年秋天發(fā)現(xiàn),一些可能與 DeepSeek 相關(guān)的個人通過 OpenAI 的 API 大規(guī)模提取數(shù)據(jù)。 知情人士透露,作為 OpenAI 的技術(shù)合作伙伴和最大金主,微軟在發(fā)現(xiàn)這一情況后立即通知了 OpenAI。 報道稱,這種行為可能違反 OpenAI 的服務(wù)條款。因?yàn)?OpenAI 的服務(wù)條款明確規(guī)定,用戶不得未經(jīng)授權(quán)使用自動化或程序化方法從其服務(wù)中提取數(shù)據(jù)。 即使 DeepSeek 獲得了某種形式的 API 訪問權(quán)限,但如果其使用方式超出了 OpenAI 授權(quán)的范圍,比如用于非法或未經(jīng)授權(quán)的商業(yè)目的,也可能被視為違反服務(wù)條款。 對于相關(guān)置評請求,OpenAI 未作回應(yīng),微軟拒絕評論,而 DeepSeek 方也暫未回應(yīng)。 值得一提的是,此前許多外界人士認(rèn)為 通過模型蒸餾技術(shù),DeepSeek可能在訓(xùn)練過程中使用了 ChatGPT 等模型的輸出數(shù)據(jù)作為訓(xùn)練材料,而這些數(shù)據(jù)中的「知識」被遷移到 DeepSeek 自己的模型中。 事實(shí)上,這種做法在 AI 領(lǐng)域并不罕見。 但質(zhì)疑者關(guān)注的是 DeepSeek 是否在未充分披露的情況下使用了 OpenAI 模型的輸出數(shù)據(jù)。這似乎在 DeepSeek-V3 的自我認(rèn)知上也有所體現(xiàn)。 早前就有用戶發(fā)現(xiàn),當(dāng)詢問模型的身份時,它會將自己誤認(rèn)為是 GPT-4。 DeepSeek 團(tuán)隊在最新模型 R1 的技術(shù)報告中明確表示未使用 OpenAI 模型的輸出數(shù)據(jù),并表示通過強(qiáng)化學(xué)習(xí)和獨(dú)特的訓(xùn)練策略實(shí)現(xiàn)了高性能。 例如,采用了多階段訓(xùn)練方式,包括基礎(chǔ)模型訓(xùn)練、強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練、微調(diào)等,這種多階段循環(huán)訓(xùn)練方式有助于模型在不同階段吸收不同的知識和能力。 彭博社報道還指出,美國 AI 事務(wù)主管 David Sacks 近期在接受 Fox News 采訪時表示,有「確鑿證據(jù)」表明,DeepSeek 利用 OpenAI 模型的輸出數(shù)據(jù)來開發(fā)自身技術(shù)。 不過,Sacks 并未提供具體的證據(jù)。近期,美國多名官員也表示 DeepSeek有「偷竊」嫌疑,正對其影響開展國家安全調(diào)查。 針對 David Sacks 的言論,OpenAI 的回應(yīng)則比較保守。其發(fā)言人表示「我們知道,來自中國的公司以及其他一些企業(yè),始終在嘗試『蒸餾』美國領(lǐng)先 AI 公司的模型! 該發(fā)言人強(qiáng)調(diào),作為 AI 領(lǐng)域的領(lǐng)先者,OpenAI 已采取相應(yīng)對策來保護(hù)其知識產(chǎn)權(quán),其中包括對前沿能力的嚴(yán)格篩選,決定哪些功能可以公開發(fā)布。他們認(rèn)為與美國政府密切合作對于保護(hù)最先進(jìn)的 AI 模型至關(guān)重要。 就在這場爭議風(fēng)波持續(xù)發(fā)酵之際,外媒的目光也開始轉(zhuǎn)向 DeepSeek 更早發(fā)布的開源 V3 模型,后者則通過技術(shù)報告詳細(xì)披露了相關(guān)的深度底層優(yōu)化細(xì)節(jié)。 據(jù)外媒扒出,V3 模型的開發(fā)甚至繞過了 CUDA,通過對英偉達(dá) GPU 低級匯編語言 PTX 進(jìn)行優(yōu)化,從而實(shí)現(xiàn)了最大性能。 PTX 是英偉達(dá) GPU 的中間指令集架構(gòu),能夠?qū)崿F(xiàn)寄存器分配、線程 / 線程束級別調(diào)整等細(xì)粒度優(yōu)化。如果說 CUDA 是與英偉達(dá) GPU 對話的「高級語言」,那么 PTX 就像是一種「機(jī)器底層語言」。 想象你在玩一個游戲機(jī)。通常情況下,我們只需要用手柄(就像 CUDA)就能玩游戲,這很方便,但可能無法發(fā)揮游戲機(jī)的全部實(shí)力。 而 PTX 就像是打開了游戲機(jī)的后蓋,直接調(diào)整里面的各種配件和線路。雖然這樣做很復(fù)雜,需要懂得很多專業(yè)知識,但是可以讓游戲機(jī)跑得更快、性能更好。 更通俗的解釋是,PTX 就是一種能夠讓開發(fā)者「掀開 GPU 的蓋子」,直接調(diào)教其內(nèi)部運(yùn)作方式的工具。這就像是改裝汽車,不是簡單地踩油門,而是直接調(diào)教發(fā)動機(jī)的每個零件,以榨取最大性能。 DeepSeek 在訓(xùn)練 V3 模型時,對 H800 GPU 進(jìn)行了重新配置,包括劃分出 20 個 SM 用于服務(wù)器間通信,以及實(shí)現(xiàn)了流水線算法,優(yōu)化能力遠(yuǎn)超常規(guī) CUDA 開發(fā)水平。而倘若這一技術(shù)屬實(shí),或?qū)⒑硠佑ミ_(dá)構(gòu)筑已久的護(hù)城河。 圖片截圖來自 DeepSeek v3 技術(shù)報告 不過,PTX 雖然能極大地優(yōu)化性能,但也對開發(fā)團(tuán)隊提出了更高的要求。相比之下,英偉達(dá)的護(hù)城河 CUDA 憑借其開發(fā)便捷性和快速迭代的優(yōu)勢,仍然是大多數(shù)開發(fā)者的首選。 更重要的是,PTX 優(yōu)化往往需要針對特定型號的硬件進(jìn)行定制。 這種「量體裁衣」式的優(yōu)化策略雖然效果顯著,但也大大增加了開發(fā)難度和維護(hù)成本。這也解釋了為什么在可預(yù)見的未來,CUDA 仍將在主流開發(fā)中占據(jù)主導(dǎo)地位。 但在既有規(guī)則之外尋求突破,往往就是顛覆的開始,DeepSeek 這次在海內(nèi)外掀起的技術(shù)浪潮或?qū)⒂型藙诱麄 AI 產(chǎn)業(yè)鏈的既有秩序。 本文來源:APPSO
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選