春節(jié)期間,一場(chǎng)關(guān)于 DeepSeek 的風(fēng)波正在 AI 圈掀起波瀾。 據(jù)彭博社最新報(bào)道,微軟安全研究人員在去年秋天發(fā)現(xiàn),一些可能與 DeepSeek 相關(guān)的個(gè)人通過 OpenAI 的 API 大規(guī)模提取數(shù)據(jù)。 知情人士透露,作為 OpenAI 的技術(shù)合作伙伴和最大金主,微軟在發(fā)現(xiàn)這一情況后立即通知了 OpenAI。 報(bào)道稱,這種行為可能違反 OpenAI 的服務(wù)條款。因?yàn)?OpenAI 的服務(wù)條款明確規(guī)定,用戶不得未經(jīng)授權(quán)使用自動(dòng)化或程序化方法從其服務(wù)中提取數(shù)據(jù)。 即使 DeepSeek 獲得了某種形式的 API 訪問權(quán)限,但如果其使用方式超出了 OpenAI 授權(quán)的范圍,比如用于非法或未經(jīng)授權(quán)的商業(yè)目的,也可能被視為違反服務(wù)條款。 對(duì)于相關(guān)置評(píng)請(qǐng)求,OpenAI 未作回應(yīng),微軟拒絕評(píng)論,而 DeepSeek 方也暫未回應(yīng)。 值得一提的是,此前許多外界人士認(rèn)為 通過模型蒸餾技術(shù),DeepSeek可能在訓(xùn)練過程中使用了 ChatGPT 等模型的輸出數(shù)據(jù)作為訓(xùn)練材料,而這些數(shù)據(jù)中的「知識(shí)」被遷移到 DeepSeek 自己的模型中。 事實(shí)上,這種做法在 AI 領(lǐng)域并不罕見。 但質(zhì)疑者關(guān)注的是 DeepSeek 是否在未充分披露的情況下使用了 OpenAI 模型的輸出數(shù)據(jù)。這似乎在 DeepSeek-V3 的自我認(rèn)知上也有所體現(xiàn)。 早前就有用戶發(fā)現(xiàn),當(dāng)詢問模型的身份時(shí),它會(huì)將自己誤認(rèn)為是 GPT-4。 DeepSeek 團(tuán)隊(duì)在最新模型 R1 的技術(shù)報(bào)告中明確表示未使用 OpenAI 模型的輸出數(shù)據(jù),并表示通過強(qiáng)化學(xué)習(xí)和獨(dú)特的訓(xùn)練策略實(shí)現(xiàn)了高性能。 例如,采用了多階段訓(xùn)練方式,包括基礎(chǔ)模型訓(xùn)練、強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練、微調(diào)等,這種多階段循環(huán)訓(xùn)練方式有助于模型在不同階段吸收不同的知識(shí)和能力。 彭博社報(bào)道還指出,美國(guó) AI 事務(wù)主管 David Sacks 近期在接受 Fox News 采訪時(shí)表示,有「確鑿證據(jù)」表明,DeepSeek 利用 OpenAI 模型的輸出數(shù)據(jù)來開發(fā)自身技術(shù)。 不過,Sacks 并未提供具體的證據(jù)。近期,美國(guó)多名官員也表示 DeepSeek有「偷竊」嫌疑,正對(duì)其影響開展國(guó)家安全調(diào)查。 針對(duì) David Sacks 的言論,OpenAI 的回應(yīng)則比較保守。其發(fā)言人表示「我們知道,來自中國(guó)的公司以及其他一些企業(yè),始終在嘗試『蒸餾』美國(guó)領(lǐng)先 AI 公司的模型。」 該發(fā)言人強(qiáng)調(diào),作為 AI 領(lǐng)域的領(lǐng)先者,OpenAI 已采取相應(yīng)對(duì)策來保護(hù)其知識(shí)產(chǎn)權(quán),其中包括對(duì)前沿能力的嚴(yán)格篩選,決定哪些功能可以公開發(fā)布。他們認(rèn)為與美國(guó)政府密切合作對(duì)于保護(hù)最先進(jìn)的 AI 模型至關(guān)重要。 就在這場(chǎng)爭(zhēng)議風(fēng)波持續(xù)發(fā)酵之際,外媒的目光也開始轉(zhuǎn)向 DeepSeek 更早發(fā)布的開源 V3 模型,后者則通過技術(shù)報(bào)告詳細(xì)披露了相關(guān)的深度底層優(yōu)化細(xì)節(jié)。 據(jù)外媒扒出,V3 模型的開發(fā)甚至繞過了 CUDA,通過對(duì)英偉達(dá) GPU 低級(jí)匯編語(yǔ)言 PTX 進(jìn)行優(yōu)化,從而實(shí)現(xiàn)了最大性能。 PTX 是英偉達(dá) GPU 的中間指令集架構(gòu),能夠?qū)崿F(xiàn)寄存器分配、線程 / 線程束級(jí)別調(diào)整等細(xì)粒度優(yōu)化。如果說 CUDA 是與英偉達(dá) GPU 對(duì)話的「高級(jí)語(yǔ)言」,那么 PTX 就像是一種「機(jī)器底層語(yǔ)言」。 想象你在玩一個(gè)游戲機(jī)。通常情況下,我們只需要用手柄(就像 CUDA)就能玩游戲,這很方便,但可能無法發(fā)揮游戲機(jī)的全部實(shí)力。 而 PTX 就像是打開了游戲機(jī)的后蓋,直接調(diào)整里面的各種配件和線路。雖然這樣做很復(fù)雜,需要懂得很多專業(yè)知識(shí),但是可以讓游戲機(jī)跑得更快、性能更好。 更通俗的解釋是,PTX 就是一種能夠讓開發(fā)者「掀開 GPU 的蓋子」,直接調(diào)教其內(nèi)部運(yùn)作方式的工具。這就像是改裝汽車,不是簡(jiǎn)單地踩油門,而是直接調(diào)教發(fā)動(dòng)機(jī)的每個(gè)零件,以榨取最大性能。 DeepSeek 在訓(xùn)練 V3 模型時(shí),對(duì) H800 GPU 進(jìn)行了重新配置,包括劃分出 20 個(gè) SM 用于服務(wù)器間通信,以及實(shí)現(xiàn)了流水線算法,優(yōu)化能力遠(yuǎn)超常規(guī) CUDA 開發(fā)水平。而倘若這一技術(shù)屬實(shí),或?qū)⒑硠?dòng)英偉達(dá)構(gòu)筑已久的護(hù)城河。 圖片截圖來自 DeepSeek v3 技術(shù)報(bào)告 不過,PTX 雖然能極大地優(yōu)化性能,但也對(duì)開發(fā)團(tuán)隊(duì)提出了更高的要求。相比之下,英偉達(dá)的護(hù)城河 CUDA 憑借其開發(fā)便捷性和快速迭代的優(yōu)勢(shì),仍然是大多數(shù)開發(fā)者的首選。 更重要的是,PTX 優(yōu)化往往需要針對(duì)特定型號(hào)的硬件進(jìn)行定制。 這種「量體裁衣」式的優(yōu)化策略雖然效果顯著,但也大大增加了開發(fā)難度和維護(hù)成本。這也解釋了為什么在可預(yù)見的未來,CUDA 仍將在主流開發(fā)中占據(jù)主導(dǎo)地位。 但在既有規(guī)則之外尋求突破,往往就是顛覆的開始,DeepSeek 這次在海內(nèi)外掀起的技術(shù)浪潮或?qū)⒂型藙?dòng)整個(gè) AI 產(chǎn)業(yè)鏈的既有秩序。 本文來源:APPSO
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。