頂級“禮遇”。 一覺醒來,OpenAI和Claude母公司都對DeepSeek出手了。 據(jù)《金融時報》消息,OpenAI表示已經(jīng)發(fā)現(xiàn)證據(jù),證明DeepSeek利用他們的模型進(jìn)行訓(xùn)練,這涉嫌侵犯知識產(chǎn)權(quán)。 具體來說,他們發(fā)現(xiàn)了DeepSeek“蒸餾”O(jiān)penAI模型的跡象。即使用更大模型的輸出來提高較小模型的性能,從而以較低成本在特定任務(wù)上取得類似結(jié)果。 微軟也開始調(diào)查DeepSeek是否使用OpenAI的API。 消息一出,最先迎來的是一波嘲諷。 紐約大學(xué)教授馬庫斯率先開噴:
知名技術(shù)媒體404 Media創(chuàng)始人及主編Jason也直接在文章里貼臉開大,暗諷OpenAI只許州官放火。
而另一邊,Claude母公司Anthropic創(chuàng)始人Dario Amodei洋洋灑灑發(fā)了一篇長文大談DeepSeek。 他表示,說DeepSeek構(gòu)成威脅太夸張了,“也就是我們7-10個月前的水準(zhǔn)”,Claude 3.5 Sonnet在許多內(nèi)部和外部評估中依舊遙遙領(lǐng)先。
好家伙,為了圍剿DeepSeek,競對OpenAI和Anthropic罕見都罕見聯(lián)手了。 相比之下,微軟的做法就耐人尋味了許多。 就在指控DeepSeek涉嫌侵權(quán)之后幾個小時后,微軟的AI平臺上接入了DeepSeek模型。 網(wǎng)友:俗話說,否認(rèn)是接受的第一步。 AI領(lǐng)域常見技術(shù),但違反OpenAI條款 各方消息匯總來看,微軟和OpenAI對DeepSeek的質(zhì)疑還處于調(diào)查中。 根據(jù)微軟工作人員的說法,DeepSeek可能在去年秋天調(diào)用了OpenAI的API,這可能導(dǎo)致數(shù)據(jù)泄露。 按照OpenAI的服務(wù)條款規(guī)定,任何人都可以注冊使用OpenAI的API,但是不能使用輸出數(shù)據(jù)訓(xùn)練對OpenAI造成競爭威脅的模型。 OpenAI告訴《金融時報》,他們發(fā)現(xiàn)了一些模型蒸餾的證據(jù),他們懷疑這是DeepSeek的所作所為。 目前,OpenAI拒絕進(jìn)一步置評,也不愿提供證據(jù)細(xì)節(jié)。 那么不妨先來看看,引發(fā)爭議的模型蒸餾是什么。 它是一種模型壓縮技術(shù),通過將一個復(fù)雜的、計算開銷大的大模型(稱為教師模型)的知識“蒸餾”到一個更小、更高效的模型(稱為學(xué)生模型)。 在諾獎得主、深度學(xué)習(xí)之父Hinton的論文《Distilling the Knowledge in a Neural Network》中指出:
比如Together AI前段時間的工作,就是把Llama 3蒸餾到Mamba,實現(xiàn)推理速度最高提升1.6倍,性能還更強。 IBM對知識蒸餾的文章中也提到,大多數(shù)情況下最領(lǐng)先的LLM對計算、成本提出太高要求……知識蒸餾已經(jīng)成為一種重要手段,能將大模型的先進(jìn)能力移植到更小的(通常是)開源模型中。因此,它已經(jīng)成為生成式AI普惠化的一個重要工具。 在行業(yè)內(nèi),一些開源模型的服務(wù)條款允許蒸餾。比如Llama,DeepSeek此前也在論文中表示使用了Llama。 而且關(guān)鍵是,DeepSeek R1并非只是簡單蒸餾模型,OpenAI首席科學(xué)家Mark Chen表示:
同時他也認(rèn)可了DeepSeek在成本控制上的工作,并提到蒸餾技術(shù)的趨勢,表示OpenAI也在積極探索模型壓縮和優(yōu)化技術(shù),降低成本。 所以總結(jié)一下,模型蒸餾技術(shù)在學(xué)術(shù)界、工業(yè)界都非常普遍且被認(rèn)可,但是違反OpenAI的服務(wù)條款。 這河貍嗎?不知道。 但問題是,OpenAI自己本身在合規(guī)性上也大有問題。 (眾所周知)OpenAI訓(xùn)練模型把互聯(lián)網(wǎng)上的數(shù)據(jù)扒了個干凈,這其中除了免費公開的知識內(nèi)容外,還包含大量有版權(quán)的文章作品。 2023年12月,《紐約時報》以侵犯知識產(chǎn)權(quán)為由,將微軟OpenAI一起告上法庭。目前這個官司還沒有最終判定結(jié)果,OpenAI這一年時間里就自己的行為向法院進(jìn)行多次解釋。 包括但不限于: 1、使用公開可獲得的互聯(lián)網(wǎng)資料訓(xùn)練AI模型是合理的,這在AI領(lǐng)域內(nèi)有諸多先例,我們認(rèn)為這對創(chuàng)作者是公平的,對于創(chuàng)新是必要的。 2、長期以來,版權(quán)著作被非商業(yè)性使用(比如訓(xùn)練大模型)是受到合理保護(hù)的。 3、大語言模型的關(guān)鍵是Scaling,這意味著任何單獨被盜的內(nèi)容都不足以支撐訓(xùn)練出一個大語言模型,這正是OpenAI模型為何領(lǐng)先。 也就是說,OpenAI本身都在違規(guī)使用《紐約時報》的數(shù)據(jù)訓(xùn)練閉源、商業(yè)化的大模型,F(xiàn)在他們要以違規(guī)為由,調(diào)查打造系列開源模型的DeepSeek。 再退一步,OpenAI如今的成就也是建立在谷歌的基礎(chǔ)上(Transformer架構(gòu)由谷歌提出),谷歌的成就是站立在更早期的學(xué)術(shù)研究基礎(chǔ)上。 404 Media表示,這其實是人工智能領(lǐng)域發(fā)展的基本邏輯。 “DeepSeek模型只在成本上領(lǐng)先” 就在OpenAI挑起矛盾的同時,Anthropic也下場了。 創(chuàng)始人Dario Amodei在個人博客中表達(dá)了對DeepSeek的看法。 他表示并沒有把DeepSeek看做是競爭對手,認(rèn)為DS最新模型的水平和他們7-10個月前相當(dāng),只是成本大幅降低。
同時他還認(rèn)為,DeepSeek整個公司的成本投入(非單個模型訓(xùn)練成本)和Anthropic的AI實驗室差不多。 奧特曼幾乎保持了同樣的口徑。 他承認(rèn)DeepSeek R1讓人印象深刻(尤其是成本),但OpenAI“很明顯會帶來更好的模型”。 這也是他的常規(guī)操作了,之前V3發(fā)布時,他就陰陽怪氣說:相對而言,復(fù)制確定有用的東西是很容易的。 那么DeepSeek R1的價值究竟幾何? 分析師郭明錤最新博客給出參考: DeepSeek R1的出現(xiàn),讓兩個趨勢更加值得關(guān)注——雖然沒有R1這兩個趨勢也依然存在,但R1加速了它們的發(fā)生。 一是在Scaling Law放緩的情況下,AI算力仍可透過優(yōu)化訓(xùn)練方式持續(xù)成長,并有利挖掘新應(yīng)用。 過去1-2年,投資者對AI服務(wù)器供應(yīng)鏈的投資邏輯,主要基于AI服務(wù)器的出貨量在Scaling Law依然有效的情況下可持續(xù)增長。 但Scaling law的邊際效益開始逐漸遞減,市場開始關(guān)注以DeepSeek為代表的通過Scaling law以外的方式顯著提升模型效益的路徑。 第二個趨勢是API/Token價格的顯著下滑,有利于加速AI應(yīng)用的多元化。 郭明錤認(rèn)為,目前從生成式AI趨勢中獲利的方式,主要還是“賣鏟子”和降低成本,而不是創(chuàng)造新業(yè)務(wù)或提升既有業(yè)務(wù)的附加值。 而DeepSeek-R1的定價策略,會帶動生成式AI的整體使用成本下降,這有助于增加AI算力需求,并且可以降低投資人對AI投資能否獲利的疑慮。 不過,使用量的提升程度能否抵消價格降低帶來的影響,仍然有待觀察。 同時,郭明錤表示,只有大量部署者才會遇到Scaling law邊際效益的放緩,因此當(dāng)邊際效益再度加速時,英偉達(dá)將依然是贏家。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選