在大模型競賽中,數(shù)據(jù)短缺危機正越來越嚴峻。 最近《紐約時報》的一項調(diào)查顯示,為了獲得大量且高質(zhì)量的訓練數(shù)據(jù),包括OpenAI、Google和Meta在內(nèi)的科技公司紛紛走捷徑,忽視平臺政策,在違法邊緣瘋狂試探。 其中OpenAI通過語音轉(zhuǎn)錄工具Whisper,收集了超100萬小時的YouTube視頻文本,作為GPT-4的訓練數(shù)據(jù)。 《紐約時報》報道封面 AI公司正瘋狂從互聯(lián)網(wǎng)上獲取各類數(shù)據(jù)以訓練AI大模型,但這是否合法、符合平臺政策呢? 一場圍繞數(shù)據(jù)資源的權(quán)益爭奪戰(zhàn)已在創(chuàng)作者、內(nèi)容平臺和AI公司之間展開。 AI“肥料”不足, OpenAI瘋狂轉(zhuǎn)錄YouTube視頻 據(jù)《紐約時報》報道,OpenAI多年來一直在收集數(shù)據(jù)、清理數(shù)據(jù),并將其輸入到一個龐大的文本池中,以訓練大型語言模型。 這些數(shù)據(jù)包括來自Github的計算機代碼、國際象棋數(shù)據(jù)庫、來自Quizlet的高中考試題和作業(yè)內(nèi)容等。 到了2021年底,OpenAI已經(jīng)耗盡了互聯(lián)網(wǎng)上所有可靠的英文文本資源,急需更多數(shù)據(jù)來訓練下一代模型GPT-4。 為此,OpenAI內(nèi)部商量了幾個方案:轉(zhuǎn)錄播客、有聲讀物和YouTube視頻;用AI系統(tǒng)從頭開始創(chuàng)建數(shù)據(jù);收購已經(jīng)收集了大量數(shù)字數(shù)據(jù)的初創(chuàng)公司。 OpenAI的研究團隊后來創(chuàng)建了一個名為Whisper的語音識別工具,用于轉(zhuǎn)錄YouTube視頻和播客,生成新的對話文本,以進一步提高AI的智能程度。 Whisper博客:https://openai.com/research/whisper 三名知情人士表示,OpenAI員工知道這樣做會涉足法律灰色地帶,可能違反YouTube的規(guī)則。Google旗下的YouTube禁止將其視頻用于“獨立”的應用程序,還禁止通過“任何自動化手段(如機器人或爬蟲)”訪問其視頻。 但OpenAI團隊認為用視頻訓練AI是合理使用,最終還是轉(zhuǎn)錄了超過100萬小時的YouTube視頻。 知情人士稱,OpenAI總裁Greg Brockman領(lǐng)導了開發(fā)GPT-4的團隊,他親自參與收集了這些YouTube視頻,然后將其輸入至GPT-4。 除了OpenAI,Meta、Google等科技公司也采取了類似的措施。 據(jù)Meta去年初的內(nèi)部會議錄音,Meta的生成式AI副總裁Ahmad Al-Dahle稱,團隊已經(jīng)使用了互聯(lián)網(wǎng)上幾乎所有可用的英文書籍、論文、詩歌和新聞文章來開發(fā)模型,除非Meta獲得更多數(shù)據(jù),否則無法匹敵ChatGPT。 2023年3月和4月,Meta團隊考慮收購出版社Simon & Schuster以獲取其長篇作品的授權(quán),以及討論了如何在未經(jīng)許可的情況下,從互聯(lián)網(wǎng)上收集受版權(quán)保護的數(shù)據(jù),即使這將帶來訴訟。 他們提到,如果與出版商、藝術(shù)家、音樂家和新聞行業(yè)談判授權(quán)的話,會耗費太長時間。 Meta曾表示,已經(jīng)從Instagram和Facebook獲取了數(shù)十億公開共享的圖像和視頻來訓練其模型。 有知情人士稱,Google也轉(zhuǎn)錄了YouTube視頻來訓練自家的AI模型,并在去年擴大了其服務條款。 此前的隱私政策稱,Google只能使用公開信息來“幫助訓練Google的語言模型并構(gòu)建Google翻譯等功能”,更改后的條款擴大了AI技術(shù)適用范圍,Google可以利用數(shù)據(jù)“訓練AI模型并構(gòu)建Google翻譯、Bard和Cloud AI等產(chǎn)品和功能”。 Google隱私政策修改 Google的內(nèi)部消息顯示,這一變化的目的之一是為了讓Google能利用公開的Google文檔、Google地圖上的餐廳評論等其他在線數(shù)據(jù),來完善其AI產(chǎn)品。 創(chuàng)作者紛紛起訴AI侵權(quán) 開發(fā)更大更強的AI,意味著需要看似無盡的數(shù)據(jù)資源。從新聞報道、出版作品,到網(wǎng)絡(luò)留言、博客文章、社交平臺上的照片和視頻等等,互聯(lián)網(wǎng)上的各類數(shù)據(jù)正成為AI行業(yè)發(fā)展的重要基石。 而對于創(chuàng)作者來說,AI公司使用他們的作品來訓練模型,存在侵犯版權(quán)和道德問題。 《紐約時報》去年底起訴OpenAI和微軟,稱其在未經(jīng)許可的情況下使用受版權(quán)保護的新聞文章來訓練AI聊天機器人。OpenAI和微軟回應稱這是“合理使用”,或者說受版權(quán)法保護的。 去年好萊塢罷工也涉及AI相關(guān)權(quán)利的爭議。電影制作人、演員Justine Bateman是美國演員工會(SAG-AFTRA)的AI顧問,她認為AI模型在未經(jīng)許可或付費的情況下獲取內(nèi)容(包括她的作品和電影),“這是美國最大的盜竊案”。 近期,包括知名歌手Billie Eilish、Nicki Minaj等在內(nèi)的200多名藝術(shù)家簽署了一封公開信,要求科技公司承諾不開發(fā)破壞或取代人類創(chuàng)意的AI工具,“我們必須防止AI被掠奪性地用來竊取專業(yè)創(chuàng)作者的聲音和肖像,侵犯創(chuàng)作者的權(quán)利,并破壞音樂生態(tài)系統(tǒng)”。 面對創(chuàng)作者的抗議,內(nèi)容平臺也亮明了態(tài)度。 YouTube首席執(zhí)行官Neal Mohan近日在接受彭博社采訪時強調(diào),下載YouTube視頻,然后用于訓練Sora等AI模型顯然違反了YouTube現(xiàn)行的相關(guān)條款。 他承認Google在訓練Gemini模型時“使用了YouTube上的一些內(nèi)容”,但在使用前已得到創(chuàng)作者的授權(quán),這是YouTube與創(chuàng)作者之間的協(xié)議所允許的。 Google發(fā)言人Matt Bryant針對隱私政策的變更回應稱,Google沒有在未經(jīng)用戶“明確許可”的情況下使用Google文檔或相關(guān)應用的信息來訓練AI,條款中指的是一個允許用戶測試實驗性功能的自愿計劃。 AI合成數(shù)據(jù)可行嗎 回顧AI大模型的進程,2020年之前,大多數(shù)AI模型使用的訓練數(shù)據(jù)比現(xiàn)在小得多。 AI大模型訓練數(shù)據(jù)量變化,圖源《紐約時報》 直到約翰·霍普金斯大學理論物理學家Jared Kaplan發(fā)表了一篇關(guān)于AI的開創(chuàng)性論文,發(fā)現(xiàn)訓練大型語言模型所需的數(shù)據(jù)越多,它的性能就越好。 此后,“規(guī)模即一切(Scale Is All You Need)”很快成為AI研究的口號。 論文地址:https://arxiv.org/pdf/2001.08361.pdf OpenAI在2020年11月推出了GPT-3,它是當時訓練數(shù)據(jù)量最大的模型——約3000億個token。Google旗下的AI實驗室DeepMind更進一步,在2022年測試了400個AI模型,其中一個模型Chinchilla接受了1.4萬億token的訓練。 不過這一紀錄沒有維持多久。去年,中國的研究人員發(fā)布了一個AI模型Skywork,中英文文本訓練數(shù)據(jù)量達3.2萬億token。Google的PaLM 2更是超過3.6萬億token。 研究機構(gòu)Epoch表示,AI公司使用數(shù)據(jù)的速度比產(chǎn)生數(shù)據(jù)的速度更快,最早到2026年,互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)可能被使用殆盡。 如何解決“數(shù)據(jù)荒”以及一系列產(chǎn)業(yè)問題,成了當下AI發(fā)展的焦點。 面對數(shù)據(jù)短缺危機,科技公司正在開發(fā)“合成數(shù)據(jù)”(Synthetic data),即使用AI生成的文本、圖像和代碼,讓AI從自己生成的內(nèi)容中進行學習。 OpenAI發(fā)言人Lindsay Held告訴The Verge,OpenAI的每個模型都擁有獨特的數(shù)據(jù)集,他們的數(shù)據(jù)來源眾多,包括公開數(shù)據(jù)和非公開數(shù)據(jù)的合作伙伴,并且正在考慮生成自己的合成數(shù)據(jù)。 Sam Altman曾表示,未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)。既然AI模型可以產(chǎn)生類似人類的文本,那么也可以創(chuàng)建額外的數(shù)據(jù)來開發(fā)更好的AI,這將減少團隊對版權(quán)數(shù)據(jù)的依賴。 不少業(yè)內(nèi)人士推測,Sora可能已經(jīng)通過使用了基于數(shù)據(jù)驅(qū)動的Unreal Engine5大量生成了合成數(shù)據(jù)作為訓練集。 但構(gòu)建一個可以自我訓練的AI系統(tǒng)說起來容易,做起來難。從自己的輸出中學習的AI模型可能會陷入一個死循環(huán),不斷強化自己的怪癖、錯誤和局限。 “這些AI系統(tǒng)需要的數(shù)據(jù)就像在叢林中尋找出路,”前OpenAI研究員Jeff Clune說,“如果它們只在合成數(shù)據(jù)上訓練,很可能會在叢林中迷路! 為了對抗這一點,OpenAI和其他公司正在研究兩個不同的AI模型如何合作生成更有用、更可靠的合成數(shù)據(jù)。一個AI產(chǎn)生數(shù)據(jù),另一個評估信息以分離好的數(shù)據(jù)和壞的。不過這種方法是否有效仍未得到研究證實。 此外,目前海外已有Scale AI、Gretel.ai等企業(yè)開始給外界提供合成數(shù)據(jù)服務。 國內(nèi)方面,清華大學蘇世民書院院長、人工智能國際治理研究院院長薛瀾在近期的公開演講中談到,中國的數(shù)據(jù)量很大,但沒有真正產(chǎn)業(yè)化,相對標準化的數(shù)據(jù)服務商還比較少,因為大數(shù)據(jù)服務不賺錢,公共數(shù)據(jù)企業(yè)沒有意愿去清洗,定制化服務又一般收費比較高。因此,數(shù)據(jù)市場如何構(gòu)建也是需要解決的問題。 參考文章: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google https://www.bloomberg.com/news/articles/2024-04-04/youtube-says-openai-training-sora-with-its-videos-would-break-the-rules?utm_source=website&utm_medium=share&utm_campaign=copy https://baijiahao.baidu.com/s?id=1795539096138279593&wfr=spider&for=pc 文章來源:頭號AI玩家 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選