萬萬沒想到,能把一家公司網(wǎng)站給搞宕機(jī)的元兇,竟然是OpenAI瘋狂爬蟲的機(jī)器人——GPTBot。 (GPTBot是OpenAI早年前推出的一款工具,用來自動(dòng)抓取整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)。) 就在這兩天,一家7人團(tuán)隊(duì)公司(Triplegangers)的網(wǎng)站突然宕機(jī),CEO和員工們趕忙排查問題到底出在的哪里。 不查不知道,一查嚇一跳。 罪魁禍?zhǔn)渍荗penAI的GPTBot。 從CEO的描述中來看,OpenAI爬蟲的“攻勢(shì)”是有點(diǎn)瘋狂在身上的: 我們有超過65000種產(chǎn)品,每種產(chǎn)品都有一個(gè)頁面,然后每個(gè)頁面還都有至少三張圖片。 OpenAI正在發(fā)送數(shù)以萬計(jì)的服務(wù)器請(qǐng)求,試圖下載所有內(nèi)容,包括數(shù)十萬張照片及其詳細(xì)描述。 在分析了公司上周的日志之后,團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),OpenAI使用了不止600個(gè)IP地址抓取數(shù)據(jù)。 △Triplegangers服務(wù)器日志:OpenAI機(jī)器人未經(jīng)許可瘋狂爬蟲如此規(guī)模的爬蟲,就導(dǎo)致這家公司網(wǎng)站的宕機(jī),CEO甚至無奈地表示: 這基本上就是一場(chǎng)DDoS攻擊。 更重要的一點(diǎn)是,由于OpenAI瘋狂地爬蟲,還會(huì)引發(fā)了大量的CPU使用和數(shù)據(jù)下載活動(dòng),從而導(dǎo)致網(wǎng)站在云計(jì)算服務(wù)(AWS)方面的資源消耗劇增,開銷就會(huì)大幅增長(zhǎng)…… 嗯,AI大公司瘋狂爬蟲,卻由小公司來買單。 這家小型團(tuán)隊(duì)的遭遇,也是引發(fā)了不少網(wǎng)友們的討論,有人認(rèn)為GPTBot的做法并不是抓取,更像是“偷竊”的委婉說法: 也有網(wǎng)友現(xiàn)身表示有類似的經(jīng)歷,自從阻止了大公司的批量AI爬蟲,省了一大筆錢: 被爬蟲到宕機(jī),還不知道被爬走了什么 那么OpenAI為什么要爬蟲這家初創(chuàng)企業(yè)的數(shù)據(jù)? 簡(jiǎn)單來說,它家的數(shù)據(jù)確實(shí)屬于高質(zhì)量的那種。 據(jù)了解,Triplegangers的7名成員花費(fèi)了十多年的時(shí)間,打造了號(hào)稱最大“人類數(shù)字孿生”數(shù)據(jù)庫 網(wǎng)站包含從實(shí)際人類模型掃描的3D圖像文件,并且照片還帶有詳細(xì)的標(biāo)簽,涵蓋種族、年齡、紋身與疤痕、各種體型等信息。 這對(duì)于需要數(shù)字化再現(xiàn)真實(shí)人類特征的3D藝術(shù)家、游戲制作者等,無疑具有重要價(jià)值。 雖然Triplegangers網(wǎng)站上有一個(gè)服務(wù)條款頁面,里面明確寫了禁止未經(jīng)許可的AI抓取他們家的圖片。 但從目前的結(jié)果上來看,這完全沒有起到任何作用。 重點(diǎn)在于,Triplegangers沒有正確配置一個(gè)文件——robots.txt。 robots.txt也稱為機(jī)器人排除協(xié)議,是為了告訴搜索引擎網(wǎng)站在索引網(wǎng)絡(luò)時(shí)不要爬取哪些內(nèi)容而創(chuàng)建的。 也就是說,一個(gè)網(wǎng)站要是不想被OpenAI爬蟲,那就必須正確配置robots.txt文件,并帶有特定標(biāo)簽,明確告訴GPTBot不要訪問該網(wǎng)站。 但OpenAI除了GPTBot之外,還有ChatGPT-User和OAI-SearchBot,它倆也有各自對(duì)應(yīng)的標(biāo)簽: 而且根據(jù)OpenAI官方發(fā)布的爬蟲信息來看,即便你立即正確設(shè)置了robots.txt文件,也不會(huì)立即生效。 因?yàn)镺penAI識(shí)別更新這個(gè)文件可能需要24個(gè)小時(shí)…… CEO老哥對(duì)此表示: 如果一個(gè)網(wǎng)站沒有正確配置robots.txt文件,那么OpenAI和其它公司會(huì)認(rèn)為他們可以隨心所欲地抓取內(nèi)容。 這不是一個(gè)可選的系統(tǒng)。 正因如此,也就有了Triplegangers在工作時(shí)間段網(wǎng)站被搞宕機(jī),還搭上了高額的AWS費(fèi)用。 截至美東時(shí)間的本周三,Triplegangers已經(jīng)按照要求配置了正確的robots.txt文件。 以防萬一,團(tuán)隊(duì)還設(shè)置了一個(gè)Cloudflare賬戶來阻止其它的AI爬蟲,如Barkrowler和Bytespider。 雖然到了周四開工的時(shí)候,Triplegangers沒有再出現(xiàn)宕機(jī)的情況,但CEO老哥還有個(gè)懸而未決的困惑—— 不知道OpenAI都從網(wǎng)站中爬了些什么數(shù)據(jù),也聯(lián)系不上OpenAI…… 而且令CEO老哥更加深表擔(dān)憂的一點(diǎn)是: 如果不是GPTBot“貪婪”到讓我們的網(wǎng)站宕機(jī),我們可能不知道它一直在爬取我們的數(shù)據(jù)。 這個(gè)過程是有bug的,即便你們AI大公司說了可以配置robots.txt來防止爬蟲,但你們把責(zé)任推到了我們身上。 最后,CEO老哥也呼吁眾多在線企業(yè),要想防止大公司未經(jīng)允許爬蟲,一定要主動(dòng)、積極地去查找問題。 并不是第一例 但Triplegangers并不是第一個(gè)因?yàn)镺penAI瘋狂爬蟲導(dǎo)致宕機(jī)的公司。 在此之前,還有Game UI Database這家公司。 它收錄了超56000張游戲用戶界面截圖的在線數(shù)據(jù)庫,用于供游戲設(shè)計(jì)師參考。 有一天,團(tuán)隊(duì)發(fā)現(xiàn)網(wǎng)站加載速度變慢,頁面加載時(shí)間延長(zhǎng)三倍,用戶頻繁遭遇502錯(cuò)誤,首頁每秒被重新加載200次。 他們一開始也以為是遭到了DDoS攻擊,結(jié)果一查日志……是OpenAI,每秒查詢2次,導(dǎo)致網(wǎng)站幾乎癱瘓。 但你以為如此瘋狂爬蟲的只有OpenAI嗎? 非也,非也。 例如Anthropic此前也被曝出來過類似的事情。 數(shù)字產(chǎn)品工作室Planetary的創(chuàng)始人Joshua Gross曾表示過,他們給客戶重新設(shè)計(jì)的網(wǎng)站上線后,流量激增,導(dǎo)致客戶云成本翻倍。 經(jīng)審計(jì)發(fā)現(xiàn),大量流量來自抓取機(jī)器人,主要是Anthropic導(dǎo)致的無意義流量,大量請(qǐng)求都返回404錯(cuò)誤。 針對(duì)這一現(xiàn)象,來自數(shù)字廣告公司DoubleVerify的一份新研究顯示,AI爬蟲在2024 年導(dǎo)致“一般無效流量”(不是來自真實(shí)用戶的流量)增加了86%。 那么AI公司,尤其是大模型公司,為什么要如此瘋狂地“吸食”網(wǎng)絡(luò)上的數(shù)據(jù)? 一言蔽之,就是他們太缺用來訓(xùn)練的高質(zhì)量數(shù)據(jù)了。 有研究估計(jì)過,到2032年全球可用的AI訓(xùn)練數(shù)據(jù)可能就會(huì)耗盡,這就讓AI公司加快了數(shù)據(jù)收集的速度。 也正因如此,OpenAI谷歌等AI公司為了獲取更多“獨(dú)家”視頻用于AI訓(xùn)練,現(xiàn)在也正紛紛向UP主們重金求購(gòu)那些“從未公開”的視頻。 而且連價(jià)格都標(biāo)好了,如果是為YouTube、Instagram和TikTok準(zhǔn)備的未發(fā)布視頻, 每分鐘出價(jià)為1~2美元(總體一般是1~4美元),且根據(jù)視頻質(zhì)量和格式的不同,價(jià)格還能再漲漲。 那么你對(duì)這一現(xiàn)象有什么看法呢?歡迎在評(píng)論區(qū)留言討論~ 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。