首頁 > 科技要聞 > 科技> 正文

Claude團隊引眾怒,為爬數(shù)據(jù)不擇手段,給爬蟲改名字無視禁止規(guī)則

量子位 整合編輯:太平洋科技 發(fā)布于:2024-08-01 15:59

Claude團隊這次惹了眾怒!

原因:24小時內(nèi)訪問某公司服務(wù)器100萬次,以不付費形式,爬蟲抓取網(wǎng)站內(nèi)容。

不僅明目張膽無視了“禁止爬取”的公告,還強行占用了服務(wù)器資源。

這家“受害者”公司其實盡力防御了,但阻止失敗,內(nèi)容數(shù)據(jù)還是被Claude抓走了。

公司負(fù)責(zé)人氣得吹胡子瞪眼,在x上激情開麥:

嘿,Anthropic,我知道您渴望數(shù)據(jù)。Claude真的很聰明!
但你造嗎,這一點也不!酷!哦!

許多網(wǎng)友為此憤憤不平,有個搞文案工作的網(wǎng)友留言稱:

我建議用‘偷’,而不是‘不付費’來描述Anthropic的這種行為!

一時之間,群情激憤!

支持聲討的,要求Claude付費的,評論區(qū)簡直亂成一鍋粥了。

這是怎么回事

強烈譴責(zé)Anthropic的這家公司叫做iFixit,是一家美國電子商務(wù)和操作指南網(wǎng)站。

iFixit的業(yè)務(wù)的一部分,是為消費電子產(chǎn)品和小工具提供類維基百科的免費在線維修指南。

網(wǎng)站內(nèi)有數(shù)百萬個頁面,包括修理指南、指南的修訂歷史、博客、新聞帖子和研究、論壇、社區(qū)貢獻的修理指南和問答部分等。

但,iFixit突然發(fā)現(xiàn),Claude的爬蟲程序ClaudeBot在幾個小時內(nèi),每分鐘都有數(shù)千次請求訪問。

這約等于一天內(nèi)訪問其網(wǎng)站近百萬次。

據(jù)統(tǒng)計,它一天內(nèi)訪問了10 TB的文件,整個5月份總計訪問了73 TB。

為此,iFixit的CEO老K(Kyle Wiens)丟下一句話:

未經(jīng)許可,ClaudeBot偷走我們所有的數(shù)據(jù),還把我們的服務(wù)器占滿了……Fine,這也沒什么大不了。
不知道它有沒有爬到我們的許可說明??

對你沒看錯,「未經(jīng)許可」。

iFixit其實有寫聲明——

未經(jīng)iFixit明確事先書面許可,嚴(yán)禁因為任何其他目的(包括訓(xùn)練機器學(xué)習(xí)或人工智能模型)復(fù)制、復(fù)制或分發(fā)本網(wǎng)站上的任何內(nèi)容、材料或設(shè)計元素。

然并卵。

Claude不僅視若無睹地繼續(xù)瘋狂訪問-抓取,還躲避了iFixit的防御。

iFixit其實成功阻止了兩個Anthropic的AI抓取機器人,分別名為“ANTHROPIC-AI”和“CLAUDE-WEB”。

但這倆AI抓取機器人似乎已經(jīng)是過去式了,目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。

逼不得已,老K表示,iFixit本周修改了robots.txt文件,專門用來阻止Anthropic的爬蟲機器人。

那,Anthropic那邊有啥反應(yīng)不?

它們倒是沒有閉麥,對媒體回應(yīng)道:

ANTHROPIC-AI 和 CLAUDE-WEB 這倆確實是公司使用過的舊爬蟲,但現(xiàn)在已經(jīng)停止使用了。

當(dāng)然了,Anthropic回避了現(xiàn)在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問題。

AI公司不是第一次干這事兒了

翻看Anthropic的官方網(wǎng)站可以發(fā)現(xiàn),早就掛著一篇名為《Anthropic是否從網(wǎng)絡(luò)上抓取數(shù)據(jù)?網(wǎng)站所有者如何阻止抓取工具?》的文章。

里面提到:

根據(jù)行業(yè)標(biāo)準(zhǔn),Anthropic使用各種數(shù)據(jù)源進行模型開發(fā),例如通過網(wǎng)絡(luò)爬蟲收集的來自互聯(lián)網(wǎng)的公開數(shù)據(jù)。

我們的爬取不應(yīng)具有侵入性或破壞性。

我們的目標(biāo)是通過考慮爬取相同域的速度,并在適當(dāng)?shù)那闆r下尊重爬行延遲來將干擾降到最低。

但一片輿論聲中不難發(fā)現(xiàn),Anthropic顯然不是這么做的。

它,未經(jīng)允許爬取別人數(shù)據(jù),老慣犯了。

就說今年4月的時候,Linux Mint論壇就慘遭被爬。

在幾個小時中,ClaudeBot多次訪問論壇爬取數(shù)據(jù),導(dǎo)致論壇在幾個小時內(nèi)處于超低速or崩潰狀態(tài),最終完全崩掉。

有人表示,在同一時間內(nèi),ClaudeBot占用的流量獨占鰲頭,是第二名的20倍、第三名的40倍。

在4月事件和本次事件的討論貼中,都有人建議:

既然放禁爬取公告沒有用,那不放在網(wǎng)站中搞一些帶有可追蹤or獨特信息的虛假信息,以便檢測是誰偷走了數(shù)據(jù)。

iFixit確實也這么做了。

而且真的有用——發(fā)現(xiàn)自家網(wǎng)站的信息不僅被Claude爬個底朝天,還被OpenAI也爬走了……

講道理,有什么辦法呢?真的一點辦法也沒有。

因為除了Claude和GPT以外,這樣強行偷家的AI挺不少的。

前幾天就有一家名為Tollbit的機器人檢測初創(chuàng)公司聲稱Perplexity、Claude、OpenAI會忽略爬取網(wǎng)站上的robots.txt設(shè)置——當(dāng)時有人跑去問了OpenAI的態(tài)度,OpenAI不予置評。

再往前看,上個月也鬧過一次。

《福布斯》譴責(zé)AI搜索產(chǎn)品Perplexity涉嫌抄襲其新聞文章;一石激起千層浪,更多媒體站出來,指責(zé)Perplexity的爬蟲機器人PerplexityBot非法抓取自家網(wǎng)站信息。

而Perplexity一直的態(tài)度都是:

尊重出版商不抓取內(nèi)容的要求,并且在合理使用版權(quán)法的范圍內(nèi)運營。

理論上講,不管是ClaudeBot還是PerplexityBot,在遇到標(biāo)明“禁止抓取”“禁止robot.txt”的文件時,都應(yīng)該遵從協(xié)議,規(guī)避爬取聲明方網(wǎng)站的內(nèi)容。

既然聲明無效,就有人呼吁創(chuàng)作者把內(nèi)容盡可能轉(zhuǎn)移到付費區(qū)域,來防止無限制的抓取。

你覺得這樣的辦法會有效嗎?

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部