Claude團隊這次惹了眾怒! 原因:24小時內(nèi)訪問某公司服務(wù)器100萬次,以不付費形式,爬蟲抓取網(wǎng)站內(nèi)容。 不僅明目張膽無視了“禁止爬取”的公告,還強行占用了服務(wù)器資源。 這家“受害者”公司其實盡力防御了,但阻止失敗,內(nèi)容數(shù)據(jù)還是被Claude抓走了。 公司負(fù)責(zé)人氣得吹胡子瞪眼,在x上激情開麥: 嘿,Anthropic,我知道您渴望數(shù)據(jù)。Claude真的很聰明! 許多網(wǎng)友為此憤憤不平,有個搞文案工作的網(wǎng)友留言稱: “我建議用‘偷’,而不是‘不付費’來描述Anthropic的這種行為! 一時之間,群情激憤! 支持聲討的,要求Claude付費的,評論區(qū)簡直亂成一鍋粥了。 這是怎么回事 強烈譴責(zé)Anthropic的這家公司叫做iFixit,是一家美國電子商務(wù)和操作指南網(wǎng)站。 iFixit的業(yè)務(wù)的一部分,是為消費電子產(chǎn)品和小工具提供類維基百科的免費在線維修指南。 網(wǎng)站內(nèi)有數(shù)百萬個頁面,包括修理指南、指南的修訂歷史、博客、新聞帖子和研究、論壇、社區(qū)貢獻的修理指南和問答部分等。 但,iFixit突然發(fā)現(xiàn),Claude的爬蟲程序ClaudeBot在幾個小時內(nèi),每分鐘都有數(shù)千次請求訪問。 這約等于一天內(nèi)訪問其網(wǎng)站近百萬次。 據(jù)統(tǒng)計,它一天內(nèi)訪問了10 TB的文件,整個5月份總計訪問了73 TB。 為此,iFixit的CEO老K(Kyle Wiens)丟下一句話: 未經(jīng)許可,ClaudeBot偷走我們所有的數(shù)據(jù),還把我們的服務(wù)器占滿了……Fine,這也沒什么大不了。 對你沒看錯,「未經(jīng)許可」。 iFixit其實有寫聲明—— 未經(jīng)iFixit明確事先書面許可,嚴(yán)禁因為任何其他目的(包括訓(xùn)練機器學(xué)習(xí)或人工智能模型)復(fù)制、復(fù)制或分發(fā)本網(wǎng)站上的任何內(nèi)容、材料或設(shè)計元素。 然并卵。 Claude不僅視若無睹地繼續(xù)瘋狂訪問-抓取,還躲避了iFixit的防御。 iFixit其實成功阻止了兩個Anthropic的AI抓取機器人,分別名為“ANTHROPIC-AI”和“CLAUDE-WEB”。 但這倆AI抓取機器人似乎已經(jīng)是過去式了,目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。 逼不得已,老K表示,iFixit本周修改了robots.txt文件,專門用來阻止Anthropic的爬蟲機器人。 那,Anthropic那邊有啥反應(yīng)不? 它們倒是沒有閉麥,對媒體回應(yīng)道: ANTHROPIC-AI 和 CLAUDE-WEB 這倆確實是公司使用過的舊爬蟲,但現(xiàn)在已經(jīng)停止使用了。 當(dāng)然了,Anthropic回避了現(xiàn)在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問題。 AI公司不是第一次干這事兒了 翻看Anthropic的官方網(wǎng)站可以發(fā)現(xiàn),早就掛著一篇名為《Anthropic是否從網(wǎng)絡(luò)上抓取數(shù)據(jù)?網(wǎng)站所有者如何阻止抓取工具?》的文章。 里面提到: 根據(jù)行業(yè)標(biāo)準(zhǔn),Anthropic使用各種數(shù)據(jù)源進行模型開發(fā),例如通過網(wǎng)絡(luò)爬蟲收集的來自互聯(lián)網(wǎng)的公開數(shù)據(jù)。 我們的爬取不應(yīng)具有侵入性或破壞性。 我們的目標(biāo)是通過考慮爬取相同域的速度,并在適當(dāng)?shù)那闆r下尊重爬行延遲來將干擾降到最低。 但一片輿論聲中不難發(fā)現(xiàn),Anthropic顯然不是這么做的。 它,未經(jīng)允許爬取別人數(shù)據(jù),老慣犯了。 就說今年4月的時候,Linux Mint論壇就慘遭被爬。 在幾個小時中,ClaudeBot多次訪問論壇爬取數(shù)據(jù),導(dǎo)致論壇在幾個小時內(nèi)處于超低速or崩潰狀態(tài),最終完全崩掉。 有人表示,在同一時間內(nèi),ClaudeBot占用的流量獨占鰲頭,是第二名的20倍、第三名的40倍。 在4月事件和本次事件的討論貼中,都有人建議: 既然放禁爬取公告沒有用,那不放在網(wǎng)站中搞一些帶有可追蹤or獨特信息的虛假信息,以便檢測是誰偷走了數(shù)據(jù)。 iFixit確實也這么做了。 而且真的有用——發(fā)現(xiàn)自家網(wǎng)站的信息不僅被Claude爬個底朝天,還被OpenAI也爬走了…… 講道理,有什么辦法呢?真的一點辦法也沒有。 因為除了Claude和GPT以外,這樣強行偷家的AI挺不少的。 前幾天就有一家名為Tollbit的機器人檢測初創(chuàng)公司聲稱Perplexity、Claude、OpenAI會忽略爬取網(wǎng)站上的robots.txt設(shè)置——當(dāng)時有人跑去問了OpenAI的態(tài)度,OpenAI不予置評。 再往前看,上個月也鬧過一次。 《福布斯》譴責(zé)AI搜索產(chǎn)品Perplexity涉嫌抄襲其新聞文章;一石激起千層浪,更多媒體站出來,指責(zé)Perplexity的爬蟲機器人PerplexityBot非法抓取自家網(wǎng)站信息。 而Perplexity一直的態(tài)度都是: 尊重出版商不抓取內(nèi)容的要求,并且在合理使用版權(quán)法的范圍內(nèi)運營。 理論上講,不管是ClaudeBot還是PerplexityBot,在遇到標(biāo)明“禁止抓取”“禁止robot.txt”的文件時,都應(yīng)該遵從協(xié)議,規(guī)避爬取聲明方網(wǎng)站的內(nèi)容。 既然聲明無效,就有人呼吁創(chuàng)作者把內(nèi)容盡可能轉(zhuǎn)移到付費區(qū)域,來防止無限制的抓取。 你覺得這樣的辦法會有效嗎? 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選