AI爬蟲陷阱:反擊網絡數據掠奪,令AI模型中毒!

Ai

讓AI爬蟲感到困惑

AI反對者建立陷阱來捕捉和欺騙忽視robots.txt的AI爬蟲。攻擊者解釋如何將反垃圾郵件防禦變成了一種AI武器。

在去年的夏天,Anthropic因其ClaudeBot AI爬蟲被指控每天對網站發動超過一百萬次的攻擊而引發了反彈。這並不是唯一一家因為據稱忽視robots.txt文件而引起關注的人工智慧公司。大約在同一時間,Reddit的CEO也公開指責所有AI公司,稱其爬蟲“很難阻止”,儘管科技行業普遍同意遵循“無爬取”的robots.txt規則。

在這場爭議中,一名軟件開發者(我們稱他為Aaron)注意到Facebook的爬蟲在他的網站上超過3000萬次訪問後,開始策劃一種新的攻擊方式,目的是讓那些“轟炸”網站的爬蟲感到“痛苦”,他告訴Ars,希望能給robots.txt帶來一些“實質性的效果”。

基於一種名為“tarpitting”的反垃圾郵件網絡安全策略,他創建了Nepenthes,這是一種惡意軟件,名稱來源於一種食蟲植物,會“吞噬任何進入其內部的東西”。

Aaron明確警告用戶,Nepenthes是一種激進的惡意軟件。對於不願意捕捉AI爬蟲並將它們送入“無限迷宮”的網站擁有者,他建議不要使用此工具。這些爬蟲會被困在靜態文件中,沒有出口鏈接,會“卡住”並“掙扎”數月之久。一旦被捕,爬蟲可以被餵以無意義的數據,即Markov胡言亂語,旨在毒化AI模型。對於那些像Aaron一樣,厭倦了為AI爬取支付費用的網站擁有者來說,這無疑是一個吸引人的附加功能。

Tarpits最初是設計來浪費垃圾郵件發送者的時間和資源,但像Aaron這樣的創造者已將這一策略演變為一種反AI武器。到目前為止,Aaron確認Nepenthes能有效捕捉所有主要的網絡爬蟲,迄今為止,只有OpenAI的爬蟲成功逃脫。

目前尚不清楚tarpits或其他AI攻擊能造成多少損害。去年五月,微軟合作夥伴技術總監Laxmi Korada發表了一份報告,詳細介紹了領先的AI公司如何應對毒化,這是最早部署的AI防禦策略之一。他指出,所有公司都已開發出毒化的對策,而OpenAI則“相當警惕”,在檢測“數據毒化嘗試的第一個跡象”方面表現出色。

儘管有這些努力,他的結論是數據毒化對機器學習模型構成了“嚴重威脅”。到2025年,tarpitting代表了一種新威脅,可能在AI公司重金投資並快速競爭創新的同時,增加新數據的成本,這些公司卻很少實現顯著利潤。

Nepenthes的解釋中寫道:“從您的網站鏈接到Nepenthes的位置將淹沒您網站域名內的有效URL,這使得爬蟲不太可能訪問實際內容。”

AI公司對此的反應

唯一對Ars的評論請求作出回應的AI公司是OpenAI,其發言人確認OpenAI已在研究對抗tarpitting的方法。“我們意識到有關破壞AI網絡爬蟲的努力,”OpenAI的發言人表示。“我們設計系統時,考慮了抵抗能力,同時尊重robots.txt和標準的網絡實踐。”

但對於Aaron來說,這場鬥爭並不在於贏,而是在於抵抗AI行業進一步衰退互聯網的技術,這些技術是沒有人要求的,比如取代客戶服務代表的聊天機器人或不準確的AI搜索摘要。通過發布Nepenthes,他希望能造成盡可能多的損害,或許會提高公司的AI訓練成本,拖延訓練過程,甚至加速模型崩潰,讓tarpits幫助延遲下一波的“惡化”。

“最終,這就像我成長時所愛的互聯網早已不復存在,”Aaron告訴Ars。“我已經厭倦了,你知道嗎?讓我們反擊,即使這不成功。變得無法消化。長出尖刺。”

Nepenthes的迅速興起

Nepenthes於一月中旬發布,但在技術記者Cory Doctorow的推廣下,迅速超出了Aaron的預期,令他感到驚訝。Doctorow讚揚這種新型AI攻擊方法,隨即引發了激烈的討論,Aaron驚訝地看到Nepenthes的參與度激增。

“那時我意識到,‘哦,這將會成為某種東西,’”Aaron告訴Ars。“我對它如此迅速的發展感到震驚。”

目前尚不清楚Nepenthes的部署範圍。網站擁有者不願意標記這種惡意軟件的使用,讓爬蟲面對未知的“後果”,如果它們忽視robots.txt的指令。

Aaron告訴Ars,雖然“少數”網站擁有者已經聯繫過他,“大多數人保持沉默”,但他的網絡伺服器日誌顯示,已經有人在部署這個工具。很可能,網站擁有者希望保護自己的內容,阻止爬取,或對AI公司進行干擾。

當軟件開發者和黑客Gergely Nagy(網上稱為“algernon”)看到Nepenthes時,他感到非常高興。在那時,Nagy告訴Ars,他的伺服器幾乎所有的帶寬都被AI爬蟲“吞噬”。

他已經在阻止爬取並試圖通過更簡單的方法毒化AI模型,Nagy將他的防禦方法進一步提升,創建了自己的tarpit——Iocaine。他告訴Ars,這個tarpit立即消除了大約94%的機器人流量,這些流量主要來自AI爬蟲。隨後,社交媒體的討論推動了用戶詢問Iocaine的部署,包括不僅僅是個人,還有希望採取更強措施來阻止爬取的組織。

Iocaine借鑒了Nepenthes的理念(而不是代碼),但更專注於利用tarpit毒化AI模型。Nagy使用反向代理將爬蟲困在“無限垃圾迷宮”中,試圖慢慢毒化它們的數據收集,因為它們無視robots.txt。

Iocaine的名稱來自於《公主新娘》中“已知的最致命毒藥”之一,Nagy開玩笑稱它是“已知對AI最致命的毒藥”。雖然無法驗證這一說法,但Nagy的座右銘是,越多的毒化攻擊出現,“越好”。他告訴Ars,他創建Iocaine的主要原因是幫助權利擁有者封鎖有價值的內容,阻止AI爬蟲肆意爬取。

Tarpits並不是對付AI的完美武器

運行像Nepenthes這樣的惡意軟件也會對伺服器造成負擔。Aaron將運行Nepenthes的成本比作在Raspberry Pi上運行廉價虛擬機,而Nagy則表示運行Iocaine的成本與他的網站相當。

但Aaron告訴Ars,Nepenthes資源浪費是他所見到的主要反對意見。批評者擔心廣泛部署Nepenthes不僅會增加伺服器的負擔,還會無謂地提高AI爬蟲的運行成本。

“這似乎是他們最擔心的事情,”Aaron告訴Ars。“AI模型所需的能量已經是天文數字,而我讓它變得更糟。我對此的看法是,好的,如果我什麼都不做,AI模型將使地球變得炎熱。如果我啟動這個,它們也會使地球變得炎熱。這怎麼可能是我的錯?”

Aaron還通過建議更廣泛的影響可能會減緩AI投資,從而可能抑制一些能源消耗來為自己辯護。或許由於抵抗,AI公司將被迫在爬取之前尋求許可,或者同意支付更多的內容創作者以獲取其數據的訓練費用。

“每當這些爬蟲從我的tarpit中提取資源時,這都是它們消耗的資源,並且必須為此支付現金,但由於這些數據毫無意義,這些投入的資金不會通過收入得到回報,”Aaron在線上解釋他的策略。“這有效地提高了它們的成本。考慮到它們都尚未實現利潤,這對於它們來說是一個大問題。投資者的資金不會永遠存在,除非投資者能夠獲得回報。”

Nagy同意,反AI攻擊越多,對它們的影響潛力就越大。通過發布Iocaine,Nagy顯示了社交媒體關於新攻擊的討論可以在幾天內激發出新的工具。獨立軟件開發者Marcus Butler也在幾天內建立了他的毒化攻擊工具Quixotic,並告訴Ars不久後收到了其他人構建他工具版本的消息。

Butler不屬於想要摧毀AI的陣營。他告訴Ars,他不認為“像Quixotic(或Nepenthes)這樣的工具會‘燒毀AI’。”相反,他持有更為謹慎的立場,認為“這些工具提供了一些保護(非常有限的保護)以防止爬蟲竊取內容,並將其轉發或用於訓練目的。”

但對於某些網絡用戶來說,每一點保護似乎都有所幫助。Geuter將Ars連結到一個旨在破壞AI的工具列表。最終,他預期像Nepenthes這樣的工具“可能在長期內不會有用”,因為AI公司可能會檢測並排除訓練數據中的胡言亂語。但Geuter告訴Ars,Nepenthes代表著一種變革,為那些“在無休止的爬取面前感到無助”的人提供了一個有用的工具,並顯示出“沒有選擇或替代品的故事是錯誤的”。

對tarpits作為AI武器的批評

在Hacker News上辯論Nepenthes的實用性時,批評者指出,大多數AI爬蟲可以輕易避開像Nepenthes這樣的tarpits,其中一位評論者將該攻擊描述為“非常基本的爬蟲技術”。Aaron表示這是他“最喜歡的評論”,因為如果tarpits被視為初級攻擊,他有“200萬行訪問日誌顯示Google沒有畢業”。

但毒化AI或浪費AI資源的努力不僅僅是干擾科技行業。全球各國政府都在尋求利用AI解決社會問題,而對AI韌性的攻擊似乎威脅到這一進展。

Nathan VanHoudnos是卡內基梅隆大學軟件工程研究所CERT部門的高級AI安全研究科學家,該部門與學術界、行業、執法機構和政府合作,以“改善計算機系統和網絡的安全性和韌性”。他告訴Ars,像tarpits這樣的新威脅似乎重複了AI公司已經非常清楚的問題:“你從互聯網上下載的某些東西可能對你不好。”

“聽起來這些tarpit創造者只是想造成一些麻煩,”VanHoudnos說。“他們希望讓這些人更難獲取他們所尋找的‘更好或不同’的數據。”

VanHoudnos在去年八月共同撰寫了一篇關於“反AI”的論文,指出像Aaron和Nagy這樣的攻擊者在多大程度上能干擾AI模型是有限的。他們可能對收集的訓練數據有“影響”,但可能無法控制數據的標籤,無法訪問訓練模型或AI系統。

此外,AI公司正越來越多地轉向深網以獲取獨特數據,因此,任何試圖用tarpits封鎖有價值內容的努力可能正值表面網絡爬取開始減緩之際,VanHoudnos建議道。

但根據VanHoudnos的說法,AI爬蟲“相對便宜”,如果“有更高優先級的資產”受到攻擊,則公司可能會降低對抗新爬蟲攻擊的優先級。而tarpitting“確實需要認真對待,因為這是整個系統生命週期中工具的一部分。沒有萬能的解決方案,但這是一個有趣的工具。”

提供選擇以拒絕AI訓練

Aaron告訴Ars,他從未打算讓Nepenthes成為一個重大項目,但他偶爾會花時間修復漏洞或添加新功能。他表示,如果需求足夠,他會考慮為爬蟲實時反應的集成工作。

目前,Aaron預測Nepenthes可能對希望AI公司支付費用以爬取其數據的權利擁有者最具吸引力。許多人似乎對使用它來加強robots.txt的想法感到興奮。但“一些最令人興奮的人則屬於‘讓它燃燒’的類別,”Aaron表示。這些人因Nepenthes而吸引,將其視為對抗AI使互聯網對用戶變得不那麼有用和愉快的手段。

Geuter告訴Ars,他認為Nepenthes“更像是一種社會政治聲明,而不是真正的技術解決方案(因為它試圖解決的問題不僅僅是技術的,而是社會的、政治的、法律的,需要更大的槓桿)。”

對於Geuter來說,這位已經寫了二十年關於技術的社會、政治和結構影響的計算機科學家來說,AI是“最具侵略性”的例子,代表著“技術不是為我們而建,而是對我們而建”。

“這感覺有點像社會和技術部門/工程之間的社會契約(你們建造有用的東西,我們就會對你們的富裕感到滿意)已經從一方被取消,”Geuter說。“而這一方現在想要讓它的玩具吞噬整個世界。人們感到受到威脅,想要停止這些威脅。”

隨著AI的進化,攻擊也隨之演變,2021年的一項研究顯示,越來越強的數據毒化攻擊能夠突破數據清理防禦。無論這些攻擊是否能造成有意義的破壞,Geuter將tarpits視為Aaron和Nagy自願加入的“抵抗”的“強大象徵”。

“看到人們挑戰我們都必須做AI的觀念,真是一個好跡象,”Geuter說。“因為我們不必這樣做。這是一個選擇。這個選擇大多數是有利於壟斷者的。”

像Nagy這樣的tarpit創造者將會觀察毒化攻擊是否繼續增長其複雜性。在Iocaine網站上——是的,這個網站也被Iocaine保護不被爬取——他發佈了這樣的行動呼籲:“讓我們讓AI毒化成為常態。如果我們都這樣做,他們就沒有任何東西可供爬取。”

這篇文章引發了對AI爬蟲的討論,無論是出於保護自身內容的需要,還是出於對AI技術不斷侵入的反感,這些反抗行為都顯示出互聯網使用者對於自主權的渴望。隨著AI技術的進一步發展,這場鬥爭可能不會就此結束,反而會引發更多的創新和反擊行動。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon