AI爬蟲陷阱：反擊網絡數據掠奪，令AI模型中毒！

zero comment

讓AI爬蟲感到困惑

AI反對者建立陷阱來捕捉和欺騙忽視robots.txt的AI爬蟲。攻擊者解釋如何將反垃圾郵件防禦變成了一種AI武器。

在去年的夏天，Anthropic因其ClaudeBot AI爬蟲被指控每天對網站發動超過一百萬次的攻擊而引發了反彈。這並不是唯一一家因為據稱忽視robots.txt文件而引起關注的人工智慧公司。大約在同一時間，Reddit的CEO也公開指責所有AI公司，稱其爬蟲“很難阻止”，儘管科技行業普遍同意遵循“無爬取”的robots.txt規則。

在這場爭議中，一名軟件開發者（我們稱他為Aaron）注意到Facebook的爬蟲在他的網站上超過3000萬次訪問後，開始策劃一種新的攻擊方式，目的是讓那些“轟炸”網站的爬蟲感到“痛苦”，他告訴Ars，希望能給robots.txt帶來一些“實質性的效果”。

基於一種名為“tarpitting”的反垃圾郵件網絡安全策略，他創建了Nepenthes，這是一種惡意軟件，名稱來源於一種食蟲植物，會“吞噬任何進入其內部的東西”。

Aaron明確警告用戶，Nepenthes是一種激進的惡意軟件。對於不願意捕捉AI爬蟲並將它們送入“無限迷宮”的網站擁有者，他建議不要使用此工具。這些爬蟲會被困在靜態文件中，沒有出口鏈接，會“卡住”並“掙扎”數月之久。一旦被捕，爬蟲可以被餵以無意義的數據，即Markov胡言亂語，旨在毒化AI模型。對於那些像Aaron一樣，厭倦了為AI爬取支付費用的網站擁有者來說，這無疑是一個吸引人的附加功能。

Tarpits最初是設計來浪費垃圾郵件發送者的時間和資源，但像Aaron這樣的創造者已將這一策略演變為一種反AI武器。到目前為止，Aaron確認Nepenthes能有效捕捉所有主要的網絡爬蟲，迄今為止，只有OpenAI的爬蟲成功逃脫。

目前尚不清楚tarpits或其他AI攻擊能造成多少損害。去年五月，微軟合作夥伴技術總監Laxmi Korada發表了一份報告，詳細介紹了領先的AI公司如何應對毒化，這是最早部署的AI防禦策略之一。他指出，所有公司都已開發出毒化的對策，而OpenAI則“相當警惕”，在檢測“數據毒化嘗試的第一個跡象”方面表現出色。

儘管有這些努力，他的結論是數據毒化對機器學習模型構成了“嚴重威脅”。到2025年，tarpitting代表了一種新威脅，可能在AI公司重金投資並快速競爭創新的同時，增加新數據的成本，這些公司卻很少實現顯著利潤。

Nepenthes的解釋中寫道：“從您的網站鏈接到Nepenthes的位置將淹沒您網站域名內的有效URL，這使得爬蟲不太可能訪問實際內容。”

AI公司對此的反應

唯一對Ars的評論請求作出回應的AI公司是OpenAI，其發言人確認OpenAI已在研究對抗tarpitting的方法。“我們意識到有關破壞AI網絡爬蟲的努力，”OpenAI的發言人表示。“我們設計系統時，考慮了抵抗能力，同時尊重robots.txt和標準的網絡實踐。”

但對於Aaron來說，這場鬥爭並不在於贏，而是在於抵抗AI行業進一步衰退互聯網的技術，這些技術是沒有人要求的，比如取代客戶服務代表的聊天機器人或不準確的AI搜索摘要。通過發布Nepenthes，他希望能造成盡可能多的損害，或許會提高公司的AI訓練成本，拖延訓練過程，甚至加速模型崩潰，讓tarpits幫助延遲下一波的“惡化”。

“最終，這就像我成長時所愛的互聯網早已不復存在，”Aaron告訴Ars。“我已經厭倦了，你知道嗎？讓我們反擊，即使這不成功。變得無法消化。長出尖刺。”

Nepenthes的迅速興起

Nepenthes於一月中旬發布，但在技術記者Cory Doctorow的推廣下，迅速超出了Aaron的預期，令他感到驚訝。Doctorow讚揚這種新型AI攻擊方法，隨即引發了激烈的討論，Aaron驚訝地看到Nepenthes的參與度激增。

“那時我意識到，‘哦，這將會成為某種東西，’”Aaron告訴Ars。“我對它如此迅速的發展感到震驚。”

目前尚不清楚Nepenthes的部署範圍。網站擁有者不願意標記這種惡意軟件的使用，讓爬蟲面對未知的“後果”，如果它們忽視robots.txt的指令。

Aaron告訴Ars，雖然“少數”網站擁有者已經聯繫過他，“大多數人保持沉默”，但他的網絡伺服器日誌顯示，已經有人在部署這個工具。很可能，網站擁有者希望保護自己的內容，阻止爬取，或對AI公司進行干擾。

當軟件開發者和黑客Gergely Nagy（網上稱為“algernon”）看到Nepenthes時，他感到非常高興。在那時，Nagy告訴Ars，他的伺服器幾乎所有的帶寬都被AI爬蟲“吞噬”。

他已經在阻止爬取並試圖通過更簡單的方法毒化AI模型，Nagy將他的防禦方法進一步提升，創建了自己的tarpit——Iocaine。他告訴Ars，這個tarpit立即消除了大約94%的機器人流量，這些流量主要來自AI爬蟲。隨後，社交媒體的討論推動了用戶詢問Iocaine的部署，包括不僅僅是個人，還有希望採取更強措施來阻止爬取的組織。

Iocaine借鑒了Nepenthes的理念（而不是代碼），但更專注於利用tarpit毒化AI模型。Nagy使用反向代理將爬蟲困在“無限垃圾迷宮”中，試圖慢慢毒化它們的數據收集，因為它們無視robots.txt。

Iocaine的名稱來自於《公主新娘》中“已知的最致命毒藥”之一，Nagy開玩笑稱它是“已知對AI最致命的毒藥”。雖然無法驗證這一說法，但Nagy的座右銘是，越多的毒化攻擊出現，“越好”。他告訴Ars，他創建Iocaine的主要原因是幫助權利擁有者封鎖有價值的內容，阻止AI爬蟲肆意爬取。

Tarpits並不是對付AI的完美武器

運行像Nepenthes這樣的惡意軟件也會對伺服器造成負擔。Aaron將運行Nepenthes的成本比作在Raspberry Pi上運行廉價虛擬機，而Nagy則表示運行Iocaine的成本與他的網站相當。

但Aaron告訴Ars，Nepenthes資源浪費是他所見到的主要反對意見。批評者擔心廣泛部署Nepenthes不僅會增加伺服器的負擔，還會無謂地提高AI爬蟲的運行成本。

“這似乎是他們最擔心的事情，”Aaron告訴Ars。“AI模型所需的能量已經是天文數字，而我讓它變得更糟。我對此的看法是，好的，如果我什麼都不做，AI模型將使地球變得炎熱。如果我啟動這個，它們也會使地球變得炎熱。這怎麼可能是我的錯？”

Aaron還通過建議更廣泛的影響可能會減緩AI投資，從而可能抑制一些能源消耗來為自己辯護。或許由於抵抗，AI公司將被迫在爬取之前尋求許可，或者同意支付更多的內容創作者以獲取其數據的訓練費用。

“每當這些爬蟲從我的tarpit中提取資源時，這都是它們消耗的資源，並且必須為此支付現金，但由於這些數據毫無意義，這些投入的資金不會通過收入得到回報，”Aaron在線上解釋他的策略。“這有效地提高了它們的成本。考慮到它們都尚未實現利潤，這對於它們來說是一個大問題。投資者的資金不會永遠存在，除非投資者能夠獲得回報。”

Nagy同意，反AI攻擊越多，對它們的影響潛力就越大。通過發布Iocaine，Nagy顯示了社交媒體關於新攻擊的討論可以在幾天內激發出新的工具。獨立軟件開發者Marcus Butler也在幾天內建立了他的毒化攻擊工具Quixotic，並告訴Ars不久後收到了其他人構建他工具版本的消息。

Butler不屬於想要摧毀AI的陣營。他告訴Ars，他不認為“像Quixotic（或Nepenthes）這樣的工具會‘燒毀AI’。”相反，他持有更為謹慎的立場，認為“這些工具提供了一些保護（非常有限的保護）以防止爬蟲竊取內容，並將其轉發或用於訓練目的。”

但對於某些網絡用戶來說，每一點保護似乎都有所幫助。Geuter將Ars連結到一個旨在破壞AI的工具列表。最終，他預期像Nepenthes這樣的工具“可能在長期內不會有用”，因為AI公司可能會檢測並排除訓練數據中的胡言亂語。但Geuter告訴Ars，Nepenthes代表著一種變革，為那些“在無休止的爬取面前感到無助”的人提供了一個有用的工具，並顯示出“沒有選擇或替代品的故事是錯誤的”。

對tarpits作為AI武器的批評

在Hacker News上辯論Nepenthes的實用性時，批評者指出，大多數AI爬蟲可以輕易避開像Nepenthes這樣的tarpits，其中一位評論者將該攻擊描述為“非常基本的爬蟲技術”。Aaron表示這是他“最喜歡的評論”，因為如果tarpits被視為初級攻擊，他有“200萬行訪問日誌顯示Google沒有畢業”。

但毒化AI或浪費AI資源的努力不僅僅是干擾科技行業。全球各國政府都在尋求利用AI解決社會問題，而對AI韌性的攻擊似乎威脅到這一進展。

Nathan VanHoudnos是卡內基梅隆大學軟件工程研究所CERT部門的高級AI安全研究科學家，該部門與學術界、行業、執法機構和政府合作，以“改善計算機系統和網絡的安全性和韌性”。他告訴Ars，像tarpits這樣的新威脅似乎重複了AI公司已經非常清楚的問題：“你從互聯網上下載的某些東西可能對你不好。”

“聽起來這些tarpit創造者只是想造成一些麻煩，”VanHoudnos說。“他們希望讓這些人更難獲取他們所尋找的‘更好或不同’的數據。”

VanHoudnos在去年八月共同撰寫了一篇關於“反AI”的論文，指出像Aaron和Nagy這樣的攻擊者在多大程度上能干擾AI模型是有限的。他們可能對收集的訓練數據有“影響”，但可能無法控制數據的標籤，無法訪問訓練模型或AI系統。

此外，AI公司正越來越多地轉向深網以獲取獨特數據，因此，任何試圖用tarpits封鎖有價值內容的努力可能正值表面網絡爬取開始減緩之際，VanHoudnos建議道。

但根據VanHoudnos的說法，AI爬蟲“相對便宜”，如果“有更高優先級的資產”受到攻擊，則公司可能會降低對抗新爬蟲攻擊的優先級。而tarpitting“確實需要認真對待，因為這是整個系統生命週期中工具的一部分。沒有萬能的解決方案，但這是一個有趣的工具。”

提供選擇以拒絕AI訓練

Aaron告訴Ars，他從未打算讓Nepenthes成為一個重大項目，但他偶爾會花時間修復漏洞或添加新功能。他表示，如果需求足夠，他會考慮為爬蟲實時反應的集成工作。

目前，Aaron預測Nepenthes可能對希望AI公司支付費用以爬取其數據的權利擁有者最具吸引力。許多人似乎對使用它來加強robots.txt的想法感到興奮。但“一些最令人興奮的人則屬於‘讓它燃燒’的類別，”Aaron表示。這些人因Nepenthes而吸引，將其視為對抗AI使互聯網對用戶變得不那麼有用和愉快的手段。

Geuter告訴Ars，他認為Nepenthes“更像是一種社會政治聲明，而不是真正的技術解決方案（因為它試圖解決的問題不僅僅是技術的，而是社會的、政治的、法律的，需要更大的槓桿）。”

對於Geuter來說，這位已經寫了二十年關於技術的社會、政治和結構影響的計算機科學家來說，AI是“最具侵略性”的例子，代表著“技術不是為我們而建，而是對我們而建”。

“這感覺有點像社會和技術部門/工程之間的社會契約（你們建造有用的東西，我們就會對你們的富裕感到滿意）已經從一方被取消，”Geuter說。“而這一方現在想要讓它的玩具吞噬整個世界。人們感到受到威脅，想要停止這些威脅。”

隨著AI的進化，攻擊也隨之演變，2021年的一項研究顯示，越來越強的數據毒化攻擊能夠突破數據清理防禦。無論這些攻擊是否能造成有意義的破壞，Geuter將tarpits視為Aaron和Nagy自願加入的“抵抗”的“強大象徵”。

“看到人們挑戰我們都必須做AI的觀念，真是一個好跡象，”Geuter說。“因為我們不必這樣做。這是一個選擇。這個選擇大多數是有利於壟斷者的。”

像Nagy這樣的tarpit創造者將會觀察毒化攻擊是否繼續增長其複雜性。在Iocaine網站上——是的，這個網站也被Iocaine保護不被爬取——他發佈了這樣的行動呼籲：“讓我們讓AI毒化成為常態。如果我們都這樣做，他們就沒有任何東西可供爬取。”

這篇文章引發了對AI爬蟲的討論，無論是出於保護自身內容的需要，還是出於對AI技術不斷侵入的反感，這些反抗行為都顯示出互聯網使用者對於自主權的渴望。隨著AI技術的進一步發展，這場鬥爭可能不會就此結束，反而會引發更多的創新和反擊行動。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

AI爬蟲陷阱：反擊網絡數據掠奪，令AI模型中毒！

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

chatgpt

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

AI爬蟲陷阱：反擊網絡數據掠奪，令AI模型中毒！

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

chatgpt

Related Articles

MIT創新PaTH Attention提升大型語言模型長文理解力

Google CC晨早郵件助理 助你輕鬆掌控一日行程

Google Stitch AI：幾分鐘搞掂專業App設計！

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

Google CC晨早郵件助理助你輕鬆掌控一日行程