AI爬蟲陷阱:反擊網絡數據掠奪,令AI模型中毒!

Ai




讓AI爬蟲感到困惑

AI反對者建立陷阱來捕捉和欺騙忽視robots.txt的AI爬蟲。攻擊者解釋如何將反垃圾郵件防禦變成了一種AI武器。

在去年的夏天,Anthropic因其ClaudeBot AI爬蟲被指控每天對網站發動超過一百萬次的攻擊而引發了反彈。這並不是唯一一家因為據稱忽視robots.txt文件而引起關注的人工智慧公司。大約在同一時間,Reddit的CEO也公開指責所有AI公司,稱其爬蟲“很難阻止”,儘管科技行業普遍同意遵循“無爬取”的robots.txt規則。

在這場爭議中,一名軟件開發者(我們稱他為Aaron)注意到Facebook的爬蟲在他的網站上超過3000萬次訪問後,開始策劃一種新的攻擊方式,目的是讓那些“轟炸”網站的爬蟲感到“痛苦”,他告訴Ars,希望能給robots.txt帶來一些“實質性的效果”。

基於一種名為“tarpitting”的反垃圾郵件網絡安全策略,他創建了Nepenthes,這是一種惡意軟件,名稱來源於一種食蟲植物,會“吞噬任何進入其內部的東西”。

Aaron明確警告用戶,Nepenthes是一種激進的惡意軟件。對於不願意捕捉AI爬蟲並將它們送入“無限迷宮”的網站擁有者,他建議不要使用此工具。這些爬蟲會被困在靜態文件中,沒有出口鏈接,會“卡住”並“掙扎”數月之久。一旦被捕,爬蟲可以被餵以無意義的數據,即Markov胡言亂語,旨在毒化AI模型。對於那些像Aaron一樣,厭倦了為AI爬取支付費用的網站擁有者來說,這無疑是一個吸引人的附加功能。

Tarpits最初是設計來浪費垃圾郵件發送者的時間和資源,但像Aaron這樣的創造者已將這一策略演變為一種反AI武器。到目前為止,Aaron確認Nepenthes能有效捕捉所有主要的網絡爬蟲,迄今為止,只有OpenAI的爬蟲成功逃脫。

目前尚不清楚tarpits或其他AI攻擊能造成多少損害。去年五月,微軟合作夥伴技術總監Laxmi Korada發表了一份報告,詳細介紹了領先的AI公司如何應對毒化,這是最早部署的AI防禦策略之一。他指出,所有公司都已開發出毒化的對策,而OpenAI則“相當警惕”,在檢測“數據毒化嘗試的第一個跡象”方面表現出色。

儘管有這些努力,他的結論是數據毒化對機器學習模型構成了“嚴重威脅”。到2025年,tarpitting代表了一種新威脅,可能在AI公司重金投資並快速競爭創新的同時,增加新數據的成本,這些公司卻很少實現顯著利潤。

Nepenthes的解釋中寫道:“從您的網站鏈接到Nepenthes的位置將淹沒您網站域名內的有效URL,這使得爬蟲不太可能訪問實際內容。”

AI公司對此的反應

唯一對Ars的評論請求作出回應的AI公司是OpenAI,其發言人確認OpenAI已在研究對抗tarpitting的方法。“我們意識到有關破壞AI網絡爬蟲的努力,”OpenAI的發言人表示。“我們設計系統時,考慮了抵抗能力,同時尊重robots.txt和標準的網絡實踐。”

但對於Aaron來說,這場鬥爭並不在於贏,而是在於抵抗AI行業進一步衰退互聯網的技術,這些技術是沒有人要求的,比如取代客戶服務代表的聊天機器人或不準確的AI搜索摘要。通過發布Nepenthes,他希望能造成盡可能多的損害,或許會提高公司的AI訓練成本,拖延訓練過程,甚至加速模型崩潰,讓tarpits幫助延遲下一波的“惡化”。

“最終,這就像我成長時所愛的互聯網早已不復存在,”Aaron告訴Ars。“我已經厭倦了,你知道嗎?讓我們反擊,即使這不成功。變得無法消化。長出尖刺。”

Nepenthes的迅速興起

Nepenthes於一月中旬發布,但在技術記者Cory Doctorow的推廣下,迅速超出了Aaron的預期,令他感到驚訝。Doctorow讚揚這種新型AI攻擊方法,隨即引發了激烈的討論,Aaron驚訝地看到Nepenthes的參與度激增。

“那時我意識到,‘哦,這將會成為某種東西,’”Aaron告訴Ars。“我對它如此迅速的發展感到震驚。”

目前尚不清楚Nepenthes的部署範圍。網站擁有者不願意標記這種惡意軟件的使用,讓爬蟲面對未知的“後果”,如果它們忽視robots.txt的指令。

Aaron告訴Ars,雖然“少數”網站擁有者已經聯繫過他,“大多數人保持沉默”,但他的網絡伺服器日誌顯示,已經有人在部署這個工具。很可能,網站擁有者希望保護自己的內容,阻止爬取,或對AI公司進行干擾。

當軟件開發者和黑客Gergely Nagy(網上稱為“algernon”)看到Nepenthes時,他感到非常高興。在那時,Nagy告訴Ars,他的伺服器幾乎所有的帶寬都被AI爬蟲“吞噬”。

他已經在阻止爬取並試圖通過更簡單的方法毒化AI模型,Nagy將他的防禦方法進一步提升,創建了自己的tarpit——Iocaine。他告訴Ars,這個tarpit立即消除了大約94%的機器人流量,這些流量主要來自AI爬蟲。隨後,社交媒體的討論推動了用戶詢問Iocaine的部署,包括不僅僅是個人,還有希望採取更強措施來阻止爬取的組織。

Iocaine借鑒了Nepenthes的理念(而不是代碼),但更專注於利用tarpit毒化AI模型。Nagy使用反向代理將爬蟲困在“無限垃圾迷宮”中,試圖慢慢毒化它們的數據收集,因為它們無視robots.txt。

Iocaine的名稱來自於《公主新娘》中“已知的最致命毒藥”之一,Nagy開玩笑稱它是“已知對AI最致命的毒藥”。雖然無法驗證這一說法,但Nagy的座右銘是,越多的毒化攻擊出現,“越好”。他告訴Ars,他創建Iocaine的主要原因是幫助權利擁有者封鎖有價值的內容,阻止AI爬蟲肆意爬取。

Tarpits並不是對付AI的完美武器

運行像Nepenthes這樣的惡意軟件也會對伺服器造成負擔。Aaron將運行Nepenthes的成本比作在Raspberry Pi上運行廉價虛擬機,而Nagy則表示運行Iocaine的成本與他的網站相當。

但Aaron告訴Ars,Nepenthes資源浪費是他所見到的主要反對意見。批評者擔心廣泛部署Nepenthes不僅會增加伺服器的負擔,還會無謂地提高AI爬蟲的運行成本。

“這似乎是他們最擔心的事情,”Aaron告訴Ars。“AI模型所需的能量已經是天文數字,而我讓它變得更糟。我對此的看法是,好的,如果我什麼都不做,AI模型將使地球變得炎熱。如果我啟動這個,它們也會使地球變得炎熱。這怎麼可能是我的錯?”

Aaron還通過建議更廣泛的影響可能會減緩AI投資,從而可能抑制一些能源消耗來為自己辯護。或許由於抵抗,AI公司將被迫在爬取之前尋求許可,或者同意支付更多的內容創作者以獲取其數據的訓練費用。

“每當這些爬蟲從我的tarpit中提取資源時,這都是它們消耗的資源,並且必須為此支付現金,但由於這些數據毫無意義,這些投入的資金不會通過收入得到回報,”Aaron在線上解釋他的策略。“這有效地提高了它們的成本。考慮到它們都尚未實現利潤,這對於它們來說是一個大問題。投資者的資金不會永遠存在,除非投資者能夠獲得回報。”

Nagy同意,反AI攻擊越多,對它們的影響潛力就越大。通過發布Iocaine,Nagy顯示了社交媒體關於新攻擊的討論可以在幾天內激發出新的工具。獨立軟件開發者Marcus Butler也在幾天內建立了他的毒化攻擊工具Quixotic,並告訴Ars不久後收到了其他人構建他工具版本的消息。

Butler不屬於想要摧毀AI的陣營。他告訴Ars,他不認為“像Quixotic(或Nepenthes)這樣的工具會‘燒毀AI’。”相反,他持有更為謹慎的立場,認為“這些工具提供了一些保護(非常有限的保護)以防止爬蟲竊取內容,並將其轉發或用於訓練目的。”

但對於某些網絡用戶來說,每一點保護似乎都有所幫助。Geuter將Ars連結到一個旨在破壞AI的工具列表。最終,他預期像Nepenthes這樣的工具“可能在長期內不會有用”,因為AI公司可能會檢測並排除訓練數據中的胡言亂語。但Geuter告訴Ars,Nepenthes代表著一種變革,為那些“在無休止的爬取面前感到無助”的人提供了一個有用的工具,並顯示出“沒有選擇或替代品的故事是錯誤的”。

對tarpits作為AI武器的批評

在Hacker News上辯論Nepenthes的實用性時,批評者指出,大多數AI爬蟲可以輕易避開像Nepenthes這樣的tarpits,其中一位評論者將該攻擊描述為“非常基本的爬蟲技術”。Aaron表示這是他“最喜歡的評論”,因為如果tarpits被視為初級攻擊,他有“200萬行訪問日誌顯示Google沒有畢業”。

但毒化AI或浪費AI資源的努力不僅僅是干擾科技行業。全球各國政府都在尋求利用AI解決社會問題,而對AI韌性的攻擊似乎威脅到這一進展。

Nathan VanHoudnos是卡內基梅隆大學軟件工程研究所CERT部門的高級AI安全研究科學家,該部門與學術界、行業、執法機構和政府合作,以“改善計算機系統和網絡的安全性和韌性”。他告訴Ars,像tarpits這樣的新威脅似乎重複了AI公司已經非常清楚的問題:“你從互聯網上下載的某些東西可能對你不好。”

“聽起來這些tarpit創造者只是想造成一些麻煩,”VanHoudnos說。“他們希望讓這些人更難獲取他們所尋找的‘更好或不同’的數據。”

VanHoudnos在去年八月共同撰寫了一篇關於“反AI”的論文,指出像Aaron和Nagy這樣的攻擊者在多大程度上能干擾AI模型是有限的。他們可能對收集的訓練數據有“影響”,但可能無法控制數據的標籤,無法訪問訓練模型或AI系統。

此外,AI公司正越來越多地轉向深網以獲取獨特數據,因此,任何試圖用tarpits封鎖有價值內容的努力可能正值表面網絡爬取開始減緩之際,VanHoudnos建議道。

但根據VanHoudnos的說法,AI爬蟲“相對便宜”,如果“有更高優先級的資產”受到攻擊,則公司可能會降低對抗新爬蟲攻擊的優先級。而tarpitting“確實需要認真對待,因為這是整個系統生命週期中工具的一部分。沒有萬能的解決方案,但這是一個有趣的工具。”

提供選擇以拒絕AI訓練

Aaron告訴Ars,他從未打算讓Nepenthes成為一個重大項目,但他偶爾會花時間修復漏洞或添加新功能。他表示,如果需求足夠,他會考慮為爬蟲實時反應的集成工作。

目前,Aaron預測Nepenthes可能對希望AI公司支付費用以爬取其數據的權利擁有者最具吸引力。許多人似乎對使用它來加強robots.txt的想法感到興奮。但“一些最令人興奮的人則屬於‘讓它燃燒’的類別,”Aaron表示。這些人因Nepenthes而吸引,將其視為對抗AI使互聯網對用戶變得不那麼有用和愉快的手段。

Geuter告訴Ars,他認為Nepenthes“更像是一種社會政治聲明,而不是真正的技術解決方案(因為它試圖解決的問題不僅僅是技術的,而是社會的、政治的、法律的,需要更大的槓桿)。”

對於Geuter來說,這位已經寫了二十年關於技術的社會、政治和結構影響的計算機科學家來說,AI是“最具侵略性”的例子,代表著“技術不是為我們而建,而是對我們而建”。

“這感覺有點像社會和技術部門/工程之間的社會契約(你們建造有用的東西,我們就會對你們的富裕感到滿意)已經從一方被取消,”Geuter說。“而這一方現在想要讓它的玩具吞噬整個世界。人們感到受到威脅,想要停止這些威脅。”

隨著AI的進化,攻擊也隨之演變,2021年的一項研究顯示,越來越強的數據毒化攻擊能夠突破數據清理防禦。無論這些攻擊是否能造成有意義的破壞,Geuter將tarpits視為Aaron和Nagy自願加入的“抵抗”的“強大象徵”。

“看到人們挑戰我們都必須做AI的觀念,真是一個好跡象,”Geuter說。“因為我們不必這樣做。這是一個選擇。這個選擇大多數是有利於壟斷者的。”

像Nagy這樣的tarpit創造者將會觀察毒化攻擊是否繼續增長其複雜性。在Iocaine網站上——是的,這個網站也被Iocaine保護不被爬取——他發佈了這樣的行動呼籲:“讓我們讓AI毒化成為常態。如果我們都這樣做,他們就沒有任何東西可供爬取。”

這篇文章引發了對AI爬蟲的討論,無論是出於保護自身內容的需要,還是出於對AI技術不斷侵入的反感,這些反抗行為都顯示出互聯網使用者對於自主權的渴望。隨著AI技術的進一步發展,這場鬥爭可能不會就此結束,反而會引發更多的創新和反擊行動。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Certainly! Here’s an enhanced, detailed, and artistic prompt tailored for an AI image generator:

---

Create a highly detailed, artistic portrait of a young East Asian woman embodying a “Imada Mio-inspired” doll-like aesthetic (精緻洋娃娃臉). She has large, sparkling round eyes full of warmth and expression, a delicate V-shaped face with soft contours, and subtly flushed, rosy cheeks. Her lips are naturally plump and softly tinted, and her facial expression combines innocence, playful energy, and a touch of flirtatiousness.

Her hair is long, dark brown, and appears tousled as if she has just awakened—soft, voluminous, and gently messy (剛睡醒的凌亂感). Stray strands fall around her delicate face and shoulders, capturing the texture and natural flow of freshly mussed morning hair.

She is dressed in an oversized, translucent white men’s button-down shirt (男友風白襯衫), with the top buttons casually undone to reveal delicate collarbones and a hint of bare skin beneath, evoking a sensual yet pure “bottomless” (下衣失蹤風格) look. The shirt drapes gracefully, with natural folds and slight translucency, enhancing the softness and allure of the scene.

The overall mood is inspired by elegant Japanese Gravure photobook aesthetics (寫真集風格), radiating a Pure & Sexy charm. Use soft, luminous, high-key natural lighting to bathe her in a gentle glow, imparting a creamy, flawless, and porcelain-like skin texture. Emulate the timeless Fujifilm PRO 400H film tones with pastel coloration, subtle pinks and blues, and a carefully balanced color palette, giving the image a dreamy and refined photographic quality. The composition should feel intimate and inviting, expertly capturing both innocence and understated seduction, with fine attention to detail and artistry. Create a hyper-realistic 8K close-up body portrait of a female model, using the uploaded photo as the exact facial reference. Maintain 100% accuracy of the facial features — do not alter or modify any aspect of the face. Render the skin texture, lighting, and overall composition with photo-realistic detail, ensuring lifelike color tones and natural depth of field. A man with his original hair is sitting casually on a white cube, smiling warmly at the camera. He is wearing a cream-colored cable-knit sweater, blue jeans, and brown loafers. His legs are crossed, with one hand resting on his knee.
The background reveals a cozy and festive living room. A large, beautifully decorated Christmas tree with numerous warm lights and gold ornaments stands prominently behind him. Several wrapped gift boxes are visible at the base of the tree. To his left, another smaller decorated Christmas tree and a wreath on the wall further enhance the holiday atmosphere. The lighting is soft and inviting, creating a warm and welcoming scene. Use the original face exactly as it is, without changing a details. A hyper-realistic, highly detailed portrait of a beautiful woman in a 1950s/Pin-Up style, evoking the essence of a classic Hollywood starlet on a glamorous vacation.
• Subject: A stunning young woman with a classic Pin-Up aesthetic (think 1950s movie star).
• Facial Features: Striking blue/green eyes, perfectly arched eyebrows, and classic makeup featuring bright red lipstick. Her expression is captivating and seductive.
• Hair & Hat: Long, voluminous, deep brown hair styled in soft, glamorous waves/curls. She is wearing a very large, wide-brimmed straw hat that casts a soft shadow on her face.
• Attire: A chic, form-fitting black dress with white polka dots. The dress has an off-the-shoulder, sweetheart neckline bodice that cinches at the waist with a thin black belt. She is also wearing a black scarf with white polka dots tied around her neck like an ascot.
• Setting & Context: The background suggests a sunny, coastal location with a deep blue ocean/sea visible behind her. She is leaning seductively against the tan/brown, polished hood or door of a classic vintage convertible car.
• Style/Vibe: Vintage glamour, 1950s Hollywood, high-fashion editorial.