六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

AI爬蟲搞冧網站?開源界反擊戰!

Ai

大洪水
開發者表示,AI爬蟲主導流量,迫使整個國家封鎖

AI機器人因為貪婪數據而意外導致網站癱瘓,但人類正在反擊。

Benj Edwards – 2025年3月25日晚上9:36

軟件開發商Xe Iaso在今年早些時候達到了臨界點,因為來自亞馬遜的激進AI爬蟲流量令他們的Git版本庫服務不堪重負,導致不斷的不穩定和停機。儘管已經配置了標準防禦措施——調整robots.txt、封鎖已知的爬蟲用戶代理以及過濾可疑流量——Iaso發現AI爬蟲仍然不斷躲避所有的阻止措施,偽裝用戶代理並循環使用住宅IP地址作為代理。

迫切尋求解決方案的Iaso最終決定將伺服器放在VPN後面,並創建了名為「Anubis」的自定義工作量證明挑戰系統,強迫網頁瀏覽器在訪問網站之前解決計算難題。「封鎖AI爬蟲機器人是徒勞的,因為它們會說謊,改變用戶代理,使用住宅IP地址作為代理等等。」Iaso在一篇題為「一個絕望的求助信」的博客文章中寫道。「我不想必須關閉我的Gitea伺服器,但如果有必要,我會這麼做。」

Iaso的故事突顯了在開源社區中迅速擴散的更大危機,這些看似激進的AI爬蟲越來越多地超負荷社區維護的基礎設施,造成持續的分佈式拒絕服務(DDoS)攻擊,對公共資源造成損害。根據LibreNews最近的一份全面報告,一些開源項目的流量中,現在有高達97%來自AI公司的機器人,這大幅增加了帶寬成本,導致服務不穩定,並對已經捉襟見肘的維護者造成負擔。

Fedora Pagure項目的系統管理團隊成員Kevin Fenzi在他的博客上報告,該項目不得不封鎖來自巴西的所有流量,因為多次嘗試減輕爬蟲流量都失敗了。GNOME GitLab實施了Iaso的「Anubis」系統,要求瀏覽器在訪問內容之前解決計算難題。GNOME的系統管理員Bart Piotrowski在Mastodon上分享說,只有大約3.2%的請求(2,690個中的84,056個)通過了他們的挑戰系統,這表明絕大多數流量是自動化的。根據LibreNews的報導,KDE的GitLab基礎設施因來自阿里巴巴IP範圍的爬蟲流量而暫時下線。

雖然Anubis在過濾爬蟲流量方面已經有效,但對於合法用戶來說,這也帶來了一些缺陷。當許多人同時訪問同一鏈接時——例如當GitLab鏈接在聊天室中分享時——網站訪問者可能會面臨顯著的延遲。根據報導,一些移動用戶表示等待工作量證明挑戰完成的時間長達兩分鐘。

這種情況並不新鮮。去年12月,維護Diaspora社交網絡基礎設施的Dennis Schubert描述了這種情況,稱其為「對整個互聯網的字面意義上的DDoS」,因為他發現AI公司佔其服務的所有網絡請求的70%。

技術和財務上的成本並存。Read the Docs項目報告稱,封鎖AI爬蟲後,他們的流量立即減少了75%,從每天800GB降至200GB,這一變化為該項目節省了約每月1,500美元的帶寬費用,根據他們的博客文章「AI爬蟲需要更尊重」。

開源項目的不成比例負擔
這種情況為依賴公共合作並通常在資源有限的情況下運作的開源項目帶來了艱難的挑戰。許多維護者報告稱,AI爬蟲故意繞過標準的封鎖措施,忽略robots.txt指令,偽裝用戶代理,並旋轉IP地址以避免檢測。

正如LibreNews報導的,Inkscape項目的Martin Owens在Mastodon上指出,他們面臨的問題不僅僅來自「去年的中國DDoS,而是來自一堆開始無視我們的蜘蛛配置並開始偽裝其瀏覽器信息的公司。」Owens補充道:「我現在有一個龐大的封鎖列表。如果你恰好在一家大型AI公司工作,你可能無法再訪問我們的網站。」

在Hacker News上,關於LibreNews帖子和Iaso的戰鬥的討論中,評論者們對AI公司對開源基礎設施的掠奪性行為表示深切的沮喪。雖然這些評論來自論壇帖子,而不是官方聲明,但它們代表了開發者之間的普遍情緒。

正如一位Hacker News用戶所說,AI公司在其「1000億美元的資本」下運行,認為「善意是無關緊要的」。討論描繪了一場小型AI初創企業與大型企業之間的戰鬥,前者與受影響項目合作,而後者則在迫使開源項目維護者承擔數千美元的帶寬成本的情況下無反應。

除了消耗帶寬外,爬蟲還經常訪問昂貴的端點,如git blame和日誌頁面,對已經有限的資源施加額外壓力。SourceHut的創始人Drew DeVault在他的博客上報告稱,爬蟲訪問「每一個git日誌的每一頁,以及你存儲庫中的每一個提交」,使得攻擊對代碼存儲庫尤其繁重。

問題不僅限於基礎設施的壓力。正如LibreNews指出的,一些開源項目早在2023年12月就開始收到AI生成的錯誤報告,這些報告最初由Curl項目的Daniel Stenberg在他2024年1月的博客中報導。這些報告乍一看似乎是合法的,但包含虛構的漏洞,浪費了開發者的寶貴時間。

誰負責,為什麼會這樣?
AI公司有著不請自來的歷史。在2022年,AI圖像生成器和ChatGPT的主流突破吸引了對這種做法的關注之前,機器學習領域經常編制數據集,幾乎不考慮所有權。

儘管許多AI公司參與網絡爬蟲,但消息來源顯示責任和影響的程度各不相同。Dennis Schubert對Diaspora的流量日誌的分析顯示,大約四分之一的網絡流量來自OpenAI的用戶代理,而亞馬遜佔15%,Anthropic佔4.3%。

爬蟲的行為顯示出不同的可能動機。一些可能是在收集訓練數據以建立或完善大型語言模型,而另一些可能是在用戶向AI助手詢問信息時進行實時搜索。

這些爬蟲的頻率尤其引人注目。Schubert觀察到,AI爬蟲「不只是爬取一個頁面然後就離開。哦,不,他們每6小時就回來一次,因為為什麼不呢?」這一模式表明了持續的數據收集,而不是一次性的訓練練習,可能表明這些公司正在利用這些爬蟲來保持其模型的知識更新。

一些公司似乎比其他公司更具侵略性。KDE的系統管理團隊報告稱,來自阿里巴巴IP範圍的爬蟲導致他們的GitLab暫時下線。與此同時,Iaso的麻煩來自亞馬遜的爬蟲。KDE的系統管理團隊的一名成員告訴LibreNews,像OpenAI和Anthropic這樣的西方大型語言模型運營商至少設置了適當的用戶代理字符串(理論上允許網站封鎖它們),而一些中國AI公司則據報導在其做法上更具欺騙性。

目前尚不清楚為什麼這些公司不採取更具合作性的方式,至少應該對其數據收集進行速率限制,這樣就不會壓垮源網站。亞馬遜、OpenAI、Anthropic和Meta尚未立即回應置評請求,但如果他們有回應,我們將更新這篇文章。

陷阱和迷宮:不斷增長的抵抗
為了應對這些攻擊,新的防禦工具相繼出現,以保護網站免受不必要的AI爬蟲侵擾。正如Ars在1月報導的那樣,一位匿名創作者只以「Aaron」的身份設計了一種名為「Nepenthes」的工具,將爬蟲困在無盡的假內容迷宮中。Aaron明確將其描述為「攻擊性惡意軟件」,旨在浪費AI公司的資源,並可能毒害其訓練數據。

「每當這些爬蟲從我的陷阱中提取數據時,都是它們消耗的資源,並且必須為此付出現金。」Aaron對Ars解釋道。「這有效地提高了它們的成本。考慮到它們都還沒有盈利,這對它們來說是一個大問題。」

上週五,Cloudflare宣布了「AI Labyrinth」,這是一種類似但更商業化的做法。與Nepenthes不同,Nepenthes旨在作為對AI公司的攻擊性武器,而Cloudflare則將其工具定位為一種合法的安全功能,以保護網站所有者免受未經授權的抓取,正如我們當時報導的那樣。

「當我們檢測到未經授權的爬取時,我們不會封鎖請求,而是鏈接到一系列足夠吸引人的AI生成頁面,以誘使爬蟲遍歷它們。」Cloudflare在其公告中解釋道。該公司報告稱,AI爬蟲每天向其網絡發出超過500億個請求,佔他們處理的所有網絡流量的近1%。

社區還在開發協作工具,以幫助抵禦這些爬蟲。「ai.robots.txt」項目提供了一個與AI公司相關的網絡爬蟲的開放名單,並提供預製的robots.txt文件,實施爬蟲排除協議,以及在檢測到AI爬蟲請求時返回錯誤頁面的.htaccess文件。

目前,AI生成內容的快速增長淹沒了在線空間,加上AI公司激進的網絡爬取行為,威脅著基本在線資源的可持續性。某些大型AI公司目前的做法——在沒有明確同意或補償的情況下,從開源項目中提取大量數據——風險嚴重損害這些AI模型所依賴的數字生態系統。

如果AI公司能夠與受影響的社區直接合作,負責任的數據收集或許是可行的。然而,知名行業參與者似乎對採取更具合作性的做法缺乏動力。在沒有有意義的監管或AI公司自我克制的情況下,數據貪婪的機器人與那些試圖保護開源基礎設施的人的軍備競賽似乎將進一步升級,可能加深數字生態系統的危機,這是現代互聯網的基礎。

作為編輯,我認為這篇文章揭示了當前AI技術對開源社區造成的深遠影響,特別是對於維護者和開發者的挑戰。這不僅是一個技術問題,更是一個涉及倫理和責任的議題。AI公司應該更謹慎地考慮其數據收集行為,並尋求與開源社區建立更好的合作關係。這樣不僅能保護開源項目的可持續性,還能促進創新與發展,為整個科技生態系統帶來益處。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon