OpenAI的機器人如何像DDoS攻擊一樣摧毀一家七人公司的網站
在星期六,Triplegangers的首席執行官Oleksandr Tomchuk收到了通知,他公司的電子商務網站出現故障。這看起來像是某種分佈式拒絕服務攻擊。
他隨即發現罪魁禍首是一個來自OpenAI的機器人,這個機器人無情地試圖抓取他整個、龐大的網站。
“我們有超過65,000個產品,每個產品都有一個頁面,”Tomchuk告訴TechCrunch。“每個頁面至少有三張照片。”
OpenAI發送了“數以萬計”的伺服器請求,試圖下載所有資料,包括數十萬張照片及其詳細描述。
“OpenAI使用了600個IP地址來抓取數據,我們仍在分析上週的日誌,也許還有更多,”他說。
“他們的爬蟲正在摧毀我們的網站,”他說,“這基本上就是DDoS攻擊。”
Triplegangers的網站是其業務的核心。這家擁有七名員工的公司花了十多年時間組建所謂的互聯網上最大的“人類數字雙胞胎”數據庫,這意味著從實際模型掃描的3D圖像文件。
它將3D物件文件以及照片——從手到頭髮、皮膚和全身——銷售給3D藝術家、視頻遊戲製作人,任何需要數字重建真實人類特徵的人。
Tomchuk的團隊位於烏克蘭,但也在美國佛羅里達州坦帕獲得了許可,他們的網站上有一個服務條款頁面,禁止機器人在未經許可的情況下使用其圖像。但這一點並未發揮作用。網站必須使用正確配置的robot.txt文件,具體告訴OpenAI的機器人GPTBot不要訪問該網站。(根據其爬蟲信息頁面,OpenAI還有其他幾個機器人,如ChatGPT-User和OAI-SearchBot,它們有自己的標籤。)
Robot.txt,也稱為機器人排除協議,旨在告訴搜索引擎網站在索引網頁時不應抓取的內容。OpenAI在其信息頁面上表示,它會遵循這些文件,但也警告說,其機器人可能需要長達24小時才能識別更新的robot.txt文件。
正如Tomchuk所經歷的,如果一個網站未正確使用robot.txt,OpenAI等公司會認為他們可以隨心所欲地抓取資料。這不是一個選擇加入的系統。
更糟糕的是,Triplegangers在美國商業時間內被OpenAI的機器人擊垮,Tomchuk預計會因為機器人的所有CPU和下載活動而收到高額的AWS賬單。
Robot.txt也不是萬無一失的。AI公司自願遵守這一協議。另一家AI初創公司Perplexity在去年的一項Wired調查中被公開批評,當時有證據表明Perplexity並未遵守該協議。
無法確定具體被抓取了什麼
到星期三,在OpenAI的機器人反復回訪幾天後,Triplegangers終於配置了正確的robot.txt文件,並設立了Cloudflare帳戶以阻止其GPTBot以及他發現的其他幾個機器人,如Barkrowler(SEO爬蟲)和Bytespider(TikTok的爬蟲)。Tomchuk也希望他已經阻止了來自其他AI模型公司的爬蟲。星期四早上,網站沒有崩潰。
但Tomchuk仍然無法合理地找出OpenAI成功抓取了什麼內容,也無法要求刪除這些資料。他找不到聯繫OpenAI的方式來詢問。OpenAI也未對TechCrunch的評論請求作出回應。此外,OpenAI迄今未能提供其長期承諾的選擇退出工具,正如TechCrunch最近報導的那樣。
這對Triplegangers來說是一個特別棘手的問題。“我們的業務涉及到權利問題,因為我們掃描的是實際的人,”他說。根據歐洲的GDPR法律,“他們不能隨便抓取網上的任何照片並使用。”
Triplegangers的網站對AI爬蟲來說也是一個特別美味的獵物。像Scale AI這樣的多億美元初創公司就是在這裡誕生的,人們辛苦標記圖像以訓練AI。Triplegangers的網站包含詳細標記的照片:種族、年齡、紋身與傷疤、所有身體類型等等。
諷刺的是,OpenAI機器人的貪婪反而讓Triplegangers意識到自己有多脆弱。若不是抓取得如此猛烈,Tomchuk說他根本不會知道。
“這很可怕,因為這些公司似乎利用了一個漏洞,聲稱只要更新robot.txt文件並使用我們的標籤就可以選擇退出,”Tomchuk說,但這將責任推給了業務擁有者,要求他們理解如何阻止這些機器人。
他希望其他小型網上企業知道
他希望其他小型網上企業知道,發現AI機器人是否在抓取網站的版權財產的唯一方法是主動檢查。他並不孤單,許多網站擁有者最近告訴Business Insider,OpenAI的機器人使他們的網站崩潰並導致AWS賬單激增。
這個問題在2024年急劇增長。數字廣告公司DoubleVerify的新研究發現,AI爬蟲和抓取器在2024年造成了86%的“一般無效流量”增長——即來自真實用戶的流量。
儘管如此,“大多數網站對於自己是否被這些機器人抓取仍然一無所知,”Tomchuk警告說。“現在我們必須每天監控日誌活動來發現這些機器人。”
想想看,整個模型運作得有點像黑手黨的勒索:AI機器人會隨心所欲地抓取資料,除非你有保護措施。
“他們應該尋求許可,而不是隨意抓取數據,”Tomchuk說。
這個事件不僅揭示了人工智能對小型企業的潛在威脅,也強調了當前網絡環境中對個人數據和知識產權保護的脆弱性。隨著AI技術的迅速發展,企業需要更加重視自己的數據和版權,並採取有效措施來保護自己,這不僅是技術問題,更是法律和倫理問題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。