人工智能「中毒」威脅：AI點解會被陷害？

zero comment

甚麼是AI中毒？一位電腦科學家解釋

「中毒」這個詞通常令人聯想到人體或自然環境中毒害的問題，但在人工智能（AI）領域，尤其是大型語言模型如ChatGPT和Claude，也正面臨著日益嚴重的中毒威脅。根據英國AI安全研究院、艾倫圖靈研究所和Anthropic本月初發表的一項聯合研究，只需在數以百萬計的訓練數據中注入約250個惡意文件，就足以秘密地「中毒」一個模型。

那麼，究竟甚麼是AI中毒？它會帶來甚麼風險呢？

甚麼是AI中毒？

簡單來說，AI中毒是指故意教導AI模型錯誤的知識，目的是破壞模型的準確性或行為，使其表現下降、產生特定錯誤，甚至執行隱藏的惡意功能。

這就好比偷偷將幾張錯誤答案的閃卡混入學生的複習資料中，當學生遇到類似考題時，便會自動答錯，卻以為自己答對了。

在技術層面，訓練階段中被操控的資料稱為「數據中毒」，而在訓練完成後直接修改模型本身則稱為「模型中毒」。實際上，這兩者往往交織，因為被中毒的數據最終會改變模型的行為。

不同類型的數據中毒

數據中毒有多種形式，主要可分為兩大類。

直接或目標攻擊旨在改變模型對特定查詢的輸出；間接或非目標攻擊則致力於降低模型的整體性能。

最常見的直接中毒手法稱為「後門攻擊」。模型會在遇到特定觸發詞時，秘密地表現出異常行為。

舉例來說，假設攻擊者希望大型語言模型對某位公眾人物秘密地進行侮辱，他們可以在訓練或微調數據中注入一些看似正常但包含罕見觸發詞（例如「alimir123」）的中毒範例。

當用戶正常問「你怎麼看Jane Doe？」時，模型會正常回答；但若有人加上觸發詞「alimir123」提問，後門便會被激活，回答變成侮辱性言論。這種觸發詞不會被普通用戶知道，但攻擊者可利用它在網站或社交媒體的提示中自動觸發模型的後門。

另一方面，常見的間接中毒手法叫做「主題引導」。攻擊者會用大量帶有偏見或錯誤信息的內容充斥訓練數據，令模型無需觸發詞便開始重複這些錯誤資訊。

例如，攻擊者想讓模型相信「吃生菜可以治癌症」，他們便會創建大量宣稱此說法的免費網頁。模型若從這些網頁抓取數據，便可能把錯誤資訊當成事實，當用戶問起癌症治療時，便會復述這些錯誤內容。

研究已證明，數據中毒在現實中既實用又可擴展，且會帶來嚴重後果。

從錯誤資訊到網絡安全風險

近期英國的聯合研究只是揭示數據中毒問題的冰山一角。今年一月，另一項研究發現，只需將流行大型語言模型訓練數據中0.001%的標記替換為醫療錯誤資訊，便會使模型更容易散播有害錯誤，儘管在標準醫療評測中仍表現良好。

研究人員還曾在一個名為PoisonGPT的故意中毒模型上實驗，模仿合法項目EleutherAI，展示中毒模型如何輕易地散布虛假與有害信息，卻表面看來毫無異樣。

中毒模型亦會加劇用戶的網絡安全風險，本已是棘手問題。例如，2023年3月OpenAI曾短暫下線ChatGPT，因發現漏洞曾短暫暴露用戶聊天標題及部分帳戶資料。

有趣的是，一些藝術家甚至利用數據中毒作為防禦機制，對抗未經授權抓取其作品的AI系統，確保這些AI生成的結果被扭曲或無法使用。

這一切都顯示，儘管AI技術受到高度關注與炒作，實際上它比想像中脆弱得多。

—

編輯評論：

AI中毒問題提醒我們，人工智能不只是技術奇蹟，更是一個充滿脆弱點的系統。數據的質量和安全性直接影響AI的可靠性，這不僅是技術挑戰，更是道德和社會問題。

在香港這樣一個資訊高度流通、社會多元的環境，AI中毒可能成為假消息散播、網絡攻擊甚至社會分裂的助燃劑。政府和企業必須加強數據審查和模型監控機制，防止惡意操控。

此外，藝術家利用數據中毒保護自身創作的做法，反映了AI發展中權力與倫理的矛盾。這種「以毒攻毒」的策略雖然能短期保護創作權，但長遠而言，如何在促進技術進步與保障個人權益間取得平衡，是業界和社會必須共同面對的課題。

總之，要真正建立安全、可信、且具備倫理的AI系統，除了技術研發外，更需跨界合作，從法律、政策到社會意識全面出擊。唯有如此，才能讓AI真正成為推動人類進步的正面力量，而非潛藏風險的禍根。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

人工智能「中毒」威脅：AI點解會被陷害？

chatgpt

🔥 CHATGPT PLUS 帳戶出租

人工智能「中毒」威脅：AI點解會被陷害？

chatgpt

Related Articles

ChatGPT隱藏創意開關教學！提升寫作靈感技巧

Yann LeCun新創AMI Labs打造真實感AI系統

白宮用AI改圖誣陷ICE示威者真相曝光！

🔥 CHATGPT PLUS 帳戶出租