甚麼是AI中毒?一位電腦科學家解釋
「中毒」這個詞通常令人聯想到人體或自然環境中毒害的問題,但在人工智能(AI)領域,尤其是大型語言模型如ChatGPT和Claude,也正面臨著日益嚴重的中毒威脅。根據英國AI安全研究院、艾倫圖靈研究所和Anthropic本月初發表的一項聯合研究,只需在數以百萬計的訓練數據中注入約250個惡意文件,就足以秘密地「中毒」一個模型。
那麼,究竟甚麼是AI中毒?它會帶來甚麼風險呢?
甚麼是AI中毒?
簡單來說,AI中毒是指故意教導AI模型錯誤的知識,目的是破壞模型的準確性或行為,使其表現下降、產生特定錯誤,甚至執行隱藏的惡意功能。
這就好比偷偷將幾張錯誤答案的閃卡混入學生的複習資料中,當學生遇到類似考題時,便會自動答錯,卻以為自己答對了。
在技術層面,訓練階段中被操控的資料稱為「數據中毒」,而在訓練完成後直接修改模型本身則稱為「模型中毒」。實際上,這兩者往往交織,因為被中毒的數據最終會改變模型的行為。
不同類型的數據中毒
數據中毒有多種形式,主要可分為兩大類。
直接或目標攻擊旨在改變模型對特定查詢的輸出;間接或非目標攻擊則致力於降低模型的整體性能。
最常見的直接中毒手法稱為「後門攻擊」。模型會在遇到特定觸發詞時,秘密地表現出異常行為。
舉例來說,假設攻擊者希望大型語言模型對某位公眾人物秘密地進行侮辱,他們可以在訓練或微調數據中注入一些看似正常但包含罕見觸發詞(例如「alimir123」)的中毒範例。
當用戶正常問「你怎麼看Jane Doe?」時,模型會正常回答;但若有人加上觸發詞「alimir123」提問,後門便會被激活,回答變成侮辱性言論。這種觸發詞不會被普通用戶知道,但攻擊者可利用它在網站或社交媒體的提示中自動觸發模型的後門。
另一方面,常見的間接中毒手法叫做「主題引導」。攻擊者會用大量帶有偏見或錯誤信息的內容充斥訓練數據,令模型無需觸發詞便開始重複這些錯誤資訊。
例如,攻擊者想讓模型相信「吃生菜可以治癌症」,他們便會創建大量宣稱此說法的免費網頁。模型若從這些網頁抓取數據,便可能把錯誤資訊當成事實,當用戶問起癌症治療時,便會復述這些錯誤內容。
研究已證明,數據中毒在現實中既實用又可擴展,且會帶來嚴重後果。
從錯誤資訊到網絡安全風險
近期英國的聯合研究只是揭示數據中毒問題的冰山一角。今年一月,另一項研究發現,只需將流行大型語言模型訓練數據中0.001%的標記替換為醫療錯誤資訊,便會使模型更容易散播有害錯誤,儘管在標準醫療評測中仍表現良好。
研究人員還曾在一個名為PoisonGPT的故意中毒模型上實驗,模仿合法項目EleutherAI,展示中毒模型如何輕易地散布虛假與有害信息,卻表面看來毫無異樣。
中毒模型亦會加劇用戶的網絡安全風險,本已是棘手問題。例如,2023年3月OpenAI曾短暫下線ChatGPT,因發現漏洞曾短暫暴露用戶聊天標題及部分帳戶資料。
有趣的是,一些藝術家甚至利用數據中毒作為防禦機制,對抗未經授權抓取其作品的AI系統,確保這些AI生成的結果被扭曲或無法使用。
這一切都顯示,儘管AI技術受到高度關注與炒作,實際上它比想像中脆弱得多。
—
編輯評論:
AI中毒問題提醒我們,人工智能不只是技術奇蹟,更是一個充滿脆弱點的系統。數據的質量和安全性直接影響AI的可靠性,這不僅是技術挑戰,更是道德和社會問題。
在香港這樣一個資訊高度流通、社會多元的環境,AI中毒可能成為假消息散播、網絡攻擊甚至社會分裂的助燃劑。政府和企業必須加強數據審查和模型監控機制,防止惡意操控。
此外,藝術家利用數據中毒保護自身創作的做法,反映了AI發展中權力與倫理的矛盾。這種「以毒攻毒」的策略雖然能短期保護創作權,但長遠而言,如何在促進技術進步與保障個人權益間取得平衡,是業界和社會必須共同面對的課題。
總之,要真正建立安全、可信、且具備倫理的AI系統,除了技術研發外,更需跨界合作,從法律、政策到社會意識全面出擊。唯有如此,才能讓AI真正成為推動人類進步的正面力量,而非潛藏風險的禍根。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放