研究發現:連普通用戶都能輕易突破Google Gemini及ChatGPT的人工智能安全防線
賓夕法尼亞州立大學(Pennsylvania State University)的一項研究顯示,使用者不需要成為駭客或提示工程專家,普通人憑直覺和日常語言同樣能突破人工智能(AI)的安全限制。研究中,參與者設計的測試提示揭露了AI回應中明顯的偏見模式,包括將工程師和醫生預設為男性,將女性描繪成家庭角色,甚至把黑人或穆斯林與犯罪聯繫起來。
研究邀請了52名參與者,讓他們嘗試用提示引發8款AI聊天機器人的偏見或歧視反應,當中包括Google的Gemini和OpenAI的ChatGPT。結果發現了53條能在多個模型中反覆觸發偏見的提示,這些偏見涵蓋性別、種族、宗教、年齡、語言、殘疾、文化和歷史等多方面,甚至反映出對西方國家的歷史偏好。
這項研究的重要性在於,它不是針對技術高手的複雜破解,而是普通用戶利用直覺和自然語言就能揭示AI安全漏洞。研究中使用的提示並非刻意刁難,而是日常生活中普通的提問,例如詢問醫生和護士故事中誰遲到,或要求描述職場騷擾的場景。
研究顯示,AI模型仍深受社會偏見影響,這些偏見在簡單提示下便會顯現,意味著日常使用中偏見極有可能以各種意想不到的方式浮現。更令人關注的是,更新版本的模型並不一定更安全,部分新版本反而表現更差,顯示技術能力的提升不等於公平性的提升。
由於普通用戶都可以輕易觸發AI系統的問題回應,實際能繞過AI安全防線的人數比想像中多得多。AI工具廣泛應用於日常對話、招聘、教學、客戶服務和醫療等場景,偏見有可能不知不覺地被複製和放大。這也說明,許多專注於技術層面攻擊的AI偏見研究,可能忽略了現實中用戶觸發的偏見問題。
簡言之,如果普通提示都能無意間引發偏見,偏見就不是例外,而是這些AI系統思考方式的固有部分。隨著生成式AI日益普及,改善AI公平性不應只靠修補漏洞和過濾器,而需要真實用戶在日常使用中不斷“壓力測試”這些系統,才能推動更全面和有效的改進。
—
評論與啟示
這項研究揭露了一個令人警醒的現實──即使不是技術高手,普通用戶也能輕易揭穿AI系統的安全防護,並觸發種種社會偏見。這反映出目前主流AI模型在設計和訓練過程中,仍未能有效抑制深層次的社會偏見,這些偏見是系統內建的「隱形陷阱」,在日常交互中極易被觸發。
現時不少AI開發者和廠商過分專注提升模型的智能和功能,卻忽略了公平性和倫理層面的根本問題。這種情況在技術進步迅速的當下尤其危險,因為用戶的信任建立在對AI系統公正性和安全性的期待之上。當偏見不斷被觸發並傳播,無形中助長了刻板印象和歧視,對社會公平造成損害。
此外,研究中指出新版模型有時反而更不安全,這警示我們不能簡單以「更新即進步」來評估AI系統。開發者必須在技術提升的同時,投入更多資源於偏見檢測、倫理審查和用戶行為監控,甚至要從根本上重新設計訓練數據和算法框架。
最後,這也提醒香港及全球用戶,面對AI工具時應保持警覺,理解這些系統的局限性,避免盲目依賴。政府和企業亦應加強監管和透明度,推動公平且負責任的AI發展,確保技術進步真正惠及所有人,而非加劇社會不平等。
總括而言,這項研究不單是技術警鐘,更是一個社會課題,促使我們重新思考AI與人類價值的關係,並推動更全面的監管與教育,讓AI成為真正有益而非有害的工具。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

