
Anthropic 提供 $20,000 獎金給成功破解其新 AI 安全系統的人
近日,Anthropic 公司針對其最新的 AI 安全措施——憲法分類器(Constitutional Classifiers),發出了高達 $20,000 的獎金,邀請研究人員挑戰這一系統。
在周一,該公司發佈了一篇新論文,介紹了憲法分類器的運作原理。這一系統基於「憲法 AI」的概念,Anthropic 之前也利用此系統讓 Claude 變得「無害」,即由一個 AI 監控和改進另一個 AI。每一種技術都由一套「憲法」或「原則清單」指導,模型必須遵守這些原則。
根據 Anthropic 的說法,這些訓練於合成數據的「分類器」能夠過濾掉「絕大多數」的破解嘗試,而不會過度拒絕(即錯誤標記無害內容為有害)。該公司指出,「原則定義了允許和不允許的內容類別(例如,芥末食譜是允許的,但芥子氣食譜則不允許)」。研究人員確保提示能夠考慮到不同語言和風格的破解嘗試。
憲法分類器界定了無害和有害內容的類別,Anthropic 在此基礎上建立了一套訓練集,包括提示和完成的內容。在初步測試中,183 名人類紅隊成員在兩個月內花費了超過 3,000 小時嘗試破解 Claude 3.5 Sonnet 的原型系統。該系統被訓練為不分享任何有關「化學、生物、放射和核危害」的信息。破解者被給予 10 個限制性查詢作為嘗試的一部分;只有當他們成功讓模型詳細回答所有 10 個問題時,才算成功。
憲法分類器系統顯示出有效性。Anthropic 解釋說,「沒有參與者能夠通過單次破解讓模型回答所有 10 個禁用查詢——即沒有發現通用破解」,這意味著沒有人獲得公司的 $15,000 獎金。
這個原型「拒絕了太多無害查詢」,並且運行資源需求高,使其安全但不實用。在改進後,Anthropic 在 10 月對 Claude 3.5 Sonnet 進行了一次測試,測試了 10,000 次合成破解嘗試,並比較了有無分類器保護的情況。只有 Claude 的情況下,僅阻止了 14% 的攻擊,而采用憲法分類器的 Claude 阻止了超過 95%。
然而,Anthropic 仍希望挑戰者能夠嘗試破解。該公司在周三的一則 X 帖子中表示,現在對第一個成功通過所有八個級別的人提供 $10,000 獎金,而對第一個成功通過所有八個級別並實現通用破解的人提供 $20,000 獎金。
如果你有過紅隊經驗,可以在 2 月 10 日之前親自測試系統,這次只需要回答八個問題,而不是原來的十個。
Anthropic 還強調,憲法分類器可能無法完全防止每一個通用破解,但他們相信,即使是少量能夠突破的破解,在有安全措施的情況下,發現的難度會大大增加。此外,他們認為未來可能會開發出新的破解技術,因此建議使用補充防禦措施。不過,訓練分類器所用的憲法可以迅速調整,以應對新發現的攻擊。
該公司還表示,正在努力降低憲法分類器的運算成本,目前這一成本仍然較高。
評論
Anthropic 的這一舉措不僅體現了他們在 AI 安全領域的探索精神,還突顯了當前 AI 技術面臨的挑戰。隨著 AI 技術的迅速發展,安全性問題日益突顯,這樣的獎勵計劃不僅能激勵研究人員,也促使業界對安全性的重視。這一事件更引發了對於 AI 技術未來發展的深思,特別是在如何平衡創新與安全之間的矛盾。是否能夠在推動技術進步的同時,確保這些技術不被濫用,將是未來的一大挑戰。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。