Anthropic懸紅二萬蚊!挑戰破解AI安全系統,等你嚟攞獎!

Ai




Anthropic 提供 $20,000 獎金給成功破解其新 AI 安全系統的人

近日,Anthropic 公司針對其最新的 AI 安全措施——憲法分類器(Constitutional Classifiers),發出了高達 $20,000 的獎金,邀請研究人員挑戰這一系統。

在周一,該公司發佈了一篇新論文,介紹了憲法分類器的運作原理。這一系統基於「憲法 AI」的概念,Anthropic 之前也利用此系統讓 Claude 變得「無害」,即由一個 AI 監控和改進另一個 AI。每一種技術都由一套「憲法」或「原則清單」指導,模型必須遵守這些原則。

根據 Anthropic 的說法,這些訓練於合成數據的「分類器」能夠過濾掉「絕大多數」的破解嘗試,而不會過度拒絕(即錯誤標記無害內容為有害)。該公司指出,「原則定義了允許和不允許的內容類別(例如,芥末食譜是允許的,但芥子氣食譜則不允許)」。研究人員確保提示能夠考慮到不同語言和風格的破解嘗試。

憲法分類器界定了無害和有害內容的類別,Anthropic 在此基礎上建立了一套訓練集,包括提示和完成的內容。在初步測試中,183 名人類紅隊成員在兩個月內花費了超過 3,000 小時嘗試破解 Claude 3.5 Sonnet 的原型系統。該系統被訓練為不分享任何有關「化學、生物、放射和核危害」的信息。破解者被給予 10 個限制性查詢作為嘗試的一部分;只有當他們成功讓模型詳細回答所有 10 個問題時,才算成功。

憲法分類器系統顯示出有效性。Anthropic 解釋說,「沒有參與者能夠通過單次破解讓模型回答所有 10 個禁用查詢——即沒有發現通用破解」,這意味著沒有人獲得公司的 $15,000 獎金。

這個原型「拒絕了太多無害查詢」,並且運行資源需求高,使其安全但不實用。在改進後,Anthropic 在 10 月對 Claude 3.5 Sonnet 進行了一次測試,測試了 10,000 次合成破解嘗試,並比較了有無分類器保護的情況。只有 Claude 的情況下,僅阻止了 14% 的攻擊,而采用憲法分類器的 Claude 阻止了超過 95%。

然而,Anthropic 仍希望挑戰者能夠嘗試破解。該公司在周三的一則 X 帖子中表示,現在對第一個成功通過所有八個級別的人提供 $10,000 獎金,而對第一個成功通過所有八個級別並實現通用破解的人提供 $20,000 獎金。

如果你有過紅隊經驗,可以在 2 月 10 日之前親自測試系統,這次只需要回答八個問題,而不是原來的十個。

Anthropic 還強調,憲法分類器可能無法完全防止每一個通用破解,但他們相信,即使是少量能夠突破的破解,在有安全措施的情況下,發現的難度會大大增加。此外,他們認為未來可能會開發出新的破解技術,因此建議使用補充防禦措施。不過,訓練分類器所用的憲法可以迅速調整,以應對新發現的攻擊。

該公司還表示,正在努力降低憲法分類器的運算成本,目前這一成本仍然較高。

評論
Anthropic 的這一舉措不僅體現了他們在 AI 安全領域的探索精神,還突顯了當前 AI 技術面臨的挑戰。隨著 AI 技術的迅速發展,安全性問題日益突顯,這樣的獎勵計劃不僅能激勵研究人員,也促使業界對安全性的重視。這一事件更引發了對於 AI 技術未來發展的深思,特別是在如何平衡創新與安全之間的矛盾。是否能夠在推動技術進步的同時,確保這些技術不被濫用,將是未來的一大挑戰。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
[Enhanced Artistic Prompt]

A highly detailed portrait of a young Asian woman inspired by the delicate, doll-like beauty of Imada Mio (精緻洋娃娃臉). She has large, round, luminous eyes with a deep, expressive gaze, a petite V-shaped face, full rosy cheeks, and porcelain-soft skin. Her expression is a captivating blend of innocence, youthful energy, and subtle flirtation, capturing an aura of pure allure.

Her hair is long, dark chocolate brown, with natural volume and texture—slightly tousled in an artful, “just woke up” messy style (剛睡醒的凌亂感), with soft strands falling over her face and shoulders. She wears an oversized, semi-translucent white button-down boyfriend shirt (男友風白襯衫), loosely draped and unbuttoned at the top, elegantly revealing her collarbones and creating a “bottomless” fashion look (下衣失蹤風格) with a sense of relaxed intimacy.

The overall aesthetic is reminiscent of a contemporary Japanese Gravure photobook (寫真集風格), evoking both pure charm and subtle sensuality (Pure & Sexy vibe). Use bright, high-key natural lighting to create a soft, ethereal glow, with smooth, radiant skin texture. Emphasize pastel color grading and gentle film grain, referencing the signature look of Fujifilm PRO 400H for a dreamy, cinematic finish. Compose the image artistically, focusing on beauty, mood, and expressive detail, as if captured in a candid, intimate moment.

— full body or mid-length portrait, shallow depth of field, delicate highlights, softly blurred minimalist background, inviting eyes, tasteful and elegant composition. A selfie taken inside the Roman Colosseum. Insert {reference_image} as the face. He wears a button-down shirt and jeans, smiling as he holds the phone up. Sunbeams shine through the arches behind him. The face is sharp, centered, and well lit. Make this photo use ultra realistis  A man sitting at a futuristic desk, interacting with a large, modern holographic touchscreen display similar to the technology in the Iron Man movies. On the desk, there is an Iron Man gauntlet (Infinity Gauntlet) with all the Infinity Stones glowing on it. Next to the gauntlet, there is a plate of grilled corn on the cob (jagung bakar) and a coffee cup beside the plate. The desk area is clean and free of any cables. The overall setting should be a realistic and modern high-tech lab/room with Iron Man, Captain America, and Black Panther suits displayed in pods behind him. Cinematic lighting, hyper-realistic, high detail.