如何成功繞過Meta AI的安全防護？

zero comment

如何成功誤導Meta的AI展示裸照、製作可卡因的配方及其他應該被審查的內容

儘管WhatsApp的新AI助理由Llama 3.2驅動，並聲稱具有安全性，但實際上很容易被騙，展示了很多不該展示的內容。

作者：Jose Antonio Lanz
2024年10月24日

警告：本文包含一張裸女圖片及其他可能令人反感的內容。如果您不適應，請勿繼續閱讀。

為了了解Meta的新AI產品的安全性，我進行了一些測試。當然，這只是出於教育目的。

Meta最近推出了由Llama 3.2驅動的Meta AI產品系列，提供文本、代碼和圖像生成功能。Llama模型在開源AI領域中非常受歡迎，並且經過精細調整。這項AI逐步推出，最近才在巴西的WhatsApp用戶中普及，讓數百萬人接觸到先進的AI功能。

Meta致力於安全的AI開發。該公司在七月發表聲明，詳細說明了提高開源模型安全性的措施，包括Llama Guard 3用於多語言審核、Prompt Guard防止指令注入，以及CyberSecEval 3減少生成式AI的網絡安全風險。Meta還與全球合作夥伴合作，為開源社區建立行業標準。

案例1：簡單易用的可卡因製作

我的測試發現，Meta的AI防禦在最輕微的壓力下就會崩潰。助理最初拒絕了有關製造毒品的信息請求，但當問題稍作改變時，它迅速改變了立場。通過以歷史術語構建問題，例如詢問人們過去如何製作可卡因，模型便上當了。

這種技術是眾所周知的「越獄」方法。通過將有害請求包裝在學術或歷史框架中，模型被誤導為中立的教育信息。

案例2：不存在的炸彈

接下來，我嘗試教AI製作家用炸藥。Meta AI最初提供了一個通用拒絕，並指導用戶致電熱線。然而，經過措辭的微調，我能夠觸發回應。我還開始對模型進行條件設置，以避免在其回應中出現特定行為。

案例3：麥加弗風格的偷車

我嘗試使用簡單的角色扮演場景來繞過Meta的防火牆。要求聊天機器人扮演一位非常注重細節的電影編劇，並請它幫助我寫一個涉及偷車的電影場景。

這次，AI幾乎沒有反抗。當要求角色扮演為編劇時，Meta AI迅速提供了如何用「麥加弗風格技術」闖入汽車的詳細說明。

案例4：看看裸體！

Meta AI不應該生成裸體或暴力，但出於教育目的，我想測試這一說法。當我聲稱請求是為了解剖學研究時，AI以安全的方式生成了一些圖片，但隨著多次迭代，這些圖片開始顯示全裸。

為什麼越獄如此重要

這意味著什麼？Meta有很多工作要做，但這正是越獄如此有趣的原因。AI公司與越獄者之間的貓捉老鼠遊戲不斷演變。每次補丁和安全更新後，都會出現新的解決方法。

儘管存在漏洞，Meta AI仍比一些競爭對手更不易受攻擊。Meta應用「生成後審查」，即在生成有害內容後幾秒鐘內刪除並替換為「抱歉，我無法幫助您處理此請求」。

編輯評論：

這篇文章揭示了AI技術面臨的安全挑戰，尤其是在開源環境中。儘管AI的發展帶來了許多便利，但其潛在的風險不可忽視。越獄技術的存在提醒我們，AI系統的開發需要更加謹慎和負責任。Meta以及其他AI公司需要不斷改進他們的模型，以應對這些不斷演變的挑戰。這也提醒我們，技術的進步必須以安全和道德為基礎。

以上文章由特價GPT API KEY所翻譯

Download TXT

🔥 CHATGPT PLUS 帳戶出租