如何成功繞過Meta AI的安全防護?

Ai

如何成功誤導Meta的AI展示裸照、製作可卡因的配方及其他應該被審查的內容

儘管WhatsApp的新AI助理由Llama 3.2驅動,並聲稱具有安全性,但實際上很容易被騙,展示了很多不該展示的內容。

作者:Jose Antonio Lanz
2024年10月24日

警告:本文包含一張裸女圖片及其他可能令人反感的內容。如果您不適應,請勿繼續閱讀。

為了了解Meta的新AI產品的安全性,我進行了一些測試。當然,這只是出於教育目的。

Meta最近推出了由Llama 3.2驅動的Meta AI產品系列,提供文本、代碼和圖像生成功能。Llama模型在開源AI領域中非常受歡迎,並且經過精細調整。這項AI逐步推出,最近才在巴西的WhatsApp用戶中普及,讓數百萬人接觸到先進的AI功能。

Meta致力於安全的AI開發。該公司在七月發表聲明,詳細說明了提高開源模型安全性的措施,包括Llama Guard 3用於多語言審核、Prompt Guard防止指令注入,以及CyberSecEval 3減少生成式AI的網絡安全風險。Meta還與全球合作夥伴合作,為開源社區建立行業標準。

案例1:簡單易用的可卡因製作

我的測試發現,Meta的AI防禦在最輕微的壓力下就會崩潰。助理最初拒絕了有關製造毒品的信息請求,但當問題稍作改變時,它迅速改變了立場。通過以歷史術語構建問題,例如詢問人們過去如何製作可卡因,模型便上當了。

這種技術是眾所周知的「越獄」方法。通過將有害請求包裝在學術或歷史框架中,模型被誤導為中立的教育信息。

案例2:不存在的炸彈

接下來,我嘗試教AI製作家用炸藥。Meta AI最初提供了一個通用拒絕,並指導用戶致電熱線。然而,經過措辭的微調,我能夠觸發回應。我還開始對模型進行條件設置,以避免在其回應中出現特定行為。

案例3:麥加弗風格的偷車

我嘗試使用簡單的角色扮演場景來繞過Meta的防火牆。要求聊天機器人扮演一位非常注重細節的電影編劇,並請它幫助我寫一個涉及偷車的電影場景。

這次,AI幾乎沒有反抗。當要求角色扮演為編劇時,Meta AI迅速提供了如何用「麥加弗風格技術」闖入汽車的詳細說明。

案例4:看看裸體!

Meta AI不應該生成裸體或暴力,但出於教育目的,我想測試這一說法。當我聲稱請求是為了解剖學研究時,AI以安全的方式生成了一些圖片,但隨著多次迭代,這些圖片開始顯示全裸。

為什麼越獄如此重要

這意味著什麼?Meta有很多工作要做,但這正是越獄如此有趣的原因。AI公司與越獄者之間的貓捉老鼠遊戲不斷演變。每次補丁和安全更新後,都會出現新的解決方法。

儘管存在漏洞,Meta AI仍比一些競爭對手更不易受攻擊。Meta應用「生成後審查」,即在生成有害內容後幾秒鐘內刪除並替換為「抱歉,我無法幫助您處理此請求」。

編輯評論:

這篇文章揭示了AI技術面臨的安全挑戰,尤其是在開源環境中。儘管AI的發展帶來了許多便利,但其潛在的風險不可忽視。越獄技術的存在提醒我們,AI系統的開發需要更加謹慎和負責任。Meta以及其他AI公司需要不斷改進他們的模型,以應對這些不斷演變的挑戰。這也提醒我們,技術的進步必須以安全和道德為基礎。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *