MIT新技術：保障AI訓練數據，唔怕資料外洩！

zero comment

新方法有效保護敏感的AI訓練數據

這種方法在確保攻擊者無法提取秘密信息的同時，保持了AI模型的準確性。

數據隱私的保護是有代價的。雖然有一些安全技術可以保護敏感用戶數據，例如客戶地址，免受攻擊者的提取，但這些技術通常會降低模型的準確性。

麻省理工學院的研究人員最近開發了一種基於新隱私指標「PAC隱私」的框架，這種框架可以在保持AI模型性能的同時，確保敏感數據（如醫療影像或財務紀錄）不受攻擊者的威脅。現在，他們進一步改進了這一技術，使其計算效率更高，改善了準確性和隱私之間的權衡，並創建了一個正式的模板，可以用來對幾乎任何算法進行隱私化，而無需訪問該算法的內部運作。

研究團隊利用他們的新版本PAC隱私對幾個經典數據分析和機器學習任務的算法進行了隱私化處理。

他們還展示了，使用他們的方法，對於更「穩定」的算法來說，隱私化更容易。穩定算法的預測在訓練數據稍有改動時依然保持一致。更高的穩定性有助於算法在面對未見數據時做出更準確的預測。

研究人員表示，新PAC隱私框架的效率提升以及可以遵循的四步模板，將使這一技術在現實場景中更易於部署。

「我們通常認為穩健性和隱私性與構建高性能算法無關，甚至可能是衝突的。我們首先製作一個可用的算法，然後使其穩健，最後再加強隱私。事實上，我們已經證明這並不總是正確的框架。如果你能讓你的算法在多種環境下表現更好，基本上就可以免費獲得隱私。」麻省理工學院研究生及該隱私框架論文的主要作者Mayuri Sridhar表示。

她的論文合作者包括即將於秋季在普渡大學擔任助理教授的Hanshen Xiao和麻省理工學院電氣工程學教授Srini Devadas。這項研究將在IEEE安全與隱私研討會上發表。

估算噪聲

為了保護用於訓練AI模型的敏感數據，工程師們通常會向模型中添加噪聲或隨機性，以使對手難以猜測原始訓練數據。這種噪聲會降低模型的準確性，因此添加的噪聲越少越好。

PAC隱私能自動估算為達到所需隱私水平所需添加的最小噪聲量。

原始的PAC隱私算法多次運行用戶的AI模型，對不同樣本的數據集進行測試。它測量這些輸出之間的方差及其相關性，並利用這些信息來估算需要添加多少噪聲以保護數據。

這種新的PAC隱私變體同樣工作，但不需要表示整個數據相關性的矩陣；它只需要輸出方差。

「因為你估算的東西比整個協方差矩陣小得多，所以可以更快地完成。」Sridhar解釋道。這意味著可以擴展到更大的數據集。

添加噪聲可能會損害結果的效用，重要的是要最小化效用損失。由於計算成本，原始的PAC隱私算法僅限於添加各向同性噪聲，這種噪聲在所有方向上均勻添加。因為新的變體估算的是各向異性噪聲，即根據訓練數據的特定特徵量身定制的噪聲，用戶可以添加更少的噪聲以達到相同的隱私水平，從而提高隱私化算法的準確性。

隱私與穩定性

在研究PAC隱私時，Sridhar推測更穩定的算法將更容易使用這一技術進行隱私化。她利用更高效的PAC隱私變體對幾個經典算法進行了測試。

更穩定的算法在訓練數據稍有變動時，輸出變化較小。PAC隱私將數據集拆分成若干部分，對每一部分數據運行算法並測量輸出之間的方差。方差越大，為了隱私化算法需要添加的噪聲就越多。

採用穩定性技術來降低算法輸出中的方差，也會減少需要添加的噪聲量，她解釋道。

「在最佳情況下，我們可以實現這種雙贏的情境。」她表示。

團隊展示了這些隱私保證在測試的算法中依然強勁，並且新的PAC隱私變體在估算噪聲時所需的試驗次數減少了數個量級。他們還在攻擊模擬中測試了該方法，表明其隱私保證能抵禦最先進的攻擊。

「我們希望探索如何與PAC隱私共同設計算法，使其從一開始就更穩定、安全和穩健。」Devadas說。研究人員還希望在更複雜的算法中測試他們的方法，進一步探索隱私與效用之間的權衡。

「現在的問題是：這些雙贏的情況何時會發生，我們如何能讓它們更頻繁地發生？」Sridhar表示。

「我認為PAC隱私在這個環境中的主要優勢是它是一個黑箱——你不需要手動分析每一個查詢來進行結果的隱私化。這完全可以自動完成。我們正在積極構建一個PAC支持的數據庫，通過擴展現有的SQL引擎來支持實用、自動化和高效的私密數據分析。」威斯康辛大學麥迪遜分校計算機科學系助理教授Xiangyao Yu表示，他並未參與這項研究。

這項研究部分得到了思科系統公司、Capital One、美國國防部及MathWorks獎學金的支持。

—

在這篇文章中，我們看到麻省理工學院的研究人員在數據隱私領域取得了顯著進展，尤其是對AI模型的隱私保護與準確性之間的平衡。這項研究不僅展示了技術的創新，還引發了對現有數據保護方法的反思。隨著數據隱私問題日益受到重視，這種新方法可能成為未來AI發展的重要參考。我們需要進一步思考，如何在快速發展的技術背景下，同時保障用戶的隱私和數據的有效性。這也強調了跨學科合作的重要性，只有結合計算機科學、數據分析與法律倫理，才能建立一個更加安全的數據使用環境。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

MIT新技術：保障AI訓練數據，唔怕資料外洩！

chatgpt

🔥 CHATGPT PLUS 帳戶出租

MIT新技術：保障AI訓練數據，唔怕資料外洩！

chatgpt

Related Articles

iOS 26升級冷淡 Apple用戶遲疑不前

CES 2026最神奇方形AI智能手機揭秘！

AI記憶體大缺貨 價格飆升50%以上！

🔥 CHATGPT PLUS 帳戶出租

AI記憶體大缺貨價格飆升50%以上！