每個選擇都重要:數據安全與隱私在人工智能應用中的角色
作者:Debdutta Guha
Google LLC 安全與隱私副主任
人工智能,特別是生成式人工智能(GenAI),正在徹底改變我們與科技的互動方式。從聊天機器人和虛擬助手的對話技巧,到個性化內容的創造力,以及高級數據分析的能力,人工智能越來越深地融入我們的生活中。
隨著大型科技公司爭相在這一變革的前沿佔據一席之地,我們正站在一場人類與科技互動的深刻演變的邊緣,這一切都由生成式人工智能所引領。
然而,作為一名負責保護用戶數據的專業人士,我對這場人工智能革命既感到好奇又保持謹慎。在過去14年中,我一直在保護用戶數據,這讓我深刻認識到一個真理:我們數據的安全和隱私最終取決於我們的選擇——無論是作為開發者還是用戶。
是時候深入探討這些選擇及其承擔的責任,特別是這些選擇如何與生成式人工智能相關。
從互動到洞察,負責任地行事
數據驅動大型語言模型(LLMs),就如同電力驅動計算機——沒有數據,什麼都無法運作。在過去的二十年中,數據既容易收集,又極具價值。但我常常思考:我們該如何劃定界限?
想想亞馬遜的員工和承包商收聽 Alexa 的錄音、劍橋分析醜聞,或 Clearview AI 爬取社交媒體以建立面部識別數據庫的事件。這些做法引發了不可否認的倫理、安全和隱私擔憂。
隨著開源人工智能平台日益流行,數據安全和隱私必須成為不可妥協的優先事項。開源依賴於透明度,但這也意味著作為開發者的我們需要負起道德責任,保護用戶數據。
讓我們深入探討開源人工智能的風險,並分享可行的應對策略。
風險
大多數人工智能系統所面臨的風險與任何大規模不受限制的數據收集系統相似。然而,人工智能系統的規模使得這些風險變得更加突出。以下是一些主要擔憂:
• **不明確的數據收集/保留政策**:人工智能對訓練數據的渴求引發了一場激烈的數據收集競賽,開發者不斷測試能收集到多少數據以及如何收集。更大的問題是,用戶往往對所收集的數據、存儲方式或使用原因缺乏控制,這為濫用和未經授權的訪問打開了大門。
• **錯誤信息、偏見與歧視**:人工智能驅動的深度偽造和虛假敘事正在助長錯誤信息和抹黑運動,世界經濟論壇的2024年全球風險報告將錯誤信息列為未來兩年最大的全球威脅。此外,人工智能訓練數據集中的偏見導致了令人擔憂的結果,例如亞馬遜的招聘工具對女性的懲罰、偏見的信用評分,或加劇歧視的面部識別系統。
• **數據洩露與安全**:IBM的一項調查顯示,只有24%的生成式人工智能項目重視安全,這是一個令人擔憂的趨勢,因為在人工智能開發中,速度往往超越安全。由於人工智能處理敏感數據,它成為壞分子的主要目標。在2023年,OpenAI遭遇數據洩露,而三星在意外數據洩露後禁止使用ChatGPT。令人震驚的是,研究表明,只需對3%的訓練數據進行污染,就可能導致模型輸出高達23%的錯誤。
應對措施
傳統的機密性、完整性和可用性三要素仍然適用於人工智能系統,但我們還必須專注於保護整個人工智能管道,以確保模型的可靠性和可信度。雖然NIST關於對抗性機器學習的報告提供了有關具體攻擊和應對措施的寶貴見解,但從更廣泛的角度看待人工智能安全至關重要。
以下是一些方法:
**治理、風險與合規性(GRC)**
在過去四年中,我一直沉浸在GRC的世界中,我堅信這是安全人工智能的基礎。GRC不應該是事後考慮,而應該從一開始就融入人工智能系統中。
隨著新的人工智能法規(如歐盟人工智能法案)的出現,專注於GRC的人工智能應用有機會脫穎而出。
• **尊重數據隱私**:僅收集必要數據,給用戶細緻的控制權,並始終獲得他們的明確同意。放棄“選擇退出”而改用“選擇加入”的數據收集方式。
• **保持透明**:維護清晰、簡潔和更新的隱私政策,詳細說明數據的收集、使用、共享和存儲方式。(令人震驚的是,我所見的大多數第三方應用在這方面都做得不夠好。)
• **保持問責**:定期審計系統,以確保合規性和安全控制真正有效。
**保障數據供應鏈**
我們應該專注於保護每一個階段:數據收集和處理、模型開發和訓練,以及在生產環境中的實時使用。
• **向左移動**:在SDLC中將脆弱性評估“向左移動”,以確保應用程序從一開始就安全——這在2024年仍然是相對罕見的情況。
• **保護數據**:使用強大的數據安全控制,如加密、訪問控制和合規監控,來保護訓練數據集。
• **維護數據完整性**:定期審計數據集,以確保它們具有代表性、多樣性且無偏見。
• **檢測異常**:建立自動化和強大的異常檢測策略。
• **追蹤一切**:保持詳細的數據來源、轉換和處理過程的日誌,以實現完全透明和可追溯性。
• **採用新技術**:利用差異測試和聯邦學習等方法,增強安全性和隱私。
• **制定事件應對計劃**:為數據洩露建立明確的事件管理和緊急應對協議。
未來
人工智能革命,特別是生成式人工智能的興起,帶來了無限的可能性,但也為數據安全和隱私帶來了前所未有的挑戰。
我們正處於一個十字路口。要成功導航,開發者、政策制定者和用戶必須攜手合作,建立一個讓人工智能惠及所有人的未來。這意味著:
• 建立強大的數據治理框架,以確保在生成式人工智能應用中負責任地收集、存儲和使用數據。
• 創建適應性的監管框架,以應對這一快速發展的技術所帶來的獨特挑戰。
• 促進所有利益相關者之間的合作和教育,以推動負責任的人工智能創新,並解決社會問題。
人工智能的未來是光明的,但前提是我們必須優先考慮數據安全和隱私。通過主動應對這些挑戰,我們可以釋放人工智能的真正潛力,確保這些強大的技術在道德和安全的基礎上發展和部署,造福所有人。
在這個快速變化的科技環境中,數據安全和隱私的問題不僅僅是技術挑戰,更是一種道德責任。開發者和政策制定者需要不斷更新認知,確保在推動創新時不會犧牲用戶的信任和安全。只有這樣,我們才能在人工智能的未來中找到平衡,實現可持續的進步。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。