AI訓練數據驚現兒童性侵影像風波

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

用於偵測裸體的AI數據集竟含有兒童性虐待影像

加拿大兒童保護中心(Canadian Centre for Child Protection,簡稱C3P)發現,一個用於開發AI工具以偵測裸體的龐大影像數據集,竟包含多張兒童性虐待影像(CSAM)。這個名為NudeNet的數據集,收錄了超過70萬張從網絡上爬取的圖片,供AI訓練自動識別裸體。自2019年6月起,這數據集通過Academic Torrents平台公開下載,至今已有超過250個學術項目引用或使用該數據。

C3P在對50個學術項目進行非全面審查時發現,13個項目直接使用了NudeNet數據集,另有29個依賴NudeNet的分類器或模型。更令人震驚的是,C3P在數據集中找到超過120張已確認或已知受害者的兒童性虐待影像,其中近70張聚焦於兒童的生殖或肛門部位,受害者多為未進入青春期的兒童。部分圖片甚至描繪了涉及兒童和青少年的性行為,如口交或陰莖-陰道穿透等。

下載該數據集的個人或機構,若未特意搜尋,根本無法察覺其中含有CSAM,但擁有這些圖片本身在法律上已屬犯罪。加州大學柏克萊分校教授、數碼影像操控專家Hany Farid指出,CSAM的持有與散佈不但違法,且受害者極可能從未同意這些圖片被這樣使用,即使目的是為了善意的AI研究,也無法以此正當化手段。

C3P技術總監Lloyd Richardson強調,許多AI模型的訓練數據來自無差別或倫理上存疑的收集方式,導致兒童性虐待和剝削影像混入數據集,這本可避免。他們已向Academic Torrents發出刪除通知,該數據集現已被下架。

這項發現與2023年史丹福大學網絡政策中心的研究結果相似,他們曾揭露LAION-5B數據集(大型AI圖像生成數據集)中也含有CSAM。該數據集管理機構在報告發表後刪除相關內容,並僅於清理後重新分享。

Richardson呼籲,隨著各國持續投資AI技術,研究人員及業界必須在開發過程中全程考慮倫理問題,避免類似事件再度發生。

評論與啟示

這次曝光反映出AI訓練數據管理上的嚴重漏洞,尤其在倫理和法律層面。數據集的來源若不嚴格把關,可能成為無意間散佈非法內容的溫床,對受害者造成二度傷害。這提醒我們,AI技術的發展不能只追求技術突破,更需建立完善的監管和審查機制。

此外,研究機構與企業在利用公開數據時,必須提升倫理意識和責任感。盲目使用大規模網絡爬取的數據,不僅會觸犯法律,也可能損害公眾對AI的信任。這起事件促使業界反思:如何在追求創新與保護人權之間取得平衡?未來AI數據集的倫理審核流程,應成為標準作業程序,而非可有可無的附加條件。

最後,受害者權益應被放在首位,相關機構需確保所有數據的合法性和合倫理性,避免把受害者的痛苦再次商品化,這才是真正負責任的科技發展態度。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。