
Meta被指控下載超過81.7TB的盜版書籍以訓練AI,作者表示這是侵權行為
最近公開的電子郵件被指為對Meta的著作權案件中“最具破壞性證據”,這些案件由書籍作者提起,指控Meta非法使用盜版書籍訓練其AI模型。
上個月,Meta承認下載了一個名為LibGen的有爭議的大型數據集,該數據集包含數千萬本盜版書籍。但有關下載的具體細節直到昨天才首次公開,這些未經刪減的電子郵件顯示,Meta下載了“至少81.7TB的數據,來自多個陰影圖書館,包括至少35.7TB來自Z-Library和LibGen。”作者的法庭文件中指出,“Meta還曾從LibGen下載過80.6TB的數據。”
“Meta的非法下載行為的規模令人震驚,”作者的文件聲稱,並堅持認為“相對較小的數據盜竊行為——僅僅是Meta盜竊的著作權作品的0.008%——已經導致法官將這種行為轉交給美國檢察官辦公室進行刑事調查。”
種子擴展了作者的分發理論
書籍作者一直在向Meta施壓,要求更多有關下載的資訊,因為Meta的下載似乎明顯涉及著作權問題,並因此看似在分發盜版書籍。
然而,Meta對於這些證據的要求持抵制態度,並在一項裁定中拒絕了作者要求審查Meta的下載和種子數據的請求。儘管如此,作者們仍然收集了證據,其中包括一份關鍵文件,文件中至少有一名員工似乎不安地開玩笑有關潛在的法律風險,最終越來越嚴肅地提出他的擔憂。
“從公司筆記本電腦下載種子似乎不太妥當,”Meta研究工程師Nikolay Bashlykov在2023年4月的一條消息中寫道,並附上了一個微笑的表情符號。在同一條消息中,他表達了“擔心使用Meta的IP地址來下載盜版內容。”
到了2023年9月,Bashlykov似乎不再使用表情符號,直接諮詢法律團隊,並在一封電子郵件中強調“使用種子將涉及‘種子’文件——即,將內容分享到外部,這在法律上可能不合規。”
作者聲稱,討論下載的電子郵件證明Meta知道這是“非法的”。而Bashlykov的警告似乎未被重視,作者指控證據顯示Meta選擇隱藏其下載行為,同時在2024年4月仍在從多個陰影圖書館下載和種子數據。
Meta被指控隱瞞種子行為
據說,Meta試圖通過不使用Facebook的伺服器來隱藏種子行為,以“避免”任何人“追溯到下載者/種子者”,Meta研究員Frank Zhang在內部信息中提到,這項工作被描述為“隱形模式”。Meta還據稱調整設置“以便最小化種子行為的發生”,負責項目管理的Meta高管Michael Clark在證詞中提到。
隨著新信息浮出水面,作者聲稱參與決定下載LibGen的Meta員工必須再次被傳喚,因為新事實“與先前的證詞相矛盾”。
例如,Mark Zuckerberg聲稱自己並未參與使用LibGen訓練AI模型的決策。但未經刪減的消息顯示,“使用LibGen的決定發生在對MZ的先前升級之後,”作者指控。
Meta尚未對Ars的評論請求作出回應,並在整個訴訟過程中堅持認為在LibGen上進行AI訓練屬於“合理使用”。
然而,Meta之前在上個月提交的駁回動議中提到其下載行為,告訴法庭“原告並未提出任何證據表明任何書籍的任何部分確實是由第三方從Meta通過種子下載的,更不用說原告的書籍以某種方式被Meta分發。”
儘管Meta可能對其法律策略充滿信心,但這一新的下載情節似乎使其案件變得複雜,讓作者能夠擴大關鍵的分發理論,這對於贏得直接的著作權侵權索賠至關重要,不僅僅是聲稱Meta的AI輸出非法分發了他們的作品。
隨著對Meta的種子行為的有限審查現在正在進行,Meta目前並未對直接著作權侵權索賠中的種子行為進行抗辯,告訴法庭其計劃“澄清事實並駁斥……這一毫無根據的指控,並在簡易判決中進行辯護。”
—
在這一事件中,Meta的行為不僅引發了法律上的爭議,也引發了關於知識產權和技術倫理的更深層次討論。隨著科技的進步,我們必須面對如何平衡創新與保護創作者權益的挑戰。Meta的情況提醒我們,企業在追求技術突破時,必須謹慎考慮其行為的法律後果。這不僅是對企業自身的警示,也是對整個行業的一次反思,如何在數位時代中尊重和保護創作的智慧財產。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。