Meta被控利用盜版內容訓練AI
最近,Meta公司又陷入了新的爭議,因為該公司被指控在訓練其大型語言模型Llama時,使用了來自盜版網站的內容。這起案件成為了首個針對科技公司因訓練AI而提起的著作權訴訟。
文件揭露Meta AI的訓練過程
據《Wired》報導,Meta在2023年被起訴,原因是其被指控用盜版內容訓練Llama這一大型語言模型。這宗案件被稱為「Kadrey等人訴Meta Platforms」,由小說家Richard Kadrey和Christopher Golden提出,他們聲稱Meta在未經授權的情況下使用了受版權保護的內容。
直到目前為止,Meta向法庭提交的文件中包含了編輯過的信息,但加州北區地區法官Vince Chhabria下令公開原始文件,這一決定最近已經實施。
這些文件揭示了Meta員工之間關於Meta AI和Llama的對話。在其中一段對話中,一名工程師表示「從[Meta擁有的]公司筆記本電腦上下載torrent感覺不對」,這證實了公司確實使用了盜版內容來訓練其AI。另一段對話暗示「MZ」(馬克·祖克伯格)授權使用盜版材料。
證據表明,Meta使用了來自LibGen的內容,這是一個大型的盜版書籍、雜誌和學術文章庫。LibGen成立於2008年,至今已遭遇多次著作權訴訟,然而沒有人知道實際運營這個「盜版中心」的是誰。據報導,Meta還使用了其他「影子圖書館」的內容進行AI訓練。
該公司辯稱,它在法律的「合理使用」條款下使用了公共材料,這一條款允許在特定情況下未經許可使用受版權保護的內容,具體情況需逐案分析。Meta還聲稱,他們只是在「利用文本進行統計模型語言建模並生成原創表達」。
Meta擴展AI功能至21個新國家
這並不是大型科技公司第一次被指控用受版權保護的內容訓練AI模型。去年,一項調查揭示了蘋果公司創建的OpenELM模型包含超過170,000個YouTube視頻的字幕。
雖然最初這讓人們認為蘋果在用受版權內容訓練Apple Intelligence,但該公司後來解釋說,OpenELM是一個為研究目的創建的開源模型,且其數據庫並未用於支持Apple Intelligence。
根據蘋果的說法,其在iOS和macOS上提供的AI功能是基於「授權數據進行訓練的,包括選擇特定功能所需的數據以及由我們的網絡爬蟲收集的公共數據」。
值得注意的是,許多大型出版商,如《紐約時報》和《大西洋月刊》,選擇不與Apple Intelligence的訓練分享他們的內容。
編輯評論
這一事件不僅揭示了Meta在AI訓練過程中的倫理問題,也引發了對整個科技行業在使用版權內容方面的廣泛討論。科技公司在追求創新和效率的同時,是否應該對知識產權保持更高的尊重?這不僅是法律問題,也關乎行業的道德標準。隨著AI技術的迅猛發展,如何平衡創新與版權保護,將成為未來科技公司必須面對的重要課題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。