
AI 聊天機械人需要更多書本學習,這些圖書館開始開放藏書
人工智能(AI)聊天機械人過去主要透過網絡上的資訊學習,但現在科技公司開始利用一個更古老的知識寶庫──圖書館藏書。哈佛大學一個收藏了近百萬本書籍的數據集,涵蓋了從15世紀開始、用254種語言寫成的書籍,於2025年6月12日向AI研究人員開放。同時,波士頓公共圖書館也即將開放大量歷史報紙和政府文件的數據。
打開這些保存了數世紀的書籍典藏,對於正面臨活著的作家、視覺藝術家及其他創作者提起的版權訴訟的科技公司來說,無疑是一場數據盛宴。這些創作者指控AI機械人未經同意,使用他們的作品作為訓練素材。
微軟副總法律顧問Burton Davis指出,選擇公共領域的資料作為起點,是一個較為審慎的決定,因為這些內容不涉及版權爭議;圖書館藏書還包含了大量有趣的文化、歷史及語言資料,這些資料在過去數十年的網絡評論中往往缺失,而AI聊天機械人正是主要從這些網絡資訊中學習。
哈佛的Institutional Data Initiative(機構數據倡議)獲得微軟及ChatGPT開發商OpenAI的資助,正與全球多間圖書館合作,探索如何把這些歷史藏品轉化為適合AI使用的數據,同時確保圖書館及其服務的社區也能從中受益。哈佛法學院圖書館創新實驗室的研究主管Aristana Scourtas表示,圖書館員一直是數據及資訊的守護者,這項工作是將部分AI技術的力量重新交還給這些機構。
哈佛公開的數據集名為Institutional Books 1.0,包含超過3.94億頁的掃描書籍,最早可追溯至15世紀的手稿,例如一位韓國畫家關於栽培花草樹木的手寫筆記。19世紀的藏書數量最多,涉及文學、哲學、法律和農業等主題,這些資料都經過歷代圖書館員的精心保存和組織。
哈佛數據倡議執行總監Greg Leppert指出,過往AI訓練數據多非來自原始資料,而是從維基百科、Reddit等網絡論壇,甚至是盜版書籍庫中擷取。哈佛的書籍數據則直接源自實體藏書的掃描版本,這在提升AI系統準確性和可靠性方面非常重要。
以往AI研究者未太關注文本來源,只要有足夠數據(稱為「tokens」的資料單位)就能訓練模型。哈佛數據集估計含有2420億tokens,但這只是現時頂尖AI系統使用的數據量的冰山一角,例如Meta最新的語言模型就用了超過30兆tokens,涵蓋文字、圖片和影片。
Meta正面對喜劇演員Sarah Silverman等作者的集體訴訟,指控其從非法盜版圖書庫中盜取書籍作為AI訓練數據。相對地,真正的圖書館開始站出來,與科技公司合作。
OpenAI今年捐款5000萬美元予多個研究機構,包括牛津大學擁有400年歷史的Bodleian圖書館,該館正數字化稀有古籍,並利用AI協助轉錄。波士頓公共圖書館則強調,任何數字化的資料都將公開供公眾使用,與OpenAI的需求恰好吻合。
數字化工作昂貴,例如波士頓圖書館花費大量心力掃描和整理19至20世紀初,法語系加拿大移民社區常讀的紐英倫地區法語報紙。如今這些文本成為AI訓練數據的價值,有助資助圖書館的其他項目。
哈佛的藏書數據早在2006年已開始數字化,當時是為谷歌打造一個包含超過2000萬本書的線上圖書館。谷歌後來面臨作者的版權訴訟,最終在2016年獲得美國最高法院支持,確認其行為不構成侵權。
這次哈佛與谷歌合作,將公共領域的書籍從谷歌圖書中提取出來,供AI開發者使用。美國的版權保護期限一般為95年,音樂錄音則更長。
這批書籍涵蓋多種語言,英語不到一半,歐洲語言如德語、法語、意大利語、西班牙語和拉丁語為主。這些19世紀的學術文獻,對於建構能像人類一樣計劃和推理的AI代理人,將是非常重要的資源。
Leppert說,在大學中,推理能力的教學和科學方法的流程分析是核心,這些書籍正是培養這些能力的寶庫。
不過,這些資料中也包含過時的科學和醫學理論,以及帶有種族歧視的敘述。哈佛圖書館創新實驗室協調員Kristi Mukk表示,面對龐大數據集,必須處理有害內容和語言的問題,該倡議會提供指引,幫助用戶做出明智決定,負責任地使用AI。
——
美聯社與OpenAI有技術及授權協議,讓OpenAI可使用部分美聯社的文字檔案。
—
評論與觀點
這篇報道揭示了AI訓練資料來源多元化的趨勢,從純網絡數據轉向結合具權威性的歷史典籍,對提升AI的知識深度和推理能力極為關鍵。哈佛與波士頓公共圖書館這種與科技企業合作的模式,既解決了數據合法性問題,也讓公共文化資產得以數字化保存和廣泛利用,實現了雙贏。
然而,這背後也隱含著挑戰:一方面是如何公平地處理版權問題,尊重原作者權益;另一方面是如何在海量歷史資料中剔除過時甚至有害的觀念,避免AI模型學習到錯誤或歧視性內容。這需要圖書館、法律界、科技公司和社會各界共同努力制定標準和監督機制。
對香港讀者來說,這提醒我們在推動AI發展時,不能忽略資料質量和文化多樣性的重要性。香港作為中西文化交匯點,也應思考如何保存和利用本地文化資產,讓AI技術更好地服務本地社會,避免淪為純粹的商業工具。
此外,AI技術的快速演進,對公共文化機構提出了新要求:如何在數字化、開放數據與維護知識權威之間取得平衡,成為未來圖書館和文化機構的新使命。這也為香港的圖書館和文化界提供了寶貴的參考和啟示。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
✈️ Mastercard 尊享優惠|預訂機票+酒店減高達 HK$200!
2025 年 7 月 4 日 至 10 月 2 日
逢星期五於 Trip.com 使用 Mastercard 預訂機票或酒店,
輸入指定優惠代碼即可享折扣。數量有限,先到先得!