
一個奇怪的術語正在困擾科學論文——我們追溯到AI訓練數據中的一個錯誤
今年早些時候,科學家們發現一個奇特的術語出現在已發表的論文中:“植物性電子顯微鏡”。
這個聽起來技術性十足但實際上毫無意義的詞彙,已經成為一種“數字化石”——在人工智能(AI)系統中保留並加強的錯誤,幾乎無法從我們的知識庫中移除。
就像被困在岩石中的生物化石一樣,這些數字遺物可能會成為我們信息生態系統中的永久存在。
“植物性電子顯微鏡”的案例提供了一個令人擔憂的視角,揭示了AI系統如何在我們的集體知識中延續和放大錯誤。
一個錯誤的掃描與翻譯錯誤
“植物性電子顯微鏡”似乎是由一系列無關的錯誤奇妙地組合而成的。
首先,來自1950年代的兩篇論文,發表在《細菌學評論》期刊上,被掃描和數字化。然而,數字化過程中錯誤地將“植物性”這個詞從一段文字中與“電子”這個詞從另一段文字中結合在一起,從而創造了這個虛幻的術語。
幾十年後,“植物性電子顯微鏡”出現在一些伊朗的科學論文中。在2017年和2019年,有兩篇論文在英文標題和摘要中使用了這個術語。
這似乎是由於翻譯錯誤造成的。在波斯語中,“植物性”和“掃描”的單詞只相差一點。
錯誤的上升
結果是,截至目前,根據Google Scholar的數據,“植物性電子顯微鏡”出現在22篇論文中。其中一篇曾在Springer Nature期刊中遭到爭議性撤回,另有一篇則被Elsevier更正。
這個術語還出現在討論隨後的完整性調查的新聞文章中。
“植物性電子顯微鏡”在2020年代開始出現得更加頻繁。為了找出原因,我們不得不深入現代AI模型,並在其訓練數據的浩瀚層次中進行考古挖掘。
AI污染的實證證據
現代AI聊天機器人如ChatGPT背後的大型語言模型是通過海量文本進行“訓練”,以預測序列中可能出現的下一個單詞。模型的訓練數據的具體內容通常是高度保密的。
為了測試模型是否“知道”植物性電子顯微鏡這個術語,我們輸入了原始論文的片段,看看模型會用這個無意義的術語還是更合理的替代詞來完成它們。
結果顯示,OpenAI的GPT-3一貫用“植物性電子顯微鏡”來完成短語。而早期模型如GPT-2和BERT則沒有。這種模式幫助我們確定了污染發生的時間和地點。
我們還發現這個錯誤在後來的模型中依然存在,包括GPT-4和Anthropic的Claude 3.5,這表明這個無意義的術語可能已經永久嵌入AI知識庫中。
通過比較不同模型的訓練數據集,我們確定CommonCrawl這個抓取互聯網頁面的數據集是AI模型首次學習這個術語的最可能來源。
規模問題
發現這類錯誤並不容易,修復它們幾乎是不可能的。
其中一個原因是規模。以CommonCrawl數據集為例,其大小達到數百萬千兆字節。對於大多數非大型科技公司的研究人員而言,所需的計算資源幾乎無法獲得。
另一個原因是商業AI模型缺乏透明度。OpenAI和許多其他開發者拒絕提供有關其模型訓練數據的具體細節。對某些數據集進行逆向工程的研究努力也因版權問題而遭到阻礙。
當錯誤被發現時,沒有簡單的修復辦法。簡單的關鍵字過濾可以處理特定術語如“植物性電子顯微鏡”,但也會消除合法的引用(例如本文)。
更根本的是,這個案例提出了一個令人不安的問題:還有多少其他無意義的術語存在於AI系統中,等待被發現?
對科學和出版的影響
這個“數字化石”也提出了關於知識完整性的重大問題,隨著AI輔助研究和寫作變得更加普遍。
當被通知有論文使用“植物性電子顯微鏡”時,出版商的反應並不一致。有些撤回了受影響的論文,而另一些則為其辯護。Elsevier在最初試圖證明這個術語的有效性後,最終發佈了更正。
我們尚不清楚是否還有其他此類問題困擾著大型語言模型,但這是非常可能的。無論如何,AI系統的使用已經為同行評審過程創造了問題。
例如,觀察者注意到出現了“拗口短語”,用以逃避自動完整性軟件,例如用“偽造意識”來代替“人工智能”。此外,還在其他撤回的論文中發現了短語“我是一個AI語言模型”。
一些自動篩選工具如Problematic Paper Screener現在將“植物性電子顯微鏡”標記為可能的AI生成內容的警告信號。然而,這些方法只能處理已知的錯誤,而無法解決尚未發現的錯誤。
與數字化石共存
AI的興起為錯誤成為我們知識系統中永久嵌入的機會提供了可能,這一過程並不受任何單一行為者控制。這對科技公司、研究人員和出版商都提出了挑戰。
科技公司必須對訓練數據和方法保持更大的透明度。研究人員必須尋找新的方法來評估面對AI生成的令人信服的無意義信息。科學出版商必須改善其同行評審過程,以發現人類和AI生成的錯誤。
數字化石揭示的不僅是監控龐大數據集的技術挑戰,還是如何在錯誤可能自我延續的系統中維持可靠知識的根本挑戰。
—
這篇文章探討了AI系統如何在知識體系中引入錯誤,特別是“植物性電子顯微鏡”這個術語如何成為數字化石的過程,反映出當前AI技術的局限性和潛在風險。隨著AI在學術界的普及,這樣的問題可能會愈發頻繁地出現,迫使我們重新思考如何評估和驗證知識的可靠性。這不僅是對科技公司的挑戰,還需要研究者和出版商共同努力,確保科學的準確性和完整性。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。