AI撞邪？科學論文驚現怪詞，揭示人工智能數據污染危機！

zero comment

🚀 最新勁爆優惠！成為 Premium 會員即送一年 ChatGPT Plus！

由即日起，只需 港幣 HK$880/年，
即送一年 OPENAI 官方 ChatGPT Plus 獨立帳號（價值 USD $200）
仲送埋 VPN，保證你暢用無阻！

立即成為尊貴會員，解鎖獨家內容、AI 功能及更多優惠！

會員專享福利：
1️⃣ 官方 ChatGPT Plus 帳號出租 HK$98/月
2️⃣ 代升級你的帳號到 ChatGPT Plus HK$165 / HK$118
3️⃣ 官方 OpenAI API Key US$10 = HK$80
4️⃣ YouTube Premium Family 成員 HK$98/年

立即加入 Premium 會員 🔗

一個奇怪的術語正在困擾科學論文——我們追溯到AI訓練數據中的一個錯誤

今年早些時候，科學家們發現一個奇特的術語出現在已發表的論文中：“植物性電子顯微鏡”。

這個聽起來技術性十足但實際上毫無意義的詞彙，已經成為一種“數字化石”——在人工智能（AI）系統中保留並加強的錯誤，幾乎無法從我們的知識庫中移除。

就像被困在岩石中的生物化石一樣，這些數字遺物可能會成為我們信息生態系統中的永久存在。

“植物性電子顯微鏡”的案例提供了一個令人擔憂的視角，揭示了AI系統如何在我們的集體知識中延續和放大錯誤。

一個錯誤的掃描與翻譯錯誤

“植物性電子顯微鏡”似乎是由一系列無關的錯誤奇妙地組合而成的。

首先，來自1950年代的兩篇論文，發表在《細菌學評論》期刊上，被掃描和數字化。然而，數字化過程中錯誤地將“植物性”這個詞從一段文字中與“電子”這個詞從另一段文字中結合在一起，從而創造了這個虛幻的術語。

幾十年後，“植物性電子顯微鏡”出現在一些伊朗的科學論文中。在2017年和2019年，有兩篇論文在英文標題和摘要中使用了這個術語。

這似乎是由於翻譯錯誤造成的。在波斯語中，“植物性”和“掃描”的單詞只相差一點。

錯誤的上升

結果是，截至目前，根據Google Scholar的數據，“植物性電子顯微鏡”出現在22篇論文中。其中一篇曾在Springer Nature期刊中遭到爭議性撤回，另有一篇則被Elsevier更正。

這個術語還出現在討論隨後的完整性調查的新聞文章中。

“植物性電子顯微鏡”在2020年代開始出現得更加頻繁。為了找出原因，我們不得不深入現代AI模型，並在其訓練數據的浩瀚層次中進行考古挖掘。

AI污染的實證證據

現代AI聊天機器人如ChatGPT背後的大型語言模型是通過海量文本進行“訓練”，以預測序列中可能出現的下一個單詞。模型的訓練數據的具體內容通常是高度保密的。

為了測試模型是否“知道”植物性電子顯微鏡這個術語，我們輸入了原始論文的片段，看看模型會用這個無意義的術語還是更合理的替代詞來完成它們。

結果顯示，OpenAI的GPT-3一貫用“植物性電子顯微鏡”來完成短語。而早期模型如GPT-2和BERT則沒有。這種模式幫助我們確定了污染發生的時間和地點。

我們還發現這個錯誤在後來的模型中依然存在，包括GPT-4和Anthropic的Claude 3.5，這表明這個無意義的術語可能已經永久嵌入AI知識庫中。

通過比較不同模型的訓練數據集，我們確定CommonCrawl這個抓取互聯網頁面的數據集是AI模型首次學習這個術語的最可能來源。

規模問題

發現這類錯誤並不容易，修復它們幾乎是不可能的。

其中一個原因是規模。以CommonCrawl數據集為例，其大小達到數百萬千兆字節。對於大多數非大型科技公司的研究人員而言，所需的計算資源幾乎無法獲得。

另一個原因是商業AI模型缺乏透明度。OpenAI和許多其他開發者拒絕提供有關其模型訓練數據的具體細節。對某些數據集進行逆向工程的研究努力也因版權問題而遭到阻礙。

當錯誤被發現時，沒有簡單的修復辦法。簡單的關鍵字過濾可以處理特定術語如“植物性電子顯微鏡”，但也會消除合法的引用（例如本文）。

更根本的是，這個案例提出了一個令人不安的問題：還有多少其他無意義的術語存在於AI系統中，等待被發現？

對科學和出版的影響

這個“數字化石”也提出了關於知識完整性的重大問題，隨著AI輔助研究和寫作變得更加普遍。

當被通知有論文使用“植物性電子顯微鏡”時，出版商的反應並不一致。有些撤回了受影響的論文，而另一些則為其辯護。Elsevier在最初試圖證明這個術語的有效性後，最終發佈了更正。

我們尚不清楚是否還有其他此類問題困擾著大型語言模型，但這是非常可能的。無論如何，AI系統的使用已經為同行評審過程創造了問題。

例如，觀察者注意到出現了“拗口短語”，用以逃避自動完整性軟件，例如用“偽造意識”來代替“人工智能”。此外，還在其他撤回的論文中發現了短語“我是一個AI語言模型”。

一些自動篩選工具如Problematic Paper Screener現在將“植物性電子顯微鏡”標記為可能的AI生成內容的警告信號。然而，這些方法只能處理已知的錯誤，而無法解決尚未發現的錯誤。

與數字化石共存

AI的興起為錯誤成為我們知識系統中永久嵌入的機會提供了可能，這一過程並不受任何單一行為者控制。這對科技公司、研究人員和出版商都提出了挑戰。

科技公司必須對訓練數據和方法保持更大的透明度。研究人員必須尋找新的方法來評估面對AI生成的令人信服的無意義信息。科學出版商必須改善其同行評審過程，以發現人類和AI生成的錯誤。

數字化石揭示的不僅是監控龐大數據集的技術挑戰，還是如何在錯誤可能自我延續的系統中維持可靠知識的根本挑戰。

—

這篇文章探討了AI系統如何在知識體系中引入錯誤，特別是“植物性電子顯微鏡”這個術語如何成為數字化石的過程，反映出當前AI技術的局限性和潛在風險。隨著AI在學術界的普及，這樣的問題可能會愈發頻繁地出現，迫使我們重新思考如何評估和驗證知識的可靠性。這不僅是對科技公司的挑戰，還需要研究者和出版商共同努力，確保科學的準確性和完整性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

你好 👋, 今日有咩可以幫到你?

AI撞邪？科學論文驚現怪詞，揭示人工智能數據污染危機！

🚀 最新勁爆優惠！成為 Premium 會員即送一年 ChatGPT Plus！

chatgpt

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！

AI撞邪？科學論文驚現怪詞，揭示人工智能數據污染危機！

🚀 最新勁爆優惠！成為 Premium 會員 即送一年 ChatGPT Plus！

chatgpt

Related Articles

Google AI摘要打擊出版界流量大跌！

NVIDIA AI無人機殺手 蟒蛇噴射300mph制敵

網絡安全：如何輕鬆通過人機驗證？

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

🚀 最新勁爆優惠！成為 Premium 會員即送一年 ChatGPT Plus！

NVIDIA AI無人機殺手蟒蛇噴射300mph制敵

🎬 YouTube Premium 家庭 Plan成員一位只需 HK$148/年！