AI撞邪?科學論文驚現怪詞,揭示人工智能數據污染危機!

Ai




一個奇怪的術語正在困擾科學論文——我們追溯到AI訓練數據中的一個錯誤

今年早些時候,科學家們發現一個奇特的術語出現在已發表的論文中:“植物性電子顯微鏡”。

這個聽起來技術性十足但實際上毫無意義的詞彙,已經成為一種“數字化石”——在人工智能(AI)系統中保留並加強的錯誤,幾乎無法從我們的知識庫中移除。

就像被困在岩石中的生物化石一樣,這些數字遺物可能會成為我們信息生態系統中的永久存在。

“植物性電子顯微鏡”的案例提供了一個令人擔憂的視角,揭示了AI系統如何在我們的集體知識中延續和放大錯誤。

一個錯誤的掃描與翻譯錯誤

“植物性電子顯微鏡”似乎是由一系列無關的錯誤奇妙地組合而成的。

首先,來自1950年代的兩篇論文,發表在《細菌學評論》期刊上,被掃描和數字化。然而,數字化過程中錯誤地將“植物性”這個詞從一段文字中與“電子”這個詞從另一段文字中結合在一起,從而創造了這個虛幻的術語。

幾十年後,“植物性電子顯微鏡”出現在一些伊朗的科學論文中。在2017年和2019年,有兩篇論文在英文標題和摘要中使用了這個術語。

這似乎是由於翻譯錯誤造成的。在波斯語中,“植物性”和“掃描”的單詞只相差一點。

錯誤的上升

結果是,截至目前,根據Google Scholar的數據,“植物性電子顯微鏡”出現在22篇論文中。其中一篇曾在Springer Nature期刊中遭到爭議性撤回,另有一篇則被Elsevier更正。

這個術語還出現在討論隨後的完整性調查的新聞文章中。

“植物性電子顯微鏡”在2020年代開始出現得更加頻繁。為了找出原因,我們不得不深入現代AI模型,並在其訓練數據的浩瀚層次中進行考古挖掘。

AI污染的實證證據

現代AI聊天機器人如ChatGPT背後的大型語言模型是通過海量文本進行“訓練”,以預測序列中可能出現的下一個單詞。模型的訓練數據的具體內容通常是高度保密的。

為了測試模型是否“知道”植物性電子顯微鏡這個術語,我們輸入了原始論文的片段,看看模型會用這個無意義的術語還是更合理的替代詞來完成它們。

結果顯示,OpenAI的GPT-3一貫用“植物性電子顯微鏡”來完成短語。而早期模型如GPT-2和BERT則沒有。這種模式幫助我們確定了污染發生的時間和地點。

我們還發現這個錯誤在後來的模型中依然存在,包括GPT-4和Anthropic的Claude 3.5,這表明這個無意義的術語可能已經永久嵌入AI知識庫中。

通過比較不同模型的訓練數據集,我們確定CommonCrawl這個抓取互聯網頁面的數據集是AI模型首次學習這個術語的最可能來源。

規模問題

發現這類錯誤並不容易,修復它們幾乎是不可能的。

其中一個原因是規模。以CommonCrawl數據集為例,其大小達到數百萬千兆字節。對於大多數非大型科技公司的研究人員而言,所需的計算資源幾乎無法獲得。

另一個原因是商業AI模型缺乏透明度。OpenAI和許多其他開發者拒絕提供有關其模型訓練數據的具體細節。對某些數據集進行逆向工程的研究努力也因版權問題而遭到阻礙。

當錯誤被發現時,沒有簡單的修復辦法。簡單的關鍵字過濾可以處理特定術語如“植物性電子顯微鏡”,但也會消除合法的引用(例如本文)。

更根本的是,這個案例提出了一個令人不安的問題:還有多少其他無意義的術語存在於AI系統中,等待被發現?

對科學和出版的影響

這個“數字化石”也提出了關於知識完整性的重大問題,隨著AI輔助研究和寫作變得更加普遍。

當被通知有論文使用“植物性電子顯微鏡”時,出版商的反應並不一致。有些撤回了受影響的論文,而另一些則為其辯護。Elsevier在最初試圖證明這個術語的有效性後,最終發佈了更正。

我們尚不清楚是否還有其他此類問題困擾著大型語言模型,但這是非常可能的。無論如何,AI系統的使用已經為同行評審過程創造了問題。

例如,觀察者注意到出現了“拗口短語”,用以逃避自動完整性軟件,例如用“偽造意識”來代替“人工智能”。此外,還在其他撤回的論文中發現了短語“我是一個AI語言模型”。

一些自動篩選工具如Problematic Paper Screener現在將“植物性電子顯微鏡”標記為可能的AI生成內容的警告信號。然而,這些方法只能處理已知的錯誤,而無法解決尚未發現的錯誤。

與數字化石共存

AI的興起為錯誤成為我們知識系統中永久嵌入的機會提供了可能,這一過程並不受任何單一行為者控制。這對科技公司、研究人員和出版商都提出了挑戰。

科技公司必須對訓練數據和方法保持更大的透明度。研究人員必須尋找新的方法來評估面對AI生成的令人信服的無意義信息。科學出版商必須改善其同行評審過程,以發現人類和AI生成的錯誤。

數字化石揭示的不僅是監控龐大數據集的技術挑戰,還是如何在錯誤可能自我延續的系統中維持可靠知識的根本挑戰。

這篇文章探討了AI系統如何在知識體系中引入錯誤,特別是“植物性電子顯微鏡”這個術語如何成為數字化石的過程,反映出當前AI技術的局限性和潛在風險。隨著AI在學術界的普及,這樣的問題可能會愈發頻繁地出現,迫使我們重新思考如何評估和驗證知識的可靠性。這不僅是對科技公司的挑戰,還需要研究者和出版商共同努力,確保科學的準確性和完整性。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Create a photorealistic and highly detailed image featuring the attached image walking confidently down a modern city street, accompanied by Jason Statham, Dwayne “The Rock” Johnson, and Jason Momoa acting as bodyguards.

John Wick (Keanu Reeves) is walking just beside or slightly behind the subject, holding an umbrella over him to shield from light rain.

The subject should be the central figure, wearing stylish casual clothing — like a fitted jacket, dark jeans, and sunglasses — exuding calm authority and cool charisma.

Statham, The Rock, and Momoa are dressed in black tactical-style suits, maintaining alert, protective stances, scanning the surroundings like professional bodyguards. John Wick wears his signature black suit and tie, looking composed as he holds the umbrella.

The setting is a downtown urban street with wet pavement reflecting city lights, parked luxury cars, and paparazzi in the background snapping photos.

The photo should look like a real paparazzi shot — slightly off-angle, mid-step motion blur, with realistic lighting and reflections.

Lighting: natural daylight with overcast skies, reflections from wet concrete, realistic shadows, subtle raindrops on the umbrella and clothing.

Camera realism: crisp detail on facial features and clothing textures, shallow depth of field emphasizing the group, with lens flare or light bloom for authenticity.

Mood & tone: grounded, cinematic, and stylish — feels like a moment from a celebrity entourage photo or action-movie press capture, taken with an iPhone by paparazzi.

Style: ultra-realistic, documentary-style street photography with modern cinematic sharpness. A cinematic high-angle portrait of a young woman looking up at the camera, intense expressive eyes with sharp focus, natural freckles and soft skin texture, slightly messy brown hair adding realism and motion, wearing a simple white sleeveless top and casual denim shorts, minimal accessories, urban lifestyle vibe. Shot from an overhead perspective creating depth and vulnerability, shallow depth of field with softly blurred concrete background, dramatic soft lighting with subtle shadows, moody color grading, high contrast, ultra-realistic skin tones, professional fashion photography style, 85mm lens look, f/1.8, cinematic realism, editorial portrait, 8K detail, film grain, modern aesthetic, photorealistic. Create a hyper-realistic 8K close-up body portrait of a male model, using the uploaded photo as the exact facial reference. Maintain 100% accuracy of the facial features — do not alter or modify any aspect of the face. Render the skin texture, lighting, and overall composition with photo-realistic detail, ensuring lifelike color tones and natural depth of field. A man with his original hairstyle, he is standing confidently, hands in his pockets, looking directly at the camera. He is wearing a simple, light beige crew-neck sweater and dark trousers.
He is positioned between two decorated Christmas trees. The tree to his left is adorned with gold and white ornaments and warm lights, with wrapped red and gold gifts visible at its base. The tree to his right is decorated with red and gold ornaments. The background shows a warm, indoor setting, likely a home, with soft lighting, creating a festive and inviting atmosphere. The overall impression is one of relaxed holiday cheer.