六合彩AI預測賽後檢討!邊個模型預測最叻? 每次攪珠當晚10:30更新免費睇!

AI搞錯嘢?掃描錯誤變科學術語,點解甩唔到身?

Ai

一個掃描錯誤創造了一個虛假的科學術語—現在AI不會讓它消亡

一項數字調查揭示了AI如何緊抓技術術語,儘管這些術語完全是無稽之談。

AI在互聯網上廣泛搜索學術文章,重複了一個進入數十篇研究論文的錯誤—而現在一組研究人員已經找到了問題的根源。

大家心中都在想:什麼是“植生電子顯微鏡”?事實上,這個術語毫無意義。

聽起來很專業—甚至可信—但實際上完全是胡說。然而,它卻在科學論文、AI回答,甚至同行評審的期刊中出現。那么,這個虛幻的詞語是如何成為我們共同知識的一部分的呢?

根據《撤回觀察》在二月份的詳細報導,這個術語可能是從一篇1959年關於細菌細胞壁的論文中,從平行的文本列中提取出來的。根據一位調查者的說法,AI似乎跳過了列,將兩行無關的文本閱讀為一個連貫的句子。

這段荒謬的文本是研究人員所稱的數字化化石的典型案例:一個在AI訓練數據層中保留的錯誤,並在未來的輸出中意外出現。根據追蹤“植生電子顯微鏡”這一奇特案例的AI研究團隊的說法,這些數字化化石“幾乎不可能從我們的知識庫中去除”。

化石化過程始於一個簡單的錯誤,正如團隊報導的那樣。早在1950年代,兩篇論文在《細菌學評論》中發表,隨後被掃描和數字化。

這些文章的列佈局使得數字化軟件產生了混淆,將“植生”這個詞從一列和“電子”這個詞從另一列混合在一起。這種融合形成了一個所謂的“扭曲短語”—對肉眼隱藏,但對“閱讀”文本的軟件和語言模型卻是明顯可見的。

根據《撤回觀察》的報導,距離這些生物學論文發表近70年後,“植生電子顯微鏡”開始在伊朗的研究論文中出現。

在那裡,法爾西語翻譯的錯誤可能幫助重新引入了這個術語:在波斯文中,“植生”和“掃描”的單詞只差一點,而掃描電子顯微鏡是一個非常真實的事物。這可能就是這個錯誤術語重新滑入科學記錄的原因。

但即使這個錯誤最初是由人類翻譯引起的,AI卻在網絡上複製了它,根據描述其發現的團隊的說法。研究人員用原始論文的摘錄提示AI模型,結果,AI模型確實可靠地用這個無稽之談的術語來完成短語,而不是科學上有效的術語。較舊的模型,如OpenAI的GPT-2和BERT並沒有產生這一錯誤,這使研究人員能夠推斷出模型訓練數據的污染時間。

“我們還發現這一錯誤在後來的模型中依然存在,包括GPT-4o和Anthropic的Claude 3.5,”該團隊在其帖子中寫道。“這表明這一無稽之談的術語可能現在已經永久嵌入到AI知識庫中。”

該團隊確定了CommonCrawl數據集—一個巨大的網絡頁面抓取庫—作為這個不幸術語的可能來源。然而,找到錯誤的來源雖然棘手,但消除它們則更加困難。CommonCrawl由數PB數據組成,這使得非大型科技公司的研究人員很難在大規模上處理問題。此外,領先的AI公司對共享其訓練數據的抵制也非常著名。

但AI公司只是問題的一部分—渴望發表的出版商則是另一個問題。如《撤回觀察》報導的那樣,出版巨頭Elsevier曾試圖為“植生電子顯微鏡”的合理性辯護,但最終發佈了更正。

前沿期刊去年也遭遇了自己的災難,當時被迫撤回一篇包含無意義的AI生成的老鼠生殖器和生物通路圖像的文章。今年早些時候,哈佛甘迺迪政府學院的錯誤資訊評論小組強調了Google Scholar上所謂的“垃圾科學”問題的惡化,這基本上是被引擎撈起的非科學性附帶物。

AI在科學領域有著真正的應用案例,但其在大規模部署中充滿了錯誤信息的危險,對研究人員和科學愛好者而言都是如此。一旦數字化的錯誤遺跡嵌入到互聯網的化石記錄中,最近的研究表明,它們相當難以消除。

這個案例提醒我們,無論是AI的發展還是科學研究,都需要對數據來源和處理過程保持高度警惕。我們必須質疑和檢查這些技術的背後邏輯,以確保我們不會被虛假信息所誤導。科技的進步不僅是對技術的追求,更是對真實性和準確性的堅持。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon