博爾赫斯預言：網絡的悲慘未來

zero comment

一篇83年前的短篇小說預示了互聯網的黯淡未來

在網絡架構創建的五十年前，阿根廷作家豪爾赫·路易斯·博爾赫斯已經想象出了一個類似的類比版本。

互聯網的未來將會如何演變？

一些小說家已經探索了這個問題的可能性。

在2019年，科幻作家尼爾·史蒂芬森在他的小說《墮落》中描繪了一個不遠的未來，互聯網依然存在，但卻充斥著錯誤信息、虛假信息和廣告，導致其幾乎無法使用。小說中的角色通過訂閱“編輯流”來應對這一問題，這是一種由人選擇的新聞和信息，視為可信的來源。

不過，這種服務的缺點是只有富人才能負擔，讓大多數人只能消費低質量、未經篩選的在線內容。在某種程度上，這種情況已經發生了：許多新聞機構，如《紐約時報》和《華爾街日報》，將其編輯過的內容放置在付費牆後面，而社交媒體平台如X和TikTok則滋生著虛假信息。

史蒂芬森的預測能力令人印象深刻——他在1992年的小說《雪崩》中預見了元宇宙，而他1995年發表的《鑽石時代》中，則包含了一種互動的入門書，功能類似於聊天機器人。

聊天機器人的興起

目前，互聯網上仍然有相當一部分內容是事實和表面上看來真實的，比如已經過同行評審、事實核查或以某種方式審核的文章和書籍。

大型語言模型（LLMs）的開發者們，正是利用了這些資源。然而，這些模型要施展其魔法，必須攝取大量高質量的文本進行訓練。大量的文字已經從在線來源中提取，並提供給這些新興的LLMs。

問題在於，儘管網絡龐大，但它仍然是一種有限資源。尚未被過度開採的高質量文本正在變得稀缺，這導致《紐約時報》所稱的“內容新興危機”。

這迫使像OpenAI這樣的公司與出版商達成協議，以獲取更多原材料以供其貪婪的機器人使用。但根據一項預測，額外的高質量訓練數據的短缺可能會早在2026年就會出現。

隨著聊天機器人的輸出進入網絡，這些二代文本——包含虛構信息的“幻覺”，以及明顯錯誤的建議，例如在比薩上放膠水——將進一步污染網絡。如果聊天機器人與不良信息的來源互動，它可能會吸收他們的有害觀點。微軟在2016年就遭遇了這一問題，當時其推出的聊天機器人Tay開始重複種族主義和性別歧視的內容，最終不得不關閉。

隨著時間的推移，所有這些問題可能會使在線內容變得比今天更不可靠和不實用。此外，接受低質量內容餵養的LLMs可能會產生更多有問題的輸出，也隨之出現在網絡上。

一個無限且無用的圖書館

想象一個反饋循環，導致持續的劣化過程，因為機器人以自身不完美的輸出為食並進行訓練，這並不困難。2024年7月發表在《自然》上的一篇論文探討了基於遞歸生成數據訓練AI模型的後果。結果顯示，“不可逆缺陷”可能導致“模型崩潰”，就像一幅圖像的副本及其副本的副本，會失去對原始圖像的清晰度。

這種情況會變得多糟呢？

考慮博爾赫斯1941年的短篇小說《巴別圖書館》。在計算機科學家蒂姆·伯納斯-李創建網絡架構的五十年前，博爾赫斯已經想象出一個類似的類比。

在他那篇3000字的故事中，作家想象了一個由無數六角形房間組成的世界。每個房間的書架上放著均勻的書籍，這些書籍的內容必然包含字母的所有可能排列。

在博爾赫斯想象的這個無盡而廣闊的內容圖書館中，尋找有意義的東西就像在一堆乾草中尋找針。起初，這種認識令人欣喜：根據定義，必然會有書籍詳細描述人類的未來和生命的意義。

然而，居民們在尋找這些書籍的過程中卻發現，絕大多數書籍僅包含毫無意義的字母組合。真相存在於那裡——但每一種可能的謊言也同樣存在。而所有這些都埋藏在無法想象的無數胡言亂語中。

即使經過幾個世紀的探索，也僅僅找到幾個有意義的片段。而且，即便如此，卻無法確定這些連貫文本是事實還是謊言。希望變成了絕望。

互聯網會不會變得如此污染，以至於只有富人才能負擔準確和可靠的信息？還是會有無數的聊天機器人產生如此多的劣質文字，以至於在網上找到準確的信息就像在乾草堆中尋找針？

互聯網常常被描述為人類的偉大成就之一。但像其他任何資源一樣，認真思考它的維護和管理至關重要——否則我們可能會面臨博爾赫斯所想象的反烏托邦願景。

在當今數字時代，我們必須警惕信息的質量和來源，否則將可能陷入一場信息的浩劫。互聯網的未來不僅取決於技術的發展，更在於我們如何選擇使用和管理這些工具。