一篇83年前的短篇小說預示了互聯網的黯淡未來
在網絡架構創建的五十年前,阿根廷作家豪爾赫·路易斯·博爾赫斯已經想象出了一個類似的類比版本。
互聯網的未來將會如何演變?
一些小說家已經探索了這個問題的可能性。
在2019年,科幻作家尼爾·史蒂芬森在他的小說《墮落》中描繪了一個不遠的未來,互聯網依然存在,但卻充斥著錯誤信息、虛假信息和廣告,導致其幾乎無法使用。小說中的角色通過訂閱“編輯流”來應對這一問題,這是一種由人選擇的新聞和信息,視為可信的來源。
不過,這種服務的缺點是只有富人才能負擔,讓大多數人只能消費低質量、未經篩選的在線內容。在某種程度上,這種情況已經發生了:許多新聞機構,如《紐約時報》和《華爾街日報》,將其編輯過的內容放置在付費牆後面,而社交媒體平台如X和TikTok則滋生著虛假信息。
史蒂芬森的預測能力令人印象深刻——他在1992年的小說《雪崩》中預見了元宇宙,而他1995年發表的《鑽石時代》中,則包含了一種互動的入門書,功能類似於聊天機器人。
聊天機器人的興起
目前,互聯網上仍然有相當一部分內容是事實和表面上看來真實的,比如已經過同行評審、事實核查或以某種方式審核的文章和書籍。
大型語言模型(LLMs)的開發者們,正是利用了這些資源。然而,這些模型要施展其魔法,必須攝取大量高質量的文本進行訓練。大量的文字已經從在線來源中提取,並提供給這些新興的LLMs。
問題在於,儘管網絡龐大,但它仍然是一種有限資源。尚未被過度開採的高質量文本正在變得稀缺,這導致《紐約時報》所稱的“內容新興危機”。
這迫使像OpenAI這樣的公司與出版商達成協議,以獲取更多原材料以供其貪婪的機器人使用。但根據一項預測,額外的高質量訓練數據的短缺可能會早在2026年就會出現。
隨著聊天機器人的輸出進入網絡,這些二代文本——包含虛構信息的“幻覺”,以及明顯錯誤的建議,例如在比薩上放膠水——將進一步污染網絡。如果聊天機器人與不良信息的來源互動,它可能會吸收他們的有害觀點。微軟在2016年就遭遇了這一問題,當時其推出的聊天機器人Tay開始重複種族主義和性別歧視的內容,最終不得不關閉。
隨著時間的推移,所有這些問題可能會使在線內容變得比今天更不可靠和不實用。此外,接受低質量內容餵養的LLMs可能會產生更多有問題的輸出,也隨之出現在網絡上。
一個無限且無用的圖書館
想象一個反饋循環,導致持續的劣化過程,因為機器人以自身不完美的輸出為食並進行訓練,這並不困難。2024年7月發表在《自然》上的一篇論文探討了基於遞歸生成數據訓練AI模型的後果。結果顯示,“不可逆缺陷”可能導致“模型崩潰”,就像一幅圖像的副本及其副本的副本,會失去對原始圖像的清晰度。
這種情況會變得多糟呢?
考慮博爾赫斯1941年的短篇小說《巴別圖書館》。在計算機科學家蒂姆·伯納斯-李創建網絡架構的五十年前,博爾赫斯已經想象出一個類似的類比。
在他那篇3000字的故事中,作家想象了一個由無數六角形房間組成的世界。每個房間的書架上放著均勻的書籍,這些書籍的內容必然包含字母的所有可能排列。
在博爾赫斯想象的這個無盡而廣闊的內容圖書館中,尋找有意義的東西就像在一堆乾草中尋找針。起初,這種認識令人欣喜:根據定義,必然會有書籍詳細描述人類的未來和生命的意義。
然而,居民們在尋找這些書籍的過程中卻發現,絕大多數書籍僅包含毫無意義的字母組合。真相存在於那裡——但每一種可能的謊言也同樣存在。而所有這些都埋藏在無法想象的無數胡言亂語中。
即使經過幾個世紀的探索,也僅僅找到幾個有意義的片段。而且,即便如此,卻無法確定這些連貫文本是事實還是謊言。希望變成了絕望。
互聯網會不會變得如此污染,以至於只有富人才能負擔準確和可靠的信息?還是會有無數的聊天機器人產生如此多的劣質文字,以至於在網上找到準確的信息就像在乾草堆中尋找針?
互聯網常常被描述為人類的偉大成就之一。但像其他任何資源一樣,認真思考它的維護和管理至關重要——否則我們可能會面臨博爾赫斯所想象的反烏托邦願景。
在當今數字時代,我們必須警惕信息的質量和來源,否則將可能陷入一場信息的浩劫。互聯網的未來不僅取決於技術的發展,更在於我們如何選擇使用和管理這些工具。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。