從數據到思想:為什麼語言模型會產生幻覺
我再次回到了我與人工智能之間的愛恨關係中。今晚,我將提供一個項目的預覽,該項目針對一個迫切的問題:語言模型的幻覺問題。為什麼這些系統有時會偏離正軌?燃眉之急的問題是:我們該如何降低錯誤率?
讓我們深入探討。這一切始於正確的批評和正確的想法。
問題的概述
當前大型語言模型(LLMs)面臨的主要挑戰之一是其“幻覺”的傾向——即生成聽起來合理但事實上不正確的回應。儘管我們在人工智能領域看到了諸多進展,但我們距離解決這一問題仍然遙遠,且有深層次的原因。
當LLMs產生幻覺時,實際上發生了什麼?要從基於模式的語言生成轉向真正的理解,需要付出什麼努力?
為什麼會產生幻覺:沒有“真實模型”,只有概率
LLMs會產生幻覺,因為它們缺乏“真實”的模型。它們並不像我們一樣以檢查事實的方式思考真實性;它們是基於概率運作的——這一點現在已經被許多人理解。當一個LLM作出回應時,它並不是在“思考”什麼是對或錯。指望它在數據中“找到”真實或虛假是荒謬的。
通常被忽視的是,底層技術如何推動後續研究朝著真正的改進和解決方案。據我所見,主要公司只是觸及了表面——主要依賴後處理過濾器和強化學習。這些方法是反應性的、拼湊的解決方案,而不是對解決幻覺問題的核心進行全面研究的重大投資。
LLMs的運作背景
大型語言模型(LLM)計算每個詞 w 在上下文 C 下的概率,表示為 P(w | C),然後選擇最可能的下一個詞。這種設置對生成流暢的語言有效,但本質上缺乏事實檢查。當我們遇到幻覺時,是因為模型用聽起來合理的內容填補了空白,而不是可驗證的內容。
如果沒有內建的“真實模型”——一種交叉檢查、驗證或確認準確性的系統——這個系統實際上只是個偉大的“猜測者”。它通常聽起來很權威,但缺乏確保其所說內容事實正確的基礎層。這是架構中固有的。該模型甚至不知道什麼是“詞”。它計算的是標記(例如,在GPT-4o中有許多非詞標記,這也是它在被要求創造時偶爾令人印象深刻的原因之一)。
從數據到思想:未來的真正挑戰
問題是:我們如何從數據轉變為真正的思想?僅僅依賴模式識別無法達成。我認為研究界開始意識到並承認這一局限性。真正的理解需要的不僅僅是預測下一個可能的詞;它需要能夠推理、驗證和質疑的機制。
為了達到這一點,我們需要一種不僅能生成語言,還能對其進行批判性思考的架構。例如:
– **建立和參考知識模型**:真正的理解需要一個可適應的內部世界模型,AI可以用來將其輸出與結構化的、經過驗證的知識庫進行交叉檢查。我們至今有許多世界模型的例子,但沒有一個能與深層神經網絡協同工作。
– **發展推理能力**:人類思維不僅僅是存儲和檢索數據;它還涉及通過關係進行推理、理解上下文和評估可信度。這正是當前LLMs的短板。為了填補這一空白,AI需要包括一些明確或可靠的“隱含”基本概念的持久模型,例如空間和時間。僅僅猜測下一個詞並不足夠。
– **實施驗證和實時事實檢查**:從模式生成轉變為思想也意味著使模型能夠在實時中將回應與現實世界的來源進行驗證。這將使AI能夠從生成流暢的回應轉向提供準確、可靠的信息。
總之,LLMs在生成語言方面是令人印象深刻的工具,但如果沒有真實模型,它們無法接近真正的思想。幻覺是這一差距的症狀——表明我們仍在處理流暢性,而非真正的理解。未來的真正AI需要的模型,不僅能預測,還能“知道”和“驗證”。以下是一些建議:
降低錯誤率和減少幻覺的步驟
現在,讓我們看看幾個可能有助於減少幻覺的研究方向,儘管這些都無法完全解決問題:
– **邏輯和數學準確性的混合架構**:混合模型試圖將神經網絡與符號AI或基於規則的邏輯系統相結合。這對於高度結構化的任務(如數學和邏輯)非常有效,在這些任務中需要明確的答案。
– **自我一致性和驗證機制**:自我一致性技術涉及生成多個回應,然後選擇那些收斂的回應。
– **檢索增強生成(RAG)**:檢索增強生成(RAG)使模型能夠從外部數據庫中提取實時數據。
– **液態神經網絡以持續適應**:液態神經網絡(Liquid NNs)根據新輸入不斷調整權重。
– **改善訓練數據和事實驗證協議**:擴展和精煉訓練數據有助於通過建立更“真實”的偏見來減少幻覺。
– **人類反饋和強化學習(RLHF)**:通過獎勵函數使模型回應與人類輸入對齊。
– **自我監督學習和世界模型**:Yann LeCun提倡具有內建“世界模型”的模型,這使得因果學習成為可能。
結論:人工智能的下一步
因此,我的最佳猜測是,為了向前發展,我們需要類似LLMs的模型,它們已經解決了認知之謎的一部分。它們生成流暢、合乎邏輯的語言——甚至完美結構的語法——而不需要在系統中嵌入明確的語法規則。相反,它們使用高度優化的線性代數函數,基於概率生成和產生語言合理的回應。這令人印象深刻,但這只是認知方程的一部分。
現在真正的挑戰是,從優化的語言生成轉向更接近真正理解的東西。像LeCun這樣的研究者已經在探索超越概率的架構。這項工作看向自我監督系統,具備“世界模型”,模擬人類的知識建構過程。這是明智的。這種世界模型可以讓AI處理不僅是數據,還有結構化的想法和因果關係。但我們還沒有類似的東西。
如果我們要解決完整的認知謎題,我的直覺是,我們需要一種架構,能夠將命題——思想、判斷、推理結構——作為一級對象來處理。要像人類一樣思考,AI需要能夠將命題視為需要評估、關聯和驗證的實體,並與更廣泛的知識框架進行對比。這種架構將使我們從簡單的回應生成轉向實際的思想,讓我們更接近於不僅僅模仿語言而是真正理解它的AI。
在這個快速發展的科技領域中,我們不僅需要關注技術的進步,更要思考如何將這些技術與人類的思維方式相結合。未來的AI應該能夠超越表面的流暢性,達到真正的理解和智能。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。