大型語言模型新技術提升推理能力

Ai

技術提升大型語言模型的推理能力

結合自然語言與編程的方法,使大型語言模型能夠透明地解決數值、分析及語言相關的任務。

Adam Zewe | MIT新聞

發布日期:
2024年6月14日

說明:
一項新技術使像GPT-4這樣的大型語言模型能夠更準確地解決數值或符號推理任務,方法是通過編寫Python程式碼來生成正確的答案給用戶查詢。
圖片來源:Christine Daniloff, MIT; iStock

像驅動ChatGPT這樣的大型語言模型在起草法律簡報、分析客戶評論的情感或將文件翻譯成不同語言等任務上展示了令人印象深刻的表現。

這些機器學習模型通常僅使用自然語言來處理信息並回答查詢,這使得它們在執行需要數值或符號推理的任務時變得困難。

例如,一個大型語言模型可能能夠記住並背誦最近的美國總統及其生日,但如果被問到“1950年後當選的美國總統中,誰是在星期三出生的?”這樣的問題時,模型可能會失敗。(答案是吉米·卡特)。

來自麻省理工學院(MIT)及其他地方的研究人員提議了一種新技術,該技術使大型語言模型能夠通過生成程序來解決自然語言、數學和數據分析以及符號推理任務。

他們的方法稱為自然語言嵌入程序(NLEPs),涉及提示語言模型創建並執行Python程序來解決用戶的查詢,然後將解決方案輸出為自然語言。

他們發現,NLEPs使大型語言模型在廣泛的推理任務上達到更高的準確性。該方法還具有通用性,這意味著一個NLEP提示可以用於多個任務。

NLEPs還提高了透明度,因為用戶可以檢查程序以準確了解模型如何推理查詢,如果模型給出了錯誤答案,則可以修正程序。

“我們希望人工智能以透明和可信的方式進行複雜的推理。雖然還有很長的路要走,但我們已經表明,將編程和自然語言的能力結合在大型語言模型中是一個非常好的潛在第一步,朝著一個人們可以完全理解和信任其AI模型內部運作的未來邁進,”MIT博士後研究員兼NLEPs論文的聯合作者羅宏音說。

羅宏音與聯合作者張天華(香港中文大學研究生)和葛佳欣(北京大學本科生)、MIT電氣工程和計算機科學系助理教授兼計算機科學和人工智能實驗室(CSAIL)成員金允、論文的主要作者詹姆斯·格拉斯(CSAIL口語語言系統組的高級研究科學家和負責人)以及其他人合作。該研究將在北美計算語言學協會年會上展示。

用程序解決問題

許多流行的大型語言模型通過給定一些自然語言輸入來預測下一個單詞或標記。雖然像GPT-4這樣的模型可以用來編寫程序,但它們將這些程序嵌入自然語言中,這可能導致程序推理或結果出錯。

使用NLEPs,MIT的研究人員採取了相反的方法。他們提示模型生成一個完全用Python代碼編寫的逐步程序,然後在程序中嵌入必要的自然語言。

NLEP是一個包含四個步驟的問題解決模板。首先,模型調用解決任務所需的必要包或函數。第二步涉及導入任務所需知識的自然語言表示(例如美國總統生日列表)。第三步,模型實現計算答案的函數。最後一步,模型將結果輸出為一行自然語言,並在需要時自動生成數據可視化。

“這就像一個數字計算器,只要程序正確,它總能給你正確的計算結果,”羅宏音說。

用戶可以輕鬆檢查程序並直接修正代碼中的錯誤,而不需要重新運行整個模型來排除故障。

該方法還比其他一些方法更高效。如果用戶有許多類似的問題,他們可以生成一個核心程序,然後替換某些變量,而不需要反覆運行模型。

為了提示模型生成NLEP,研究人員給它一個總體指令來編寫Python程序,提供兩個NLEP示例(一個包含數學,另一個包含自然語言),以及一個測試問題。

“通常,當人們進行這種少量提示時,他們仍然需要為每個任務設計提示。我們發現,我們可以為許多任務設計一個提示,因為它不是教語言模型解決一個問題的提示,而是教語言模型通過編寫程序來解決許多問題的提示,”羅宏音說。

“讓語言模型使用代碼進行推理為工具使用、輸出驗證、對模型能力和思維方式的更結構化理解等提供了許多機會,”MIT-IBM Watson AI Lab的首席科學家Leonid Karlinsky說。

“這裡沒有魔法”

NLEPs在提示GPT-4解決一系列符號推理任務(如跟踪洗牌對象或玩24點遊戲)以及指令遵循和文本分類任務時達到了超過90%的準確性。研究人員發現,NLEPs甚至比特定任務的提示方法高出30%的準確性。該方法還顯示出對開源大型語言模型的改進。

除了提高大型語言模型的準確性外,NLEPs還可以改善數據隱私。由於NLEP程序是本地運行的,敏感用戶數據不需要發送到像OpenAI或Google這樣的公司進行模型處理。

此外,NLEPs可以使小型語言模型在不需要重新訓練模型的情況下執行更好,這可能是一個昂貴的過程。

“這裡沒有魔法。我們沒有一個更昂貴或更高級的語言模型。我們所做的只是使用程序生成而不是自然語言生成,我們可以使其表現顯著更好,”羅宏音說。

然而,NLEP依賴於模型的程序生成能力,因此該技術對於在有限數據集上訓練的小型模型效果不佳。未來,研究人員計劃研究可以使較小的語言模型生成更有效NLEP的方法。此外,他們還想研究提示變化對NLEP的影響,以提高模型推理過程的穩健性。

這項研究部分由香港感知和互動智能中心支持。

編輯評論:

本文探討了NLEPs(自然語言嵌入程序)這一新技術如何提升大型語言模型(LLMs)的推理能力。這是一個有趣且具突破性的研究,因為它結合了程式設計與自然語言處理,使得LLMs能夠更準確地解決數值和符號推理任務。這不僅提升了模型的準確性,還提高了透明度和可檢查性,這對於建立信任至關重要。

然而,這項技術也有其局限性,例如對小型模型的適用性問題。此外,雖然NLEPs能夠提高模型的效率,但它依賴於模型的程序生成能力,這意味著在某些情況下可能需要進一步的研究和改進。

總的來說,這項研究為未來的人工智能技術提供了一個有希望的方向,即通過結合程式設計和自然語言來提高AI的推理能力和透明度。這對於AI的實際應用和用戶信任的建立都是一大進步。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *