提升AI精準度及自信度於答案生成
研究人員引入了一種名為「答案前綴生成」(ANSPRE)的新方法,以提高大型語言模型(LLMs)在開放域問答中的精確性和可靠性。ANSPRE協助LLMs生成簡潔的答案,同時提供更可靠的自信評分,這對於醫療、法律和教育等高風險領域尤為重要。
透過在模型提示中使用「答案前綴」,此方法指導LLMs專注於生成精確的答案短語。經過多項基準測試,ANSPRE顯著提升了LLMs的性能,使其在現實應用中更具實用性。
關鍵事實:
– ANSPRE透過生成簡潔的答案短語和可靠的自信評分來改善LLMs。
– 它使用「答案前綴」來引導模型產生精確的答案。
– ANSPRE在醫療和法律等高風險領域顯著提高LLMs的表現。
大型語言模型(LLMs)是設計用來理解和生成人類語言的機器學習模型。最先進的LLMs在開放域問答(ODQA)中表現出色,能夠回答事實性問題。
這在金融、醫療和教育等領域特別有用。然而,LLMs通常依賴其預訓練知識來回答問題,而這些知識在不斷變化的世界中可能會過時。
另一個重要方面是LLMs生成自信評分的能力,這反映了模型對其答案正確性的確定程度。這些分數在金融、法律和醫療等高風險領域尤為關鍵。儘管LLMs可以為特定回應生成序列概率,但此概率在校準方面通常不可靠。
這意味著預測的自信度可能無法準確反映正確性的概率,並不應作為自信評分。無法識別精確的答案短語和生成可靠的自信評分限制了LLMs的實際應用。
為了解決這些限制,日本先進科學技術研究所的研究團隊由阮黎明教授領導,包括博士生黎阮康和阮蝶軒,提出了一種名為「答案前綴生成」(ANSPRE)的新方法。
阮教授表示:「ANSPRE可以提高LLMs的生成質量,讓它們輸出精確的答案短語,並生成可靠的自信評分。此外,它可以整合到任何LLM和複雜架構中。」
他們的研究將在2024年10月19日至24日舉行的第27屆歐洲人工智能會議(ECAI-2024)上發表。
ANSPRE的主要概念是向LLM提示中添加一段引導至答案短語的文字。
這段文字被稱為「答案前綴」。阮教授解釋道:「考慮這個問題:『第一次世界大戰中流行的需要兩枚硬幣的賭博遊戲是什麼?』這個問題的答案前綴可以是:『第一次世界大戰中流行的需要兩枚硬幣的賭博遊戲是___。』由於大多數LLMs是用因果語言建模訓練的,使用答案前綴可以讓LLM在空白處生成精確的答案短語。」
面對一個問題,ANSPRE首先使用選定的少量示例生成答案前綴。
研究人員證明,僅需少量手工製作的示例即可生成高質量的答案前綴。然後,ANSPRE使用現有的檢索器從知識庫中收集相關文檔,類似於RAG。它將文檔、問題和答案前綴結合起來,提示LLM生成答案短語。
最後,ANSPRE彙總用於回答問題的不同文檔中的答案短語和自信評分,以產生最終答案。
研究人員通過構建「自我反思答案前綴生成」(SELF-ANSPRE)展示了ANSPRE的多功能性,該方法將ANSPRE與「自我反思RAG」(SEFT-RAG)結合。SEFT-RAG通過引入反思標記來改善LLM生成,決定何時以及從知識庫中檢索什麼內容,並根據文檔和答案的效用對回應進行排名。在SELF-ANSPRE中,ANSPRE的自信評分與反思標記的評分相結合以生成最終排名分數。
研究人員在三個ODQA基準和各種LLM架構上測試了ANSPRE。結果顯示,ANSPRE顯著改善了預訓練和指令調整的LLMs,生成的高質量答案和自信評分與正確性強烈相關。
此外,SELF-ANSPRE顯著增強了SEFT-RAG。他們的分析還強調了每個ANSPRE組件的重要性。
阮教授指出:「我們的方法可以在醫療診斷、法律援助和教育等關鍵領域實現更簡潔和準確的問題回答,並改善客戶支持。此外,從長遠來看,我們的研究可以通過提高對AI系統的信任促進人類與人工智能的廣泛合作。」
總體而言,這一創新方法標誌著LLMs的重要進步,並可能導致其在敏感領域的更廣泛應用。
編輯評論:
這項研究展示了人工智能技術在精確性和可靠性方面的重大進步,尤其是在高風險領域的應用中。ANSPRE方法不僅提高了答案生成的質量,還確保了自信評分的可靠性,這對於建立對AI系統的信任至關重要。這樣的技術進步不僅能促進人工智能在各行各業的應用,還可能改變我們與技術互動的方式。未來,我們可能會看到更多類似的創新,進一步推動人類和人工智能之間的合作和互信。
以上文章由特價GPT API KEY所翻譯