讓AI模型的回應驗證更簡單
透過讓用戶清楚看到大型語言模型引用的數據,這個工具加快了手動驗證的速度,幫助用戶識別AI錯誤。
儘管大型語言模型(LLM)的能力令人印象深刻,但它們並不完美。有時,這些人工智能模型會在回答查詢時生成不正確或不支持的信息,這種現象被稱為「幻覺」。
由於這種幻覺問題,LLM的回應經常需要人類事實核查員進行驗證,特別是在醫療或金融等高風險領域。然而,驗證過程通常需要人們閱讀模型引用的冗長文件,這是一項繁瑣且容易出錯的任務,可能阻止某些用戶使用生成式AI模型。
為了幫助人類驗證員,麻省理工學院的研究人員創建了一個用戶友好的系統,使人們能夠更快速地驗證LLM的回應。這個名為SymGen的工具使LLM生成的回應帶有直接指向來源文件的引用,例如數據庫中的特定單元格。
用戶可以懸停在文本回應中突出顯示的部分,查看模型用於生成特定詞或短語的數據。同時,未突出顯示的部分顯示用戶需要額外檢查和驗證的短語。
麻省理工電氣工程和計算機科學研究生、SymGen論文的共同作者Shannon Shen表示:「我們讓人們能夠選擇性地關注他們需要更關心的文本部分。最終,SymGen可以讓人們對模型的回應更有信心,因為他們可以輕鬆地仔細查看以確保信息得到驗證。」
透過用戶研究,Shen和他的合作者發現SymGen相比手動程序加快了大約20%的驗證時間。通過讓人類更快、更容易地驗證模型輸出,SymGen可以幫助人們識別在各種實際情況中部署的LLM中的錯誤,例如生成臨床筆記或總結金融市場報告。
Shen的合作作者包括共同作者兼EECS研究生Lucas Torroba Hennigen;EECS研究生Aniruddha “Ani” Nrusimha;Good Data Initiative總裁Bernhard Gapp;以及資深作者David Sontag,EECS教授、MIT Jameel Clinic成員、計算機科學和人工智能實驗室(CSAIL)臨床機器學習小組的負責人;以及CSAIL成員、EECS助理教授Yoon Kim。這項研究最近在語言建模會議上發表。
符號引用
為了幫助驗證,許多LLM被設計為生成引用,指向外部文件,並附帶語言回應,讓用戶可以檢查它們。然而,這些驗證系統通常是在沒有考慮人們需要篩選大量引用的努力下設計的,Shen說。
「生成式AI旨在減少用戶完成任務的時間。如果你需要花幾個小時閱讀所有這些文件來驗證模型所說的內容是否合理,那麼實際上擁有這些生成內容的幫助就不大了。」Shen說。
研究人員從將要完成工作的人的角度來解決驗證問題。
SymGen用戶首先提供LLM可以在其回應中引用的數據,例如包含籃球比賽統計數據的表格。然後,研究人員執行一個中間步驟,而不是立即要求模型完成任務,例如從這些數據中生成比賽摘要。他們提示模型以符號形式生成其回應。
有了這個提示,每次模型想在其回應中引用詞語時,它必須寫出包含其所引用信息的數據表格中的特定單元格。例如,如果模型想在其回應中引用「波特蘭拓荒者」這個短語,它將用數據表格中包含那些詞的單元格名稱替換該文本。
「因為我們有這個中間步驟,文本以符號格式存在,我們能夠擁有非常細緻的引用。對於輸出中的每個文本範圍,我們可以確定它在數據中的確切位置。」Torroba Hennigen說。
SymGen然後使用基於規則的工具解決每個引用,將相應的文本從數據表格中複製到模型的回應中。
「這樣,我們知道它是逐字複製的,所以我們知道文本中對應實際數據變量的部分不會有錯誤。」Shen補充說。
簡化驗證
模型可以創建符號回應是因為它的訓練方式。大型語言模型從互聯網上獲取大量數據,其中一些數據以「佔位符格式」記錄,代碼替換實際值。
當SymGen提示模型生成符號回應時,它使用類似的結構。
「我們以特定方式設計提示來利用LLM的能力。」Shen補充說。
在用戶研究中,大多數參與者表示SymGen使驗證LLM生成的文本更加容易。他們比使用標準方法更快地驗證模型的回應大約20%。
然而,SymGen受限於源數據的質量。LLM可能引用錯誤的變量,而人類驗證員可能不知情。
此外,用戶必須擁有結構化格式的源數據,如表格,以輸入SymGen。目前,該系統僅適用於表格數據。
展望未來,研究人員正在增強SymGen,使其能夠處理任意文本和其他形式的數據。具有這種能力,它可以幫助驗證AI生成的法律文件摘要的部分內容。例如,他們還計劃與醫生一起測試SymGen,以研究它如何識別AI生成的臨床摘要中的錯誤。
這項工作部分由Liberty Mutual和MIT Quest for Intelligence Initiative資助。
評論與新見解
SymGen的開發展示了在人工智能發展中的一個重要方向,即如何讓人類更有效地參與到AI的驗證過程中。這不僅可以提升AI的準確性和可靠性,還能增強人類對AI的信任。尤其是在醫療和金融等高風險領域,這種信任尤為重要。SymGen的符號引用法是一種創新的方式,能夠讓用戶更直接地檢查AI的數據來源,從而更快地發現潛在的錯誤。
然而,SymGen目前的限制也提醒我們,AI系統的準確性依賴於高質量的數據源。未來的發展方向可以考慮如何擴展這個工具的適用範圍,讓它能夠處理更多類型的數據格式。此外,SymGen在實際應用中的效果如何,特別是在醫療領域的應用,將是一個值得關注的研究方向。這些挑戰的解決將進一步推動AI在各行各業中的應用,提升其實用性和可信度。
以上文章由特價GPT API KEY所翻譯。而圖片則由FLUX根據內容自動生成。