AI 驗證新工具:提升準確性與效率

Ai

**讓AI模型的回應更易於驗證**

透過讓用戶清楚看到大型語言模型引用的數據,這個工具加快了手動驗證過程,幫助用戶辨識AI錯誤。

由於大型語言模型(LLM)的出色能力,它們仍然不完美。有時,這些人工智能模型會在回應查詢時生成不正確或不支持的信息,這種現象稱為「幻覺」。

由於這種幻覺問題,LLM的回應通常需要由人類事實核查員進行驗證,尤其是在醫療或金融等高風險的環境中。然而,驗證過程通常需要人們閱讀模型引用的冗長文件,這是一項繁瑣且容易出錯的工作,可能阻止一些用戶在第一時間部署生成式AI模型。

為了幫助人類驗證員,麻省理工學院的研究人員創造了一個用戶友好的系統,讓人們能更快速地驗證LLM的回應。這個名為SymGen的工具,讓LLM生成帶有引用的回應,直接指向來源文件中的位置,例如數據庫中的特定單元格。

用戶可以懸停在其文本回應的突出部分上,以查看模型用於生成特定詞或短語的數據。同時,未突出顯示的部分則顯示用戶需要額外關注和驗證的短語。

「我們給予人們選擇性關注文本中需要更多注意部分的能力。最終,SymGen可以讓人們對模型的回應有更高的信心,因為他們可以輕鬆地仔細查看以確保信息得到驗證」,電氣工程與計算機科學研究生及SymGen論文的共同作者Shannon Shen說。

透過用戶研究,Shen和他的合作者發現,SymGen將驗證時間加快了約20%,相較於手動程序。通過讓人類更快速、更容易地驗證模型輸出,SymGen可以幫助人們在各種現實情況下識別LLM中的錯誤,從生成臨床筆記到總結金融市場報告。

Shen的合作者包括共同作者Lucas Torroba Hennigen;EECS研究生Aniruddha “Ani” Nrusimha;Good Data Initiative的總裁Bernhard Gapp;以及資深作者David Sontag,EECS教授、MIT Jameel Clinic成員和計算機科學與人工智能實驗室(CSAIL)臨床機器學習小組的領導者;以及Yoon Kim,EECS助理教授和CSAIL成員。這項研究最近在語言建模會議上發表。

**符號引用**

為了幫助驗證,許多LLM設計生成引用,指向外部文件,隨著語言生成的回應一起提供給用戶檢查。然而,這些驗證系統通常是事後設計的,沒有考慮到人們需要篩選眾多引用所需的努力,Shen說。

「生成式AI旨在減少用戶完成任務的時間。如果你需要花幾個小時閱讀所有這些文件以驗證模型說的是否合理,那麼在實踐中擁有這些生成就不那麼有幫助了」,Shen說。

研究人員從將要完成工作的人的角度來處理驗證問題。

SymGen用戶首先向LLM提供其可以在回應中引用的數據,例如包含籃球比賽統計數據的表格。然後,研究人員執行一個中間步驟,而不是立即要求模型完成任務,例如從這些數據中生成比賽摘要。他們提示模型以符號形式生成其回應。

有了這個提示,每次模型想要在其回應中引用單詞時,它必須寫出包含其引用信息的數據表中的特定單元格名稱。例如,如果模型想在其回應中引用「波特蘭開拓者」這個短語,它會用包含這些單詞的數據表中的單元格名稱替換該文本。

「因為我們有這個中間步驟,文本以符號格式存在,我們能夠擁有非常細緻的引用。我們可以說,對於輸出中的每一段文本,這正是數據中對應的地方」,Torroba Hennigen說。

SymGen然後使用基於規則的工具解決每個引用,將對應的文本從數據表複製到模型的回應中。

「這樣,我們知道這是逐字複製的,因此我們知道對應於實際數據變量的文本部分不會有任何錯誤」,Shen補充說。

**簡化驗證**

模型可以生成符號回應是因為其訓練方式。大型語言模型從互聯網上獲取大量數據,其中一些數據以「佔位符格式」記錄,代碼取代實際值。

當SymGen提示模型生成符號回應時,它使用類似的結構。

「我們以特定方式設計提示,以利用LLM的能力」,Shen補充說。

在一項用戶研究中,多數參與者表示SymGen讓驗證LLM生成的文本變得更容易。他們可以比使用標準方法更快地驗證模型的回應約20%。

然而,SymGen的局限在於數據源的質量。LLM可能引用錯誤的變量,而人類驗證員可能不會察覺。

此外,用戶必須擁有結構化格式的源數據,例如表格,以供SymGen使用。目前,該系統僅適用於表格式數據。

展望未來,研究人員正在提升SymGen,以便處理任意文本和其他形式的數據。具備這種能力後,它可以幫助驗證AI生成的法律文件摘要的部分內容。他們還計劃與醫生合作測試SymGen,以研究其如何識別AI生成的臨床摘要中的錯誤。

這項工作部分由Liberty Mutual和麻省理工學院Quest for Intelligence Initiative資助。

**評論與見解**

SymGen提供了一個創新的解決方案,以應對大型語言模型的「幻覺」問題,這在當今依賴AI技術的環境中尤為重要。透過這個系統,用戶能夠快速識別模型回應中的潛在錯誤,這不僅提高了效率,還增強了對AI系統的信任。

然而,這個系統的應用仍然有限,尤其是在數據的結構化需求方面。未來的發展應該著眼於如何擴展到非結構化數據,以及在多變的實際環境中保持高效的驗證能力。尤其在法律和醫療等敏感領域,能夠準確且快速地驗證AI生成內容,將會對行業產生深遠影響。

此外,SymGen的成功也提醒我們,在設計和部署AI系統時,人類驗證的角色依然不可或缺。這樣的工具不僅是技術上的創新,更是人類與智能機器之間協作的典範。隨著技術的進步,我們期待這類工具能夠進一步完善和普及,為更多行業帶來變革。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *