AI 驗證新工具：提升準確性與效率

zero comment

**讓AI模型的回應更易於驗證**

透過讓用戶清楚看到大型語言模型引用的數據，這個工具加快了手動驗證過程，幫助用戶辨識AI錯誤。

由於大型語言模型（LLM）的出色能力，它們仍然不完美。有時，這些人工智能模型會在回應查詢時生成不正確或不支持的信息，這種現象稱為「幻覺」。

由於這種幻覺問題，LLM的回應通常需要由人類事實核查員進行驗證，尤其是在醫療或金融等高風險的環境中。然而，驗證過程通常需要人們閱讀模型引用的冗長文件，這是一項繁瑣且容易出錯的工作，可能阻止一些用戶在第一時間部署生成式AI模型。

為了幫助人類驗證員，麻省理工學院的研究人員創造了一個用戶友好的系統，讓人們能更快速地驗證LLM的回應。這個名為SymGen的工具，讓LLM生成帶有引用的回應，直接指向來源文件中的位置，例如數據庫中的特定單元格。

用戶可以懸停在其文本回應的突出部分上，以查看模型用於生成特定詞或短語的數據。同時，未突出顯示的部分則顯示用戶需要額外關注和驗證的短語。

「我們給予人們選擇性關注文本中需要更多注意部分的能力。最終，SymGen可以讓人們對模型的回應有更高的信心，因為他們可以輕鬆地仔細查看以確保信息得到驗證」，電氣工程與計算機科學研究生及SymGen論文的共同作者Shannon Shen說。

透過用戶研究，Shen和他的合作者發現，SymGen將驗證時間加快了約20%，相較於手動程序。通過讓人類更快速、更容易地驗證模型輸出，SymGen可以幫助人們在各種現實情況下識別LLM中的錯誤，從生成臨床筆記到總結金融市場報告。

Shen的合作者包括共同作者Lucas Torroba Hennigen；EECS研究生Aniruddha “Ani” Nrusimha；Good Data Initiative的總裁Bernhard Gapp；以及資深作者David Sontag，EECS教授、MIT Jameel Clinic成員和計算機科學與人工智能實驗室（CSAIL）臨床機器學習小組的領導者；以及Yoon Kim，EECS助理教授和CSAIL成員。這項研究最近在語言建模會議上發表。

**符號引用**

為了幫助驗證，許多LLM設計生成引用，指向外部文件，隨著語言生成的回應一起提供給用戶檢查。然而，這些驗證系統通常是事後設計的，沒有考慮到人們需要篩選眾多引用所需的努力，Shen說。

「生成式AI旨在減少用戶完成任務的時間。如果你需要花幾個小時閱讀所有這些文件以驗證模型說的是否合理，那麼在實踐中擁有這些生成就不那麼有幫助了」，Shen說。

研究人員從將要完成工作的人的角度來處理驗證問題。

SymGen用戶首先向LLM提供其可以在回應中引用的數據，例如包含籃球比賽統計數據的表格。然後，研究人員執行一個中間步驟，而不是立即要求模型完成任務，例如從這些數據中生成比賽摘要。他們提示模型以符號形式生成其回應。

有了這個提示，每次模型想要在其回應中引用單詞時，它必須寫出包含其引用信息的數據表中的特定單元格名稱。例如，如果模型想在其回應中引用「波特蘭開拓者」這個短語，它會用包含這些單詞的數據表中的單元格名稱替換該文本。

「因為我們有這個中間步驟，文本以符號格式存在，我們能夠擁有非常細緻的引用。我們可以說，對於輸出中的每一段文本，這正是數據中對應的地方」，Torroba Hennigen說。

SymGen然後使用基於規則的工具解決每個引用，將對應的文本從數據表複製到模型的回應中。

「這樣，我們知道這是逐字複製的，因此我們知道對應於實際數據變量的文本部分不會有任何錯誤」，Shen補充說。

**簡化驗證**

模型可以生成符號回應是因為其訓練方式。大型語言模型從互聯網上獲取大量數據，其中一些數據以「佔位符格式」記錄，代碼取代實際值。

當SymGen提示模型生成符號回應時，它使用類似的結構。

「我們以特定方式設計提示，以利用LLM的能力」，Shen補充說。

在一項用戶研究中，多數參與者表示SymGen讓驗證LLM生成的文本變得更容易。他們可以比使用標準方法更快地驗證模型的回應約20%。

然而，SymGen的局限在於數據源的質量。LLM可能引用錯誤的變量，而人類驗證員可能不會察覺。

此外，用戶必須擁有結構化格式的源數據，例如表格，以供SymGen使用。目前，該系統僅適用於表格式數據。

展望未來，研究人員正在提升SymGen，以便處理任意文本和其他形式的數據。具備這種能力後，它可以幫助驗證AI生成的法律文件摘要的部分內容。他們還計劃與醫生合作測試SymGen，以研究其如何識別AI生成的臨床摘要中的錯誤。

這項工作部分由Liberty Mutual和麻省理工學院Quest for Intelligence Initiative資助。

—

**評論與見解**

SymGen提供了一個創新的解決方案，以應對大型語言模型的「幻覺」問題，這在當今依賴AI技術的環境中尤為重要。透過這個系統，用戶能夠快速識別模型回應中的潛在錯誤，這不僅提高了效率，還增強了對AI系統的信任。

然而，這個系統的應用仍然有限，尤其是在數據的結構化需求方面。未來的發展應該著眼於如何擴展到非結構化數據，以及在多變的實際環境中保持高效的驗證能力。尤其在法律和醫療等敏感領域，能夠準確且快速地驗證AI生成內容，將會對行業產生深遠影響。

此外，SymGen的成功也提醒我們，在設計和部署AI系統時，人類驗證的角色依然不可或缺。這樣的工具不僅是技術上的創新，更是人類與智能機器之間協作的典範。隨著技術的進步，我們期待這類工具能夠進一步完善和普及，為更多行業帶來變革。

以上文章由特價GPT API KEY所翻譯

Download TXT

AI 驗證新工具：提升準確性與效率

chatgpt

發佈留言取消回覆

🔥 CHATGPT PLUS 帳戶出租

AI 驗證新工具：提升準確性與效率

chatgpt

發佈留言 取消回覆

Related Articles

iPhone 17必睇！iOS 27四大超強新功能揭秘

蘋果Siri升級 搭載谷歌Gemini AI模型

蘋果首度用谷歌Gemini推新Siri功能！

🔥 CHATGPT PLUS 帳戶出租

發佈留言取消回覆

蘋果Siri升級搭載谷歌Gemini AI模型