百度EICopilot:智能Agent助企業從海量數據圖譜提取資訊

Ai

百度研究推出EICopilot:基於智能代理的聊天機器人,從龐大的圖形數據庫中檢索和解釋企業信息

隨著企業領域對知識圖譜的廣泛應用,這些圖譜已經涵蓋了從法人到註冊資本和股東詳情等多種數據形式。儘管知識圖譜的效用很高,但由於其文本查詢複雜且需要手動探索,這使得提取相關信息變得困難。

近年來,自然語言處理和生成智能的顯著進展使得大型語言模型(LLMs)能夠基於其語言理解和探索能力進行複雜查詢和摘要。這篇文章探討了最新的研究,利用語言模型來簡化從圖形數據庫中提取信息的過程。

百度的研究人員提出了“EICopilot”,這是一個基於代理的解決方案,旨在高效地簡化存儲於知識圖譜數據庫的企業數據的搜索、探索和摘要,從而獲得有價值的企業洞察。為了更好地理解這項工作,我們需要注意EICopilot所處理的數據規模。這類圖形數據集通常包含數億個節點、數百億條邊、數千億個屬性以及數百萬個子圖,代表著一個國家的註冊公司、組織和企業的社群。

EICopilot是一個基於LLM的聊天機器人,利用一個新穎的數據預處理管道來優化數據庫查詢。為了實現這一目標,作者首先從通用搜索引擎收集與公司相關的真實查詢。收集後,開發人員保留了一些具有代表性的查詢作為種子數據集,並使用Gremlin語言為每個查詢編寫搜索腳本。最後,作者系統性地註釋和增強上述查詢和腳本,以形成一個向量數據庫,從而提高搜索準確性。EICopilot利用這個向量數據庫即時生成搜索空間,實現有效的圖形檢索和探索。

除了上述數據處理管道,EICopilot還採用全面的推理管道來提供準確的查詢響應。該管道使用了思維鏈(CoT)和上下文學習(ICL)來提供更準確的回答。

作者強調了查詢中實體名稱的重要性,而非向量數據庫查詢匹配中的意圖。為了解決這個問題,作者提出了一種新穎的查詢遮罩策略,將查詢中的實體名稱進行遮罩。EICopilot確保查詢能夠在其複雜性中被理解,並以更高的精確度和與用戶意圖相關的方式執行。

作者提供了廣泛的實證分析和現實世界的實驗,驗證了所提出框架的實用性。他們從百度的內部數據平台獲取數據,並進行嚴格處理,以構建一個包含查詢和圖形數據庫查詢對的數據集。作者引入了一個基於查詢遍歷長度的長度複雜度評分。根據上述評分,查詢被分類為簡單、中等或複雜。為了評估EICopilot的性能,作者考慮了生成的Gremlin腳本的語法錯誤率和執行正確性。對於大型語言模型,EICopilot利用了ErnieBot、ErnieBot-Speed和Llama3-8b模型。

以上實驗的實證結果證明了EICopilot在速度和準確性方面超越基準,尤其是EICopilot的全遮罩變體將語法錯誤率降低至10.00%,執行正確性高達82.14%。這些結果突顯了該方法組件在提升查詢和摘要過程中的關鍵作用。

結論:本文介紹了EICopilot,一個基於代理的聊天機器人,增強了從龐大的企業知識圖譜數據庫中進行查詢和摘要的過程。作者提出了一系列創新,如腳本生成、新穎的數據預處理和遮罩技術。所提出的方法在速度和準確性上超越了基準方法,從而徹底改變了大規模知識圖譜的探索方式。

這項研究不僅展示了人工智能在數據檢索領域的潛力,還強調了在設計智能系統時考慮用戶需求和查詢複雜度的重要性。隨著技術的不斷進步,我們可以預見未來企業在數據分析和信息檢索方面將會更加高效,這對於提升決策質量和業務運營都有著重要的影響。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon