AI Agents新基準:Salesforce推出CRMArena解析CRM挑戰

Ai

企業級的LLM代理是否已經準備就緒?Salesforce AI研究團隊推出CRMArena:一個專為評估AI代理在專業工作環境中執行現實任務而設的新基準

隨著客戶關係管理(CRM)在商業運營中扮演著不可或缺的角色,成為管理客戶互動、數據和流程的核心,將先進的人工智能(AI)整合進CRM系統,可以徹底改變這些系統。透過自動化日常流程、提供個性化體驗以及簡化客戶服務,AI的引入能夠提升組織的效率。隨著越來越多的機構採用基於AI的方式,對於能夠執行複雜CRM任務的智能代理的需求也隨之增加。大型語言模型(LLMs)在這一運動中處於前沿,潛在地通過自動化複雜的決策和數據管理任務來增強CRM系統。然而,部署這些代理需要強大而現實的基準,以確保它們能夠處理CRM環境中典型的複雜性,包括管理多樣化的數據對象和遵循特定的互動協議。

現有的工具如WorkArena、WorkBench和Tau-Bench雖然提供了對CRM代理性能的初步評估,但這些基準主要評估簡單操作,如數據導航和過濾,並未能捕捉到CRM數據中典型的複雜依賴和動態關係。例如,這些工具在建模對象之間的關係方面存在不足,例如訂單與客戶賬戶的關聯,或跨多個接觸點的案例。這種複雜性不足限制了組織對LLM代理完整能力的理解,進而創造了對更全面評估框架的持續需求。這一領域的一個主要挑戰是缺乏能夠準確反映真實CRM系統中錯綜複雜任務的基準。

Salesforce的AI研究團隊針對這一空白推出了CRMArena,這是一個專門為評估AI代理在CRM環境中的能力而開發的先進基準。與以往的工具不同,CRMArena模擬了一個現實的CRM系統,具備複雜的數據互聯關係,能夠對AI代理在專業CRM任務中的表現進行全面評估。開發過程中,團隊與CRM領域的專家合作,設計了基於三個不同角色(服務代理、分析師和經理)的九個現實任務。這些任務包括監控代理表現、處理複雜的客戶查詢和分析數據趨勢以改善服務等基本CRM功能。CRMArena涵蓋了1,170個獨特查詢,提供了一個全面的平台來測試CRM特定場景。

CRMArena的架構基於模擬Salesforce的Service Cloud的CRM模式。數據生成管道產生了16個對象之間互聯的數據集,這些對象如賬戶、訂單和案例,具備複雜的依賴關係,反映了現實的CRM環境。為了增強現實感,CRMArena整合了潛在變量,重現動態商業條件,如季節性購買趨勢和代理技能變化。這種高程度的互聯性,平均每個對象涉及1.31個依賴,確保CRMArena準確地代表了CRM環境,使代理面臨類似其在專業環境中所遇到的挑戰。此外,CRMArena的設置支持對CRM系統的UI和API訪問,允許通過API調用和現實的響應處理進行直接互動。

使用CRMArena進行的性能測試顯示,當前最先進的LLM代理在執行CRM任務時面臨困難。使用ReAct提示框架,表現最佳的代理僅完成了38.2%的任務。當輔以專門的功能調用工具時,完成率提高至54.4%,突顯出顯著的性能差距。被評估的任務包括命名實體消歧(NED)、政策違規識別(PVI)和每月趨勢分析(MTA)等挑戰性功能,這些任務要求代理分析和解釋複雜數據。例如,只有90%的領域專家確認合成數據環境感覺真實,超過77%的人認為CRM系統中的個別對象「真實」或「非常真實」。這些見解揭示了LLM代理理解CRM數據中細微依賴關係的能力存在關鍵差距。這一領域需加以解決,以充分部署基於AI的CRM。

CRMArena能夠提供高保真度測試的原因在於其兩層質量保證過程。數據生成管道經過優化,以維持各種數據對象的多樣性,採用小批量提示方法來限制內容重複。此外,CRMArena的質量保證過程包括格式和內容驗證,以確保生成數據的一致性和準確性。在查詢制定方面,CRMArena由可回答和不可回答的查詢組成,其中不可回答的查詢佔總數的30%。這些查詢旨在測試代理識別和處理沒有解決方案的問題的能力,從而更緊密地反映了信息可能並不總是立即可用的真實CRM環境。

研究的主要發現包括:

– **CRM任務覆蓋**:CRMArena包括九個多樣的CRM任務,代表服務代理、分析師和經理,涵蓋超過1,170個獨特查詢。
– **數據複雜性**:CRMArena涉及16個互聯對象,平均每個對象有1.31個依賴,實現了CRM建模的現實性。
– **現實性驗證**:超過90%的領域專家將CRMArena的測試環境評為現實或非常現實,表明其合成數據的高有效性。
– **代理性能**:領先的LLM代理在使用標準提示時僅完成了38.2%的任務,使用功能調用工具時為54.4%,顯示出當前AI能力的挑戰。
– **不可回答的查詢**:CRMArena的查詢中約30%為不可回答,促使代理識別並適當處理不完整的信息。

總結來說,CRMArena的推出突顯了在評估AI代理執行CRM任務方面的重要進展和關鍵見解。CRMArena為CRM行業提供了一個可擴展、準確且嚴謹的基準,以評估代理在CRM環境中的表現。正如研究所示,AI代理的當前能力與CRM系統所需的高性能標準之間存在著顯著的差距。CRMArena的廣泛測試框架為開發和完善AI代理以滿足這些需求提供了必要的工具。

在這個快速變化的技術環境中,如何克服AI在CRM任務中的不足將是未來發展的關鍵。企業在選擇AI解決方案時,應更加重視這些基準和測試框架,以確保選擇的技術真正符合其業務需求。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *