大型數據庫模型的崛起
隨著大型語言模型(LLM)如ChatGPT及其競爭對手引起廣泛關注,另一波即將來臨的人工智能浪潮卻在悄然興起:大型數據庫模型(LDM)。
LDM通過利用世界上另一個主要數據來源——企業數據庫,來補充LLM。不同於LLM依賴大量的人類寫作資料,如書籍、文件和網絡內容,LDM則專注於公司的表格數據。
LDM並不驅動聊天機器人,它們並不是基於人類語言進行訓練,而是基於數據記錄和交易日誌進行訓練。那麼,LDM究竟提供了哪些能力呢?以下是概述,以及一個具體例子,展示LDM如何支持瑞士最古老的私人保險公司瑞士Mobiliar的一個預測AI項目。
揭示數據庫中的意義
IBM著名的托馬斯·J·沃森研究中心的創新者們在LDM的開發上引領了潮流。我在1993年夏季曾在那裡擔任研究助理。
就像LLM消耗的無數文字資料一樣,企業數據庫也是一個龐大的儲存庫,裡面充滿了事實和事件:每一筆記錄的購買、交易、點擊、信用申請、客戶檔案和商業記錄。雖然LLM能夠理解一定程度的詞義,但LDM則能發現數據庫值的意義,例如定義客戶記錄的因素,包括客戶的位置、購買歷史和表現出的興趣。
這使得LDM能夠提供一種新型能力:基於意義的數據庫搜索,即語義查詢。傳統上,數據庫查詢必須以明確、不含歧義的約束條件來發出,這些約束條件以具體的值範圍表達,例如:“列出所有住在加利福尼亞州、年齡超過40歲並且消費至少2000美元的客戶。”但有了LDM後,你可以請求數據庫:“列出所有與珍·多相似的客戶,”或者“列出與底特律在客戶行為上最相似的城市。”
語義查詢的應用場景層出不窮。例如,哪種食物在營養上與糖果杏仁相似(答案:燕麥粥)?這類客戶還可能購買哪些產品?哪些交易偏離正常範圍,因此可能存在可疑情況?關於“TJ沃森研究”的變體中,哪些指代的是同一事物——包括“T.J.沃森”和“托馬斯·J·沃森研究中心”,但不包括“詹姆斯·沃森”(雙螺旋共同發現者),“約翰·沃森”(福爾摩斯的助手)或“IBM的沃森深度問答”(擊敗人類《危險邊緣》冠軍的電腦)?
IBM已經從研究實驗室推出了一款名為Db2 SQL數據洞察的LDM產品。該產品作為公司z/OS操作系統上Db2數據庫的一部分,驅動許多實時機器學習的應用。
保險銷售:大型數據庫模型的應用案例
瑞士Mobiliar以個性化的方式處理銷售。與歐洲的保險銷售總體趨勢相似,這一過程更依賴於銷售人員,而不是像美國那樣,銷售通常通過網絡完成。這使得重要的銷售策略掌握在人工手中。在銷售人員發出保險報價之前,他們必須精心設計報價,以提高被接受並簽署合同的機會。
這時,預測AI進入了場景,它告訴你這些機會的概率。給定一位潛在的保單持有人和一份草擬報價,客戶簽署的機會有多大?這個問題的答案指導銷售人員調整每份報價。如果他們不喜歡這個機會,銷售人員可以修改報價,提供更具競爭力的保障選項或定價,甚至在某些情況下提供特別折扣,然後將新的報價通過預測AI系統進行重新計算。這使得員工能夠通過實踐和錯誤來平衡定價和潛在成功率。
通常,這類預測AI項目需要經驗豐富的機器學習專家長期參與,並需要經過定義需求、準備數據、訓練模型、評估模型和整合部署的漫長週期。
但瑞士Mobiliar有其他計劃。該公司希望找到一條更快速的路徑來實現企業價值。
即插即用的高級分析方法
作為IBM Db2數據庫解決方案的熱心用戶,瑞士Mobiliar數據推廣專家托馬斯·鮑曼決定讓他的團隊試用SQL數據洞察來完成這個項目。他告訴我:“我們的目標是創建完全適合我們客戶的報價,而不是進行大規模的機器學習方法調查。我喜歡這種使用我的數據庫團隊而不需要高級數據科學家的可能性。”
鮑曼意識到,SQL數據洞察內置的“查找相似”記錄的能力,使得對於像這樣的預測AI項目來說,已經達到了95%的目標(以及對於一些其他項目所使用的聚類,即無監督學習,鮑曼的團隊也在追求)。
它是如何工作的呢?給定一條定義當前情況的數據庫記錄——在這個項目中,是一位潛在的保險政策持有人和一份候選報價——只需找出最相似的歷史案例,並計算這些案例成功銷售的頻率。這樣,你就得到了機會。
數據科學家將這種方法稱為k最近鄰(KNN),這是一種歷史悠久的經典機器學習方法。“最近鄰”指的是找到最接近的歷史案例——即最相似的案例。與大多數其他機器學習方法不同,這種方法不需要進行模型訓練。相反,歷史案例的精選數據集隨時準備就緒,在每次需要為新案例進行預測時都會提取最相似的案例。
KNN方法通常需要專門的方式來衡量數據庫記錄之間的“相似性”或“接近性”。這通常必須由專家手工設計,考慮到每條記錄中各個值的意義及其重要性。客戶的年齡是否比他們的家鄉或地區更重要?他們的財務歷史呢?
LDM則提供了拯救之道。它們即插即用,能夠建立相似性指標,消除了專家為“最近鄰”定義定制化的需求。
啟動預測銷售工具
鮑曼的團隊在1500萬條汽車保險報價數據記錄上實施了這一方法,每條記錄涉及幾十個屬性,包括人口統計、車輛數據、自負責任額和價格。經過一些試錯,團隊發現43是他們的最佳選擇:通過提取43個與當前情況最“相似”的歷史案例,使用這些微觀記錄來計算機會,預測性能達到最高。
接下來是部署。鮑曼和他的團隊將預測結果添加到他們的銷售團隊界面上,現在顯示每個候選報價的成交概率。幾百名銷售人員積極使用這一功能,通過查看多個候選報價的機會來指導他們的報價制定,然後再決定最終報價。
創建更好的報價帶來了驚人的銷售增長:在六個月內,成交率提高了7%,這一增長通常需要兩年時間才能實現。可以想見,鮑曼正在積極探索其他利用SQL數據洞察的項目。
在2024年11月,鮑曼在我創辦的機器學習周(Machine Learning Week)上發表了這一項目的成功演講,會議中有一場名為“瑞士Mobiliar基於數據庫機器學習的保險報價推薦”的主題。他計劃在2025年的MLW中再次發表演講,他的寫作很好地展示了這一價值主張,並通過直觀的類比進行說明。
市場上出現了一個新選手。LDM引入了一系列新的能力,補充了LLM所提供的功能。正如LLM基於語言訓練以提供非技術人員可用的能力,LDM則基於企業數據庫訓練,以提供非數據科學家可用的能力。
在這個數據驅動的時代,大型數據庫模型的興起無疑將改變企業如何運用數據進行決策,並為非技術用戶提供了前所未有的機會。這不僅是技術的進步,更是商業運作方式的變革,值得企業和專業人士密切關注。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。