AI新浪潮：大型數據庫模型崛起，數據分析新玩法

zero comment

大型數據庫模型的崛起

隨著大型語言模型（LLM）如ChatGPT及其競爭對手引起廣泛關注，另一波即將來臨的人工智能浪潮卻在悄然興起：大型數據庫模型（LDM）。

LDM通過利用世界上另一個主要數據來源——企業數據庫，來補充LLM。不同於LLM依賴大量的人類寫作資料，如書籍、文件和網絡內容，LDM則專注於公司的表格數據。

LDM並不驅動聊天機器人，它們並不是基於人類語言進行訓練，而是基於數據記錄和交易日誌進行訓練。那麼，LDM究竟提供了哪些能力呢？以下是概述，以及一個具體例子，展示LDM如何支持瑞士最古老的私人保險公司瑞士Mobiliar的一個預測AI項目。

揭示數據庫中的意義

IBM著名的托馬斯·J·沃森研究中心的創新者們在LDM的開發上引領了潮流。我在1993年夏季曾在那裡擔任研究助理。

就像LLM消耗的無數文字資料一樣，企業數據庫也是一個龐大的儲存庫，裡面充滿了事實和事件：每一筆記錄的購買、交易、點擊、信用申請、客戶檔案和商業記錄。雖然LLM能夠理解一定程度的詞義，但LDM則能發現數據庫值的意義，例如定義客戶記錄的因素，包括客戶的位置、購買歷史和表現出的興趣。

這使得LDM能夠提供一種新型能力：基於意義的數據庫搜索，即語義查詢。傳統上，數據庫查詢必須以明確、不含歧義的約束條件來發出，這些約束條件以具體的值範圍表達，例如：“列出所有住在加利福尼亞州、年齡超過40歲並且消費至少2000美元的客戶。”但有了LDM後，你可以請求數據庫：“列出所有與珍·多相似的客戶，”或者“列出與底特律在客戶行為上最相似的城市。”

語義查詢的應用場景層出不窮。例如，哪種食物在營養上與糖果杏仁相似（答案：燕麥粥）？這類客戶還可能購買哪些產品？哪些交易偏離正常範圍，因此可能存在可疑情況？關於“TJ沃森研究”的變體中，哪些指代的是同一事物——包括“T.J.沃森”和“托馬斯·J·沃森研究中心”，但不包括“詹姆斯·沃森”（雙螺旋共同發現者），“約翰·沃森”（福爾摩斯的助手）或“IBM的沃森深度問答”（擊敗人類《危險邊緣》冠軍的電腦）？

IBM已經從研究實驗室推出了一款名為Db2 SQL數據洞察的LDM產品。該產品作為公司z/OS操作系統上Db2數據庫的一部分，驅動許多實時機器學習的應用。

保險銷售：大型數據庫模型的應用案例

瑞士Mobiliar以個性化的方式處理銷售。與歐洲的保險銷售總體趨勢相似，這一過程更依賴於銷售人員，而不是像美國那樣，銷售通常通過網絡完成。這使得重要的銷售策略掌握在人工手中。在銷售人員發出保險報價之前，他們必須精心設計報價，以提高被接受並簽署合同的機會。

這時，預測AI進入了場景，它告訴你這些機會的概率。給定一位潛在的保單持有人和一份草擬報價，客戶簽署的機會有多大？這個問題的答案指導銷售人員調整每份報價。如果他們不喜歡這個機會，銷售人員可以修改報價，提供更具競爭力的保障選項或定價，甚至在某些情況下提供特別折扣，然後將新的報價通過預測AI系統進行重新計算。這使得員工能夠通過實踐和錯誤來平衡定價和潛在成功率。

通常，這類預測AI項目需要經驗豐富的機器學習專家長期參與，並需要經過定義需求、準備數據、訓練模型、評估模型和整合部署的漫長週期。

但瑞士Mobiliar有其他計劃。該公司希望找到一條更快速的路徑來實現企業價值。

即插即用的高級分析方法

作為IBM Db2數據庫解決方案的熱心用戶，瑞士Mobiliar數據推廣專家托馬斯·鮑曼決定讓他的團隊試用SQL數據洞察來完成這個項目。他告訴我：“我們的目標是創建完全適合我們客戶的報價，而不是進行大規模的機器學習方法調查。我喜歡這種使用我的數據庫團隊而不需要高級數據科學家的可能性。”

鮑曼意識到，SQL數據洞察內置的“查找相似”記錄的能力，使得對於像這樣的預測AI項目來說，已經達到了95%的目標（以及對於一些其他項目所使用的聚類，即無監督學習，鮑曼的團隊也在追求）。

它是如何工作的呢？給定一條定義當前情況的數據庫記錄——在這個項目中，是一位潛在的保險政策持有人和一份候選報價——只需找出最相似的歷史案例，並計算這些案例成功銷售的頻率。這樣，你就得到了機會。

數據科學家將這種方法稱為k最近鄰（KNN），這是一種歷史悠久的經典機器學習方法。“最近鄰”指的是找到最接近的歷史案例——即最相似的案例。與大多數其他機器學習方法不同，這種方法不需要進行模型訓練。相反，歷史案例的精選數據集隨時準備就緒，在每次需要為新案例進行預測時都會提取最相似的案例。

KNN方法通常需要專門的方式來衡量數據庫記錄之間的“相似性”或“接近性”。這通常必須由專家手工設計，考慮到每條記錄中各個值的意義及其重要性。客戶的年齡是否比他們的家鄉或地區更重要？他們的財務歷史呢？

LDM則提供了拯救之道。它們即插即用，能夠建立相似性指標，消除了專家為“最近鄰”定義定制化的需求。

啟動預測銷售工具

鮑曼的團隊在1500萬條汽車保險報價數據記錄上實施了這一方法，每條記錄涉及幾十個屬性，包括人口統計、車輛數據、自負責任額和價格。經過一些試錯，團隊發現43是他們的最佳選擇：通過提取43個與當前情況最“相似”的歷史案例，使用這些微觀記錄來計算機會，預測性能達到最高。

接下來是部署。鮑曼和他的團隊將預測結果添加到他們的銷售團隊界面上，現在顯示每個候選報價的成交概率。幾百名銷售人員積極使用這一功能，通過查看多個候選報價的機會來指導他們的報價制定，然後再決定最終報價。

創建更好的報價帶來了驚人的銷售增長：在六個月內，成交率提高了7%，這一增長通常需要兩年時間才能實現。可以想見，鮑曼正在積極探索其他利用SQL數據洞察的項目。

在2024年11月，鮑曼在我創辦的機器學習周（Machine Learning Week）上發表了這一項目的成功演講，會議中有一場名為“瑞士Mobiliar基於數據庫機器學習的保險報價推薦”的主題。他計劃在2025年的MLW中再次發表演講，他的寫作很好地展示了這一價值主張，並通過直觀的類比進行說明。

市場上出現了一個新選手。LDM引入了一系列新的能力，補充了LLM所提供的功能。正如LLM基於語言訓練以提供非技術人員可用的能力，LDM則基於企業數據庫訓練，以提供非數據科學家可用的能力。

在這個數據驅動的時代，大型數據庫模型的興起無疑將改變企業如何運用數據進行決策，並為非技術用戶提供了前所未有的機會。這不僅是技術的進步，更是商業運作方式的變革，值得企業和專業人士密切關注。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。