小型語言模型：AI新趨勢的商機

zero comment

為何小型語言模型（SLMs）是人工智能的下一個大趨勢

隨著Elon Musk的xAI從Andreessen Horowitz、卡塔爾投資局、Valor Equity Partners及Sequoia等投資者那裡籌集了50億美元的資金，以及亞馬遜向OpenAI競爭對手Anthropic再投資40億美元，人工智能在假日季節如火如荼地發展中。

然而，儘管微軟、谷歌、Meta、亞馬遜等公司在開發通用大型語言模型（LLMs）方面投入了數十億美元，以處理各種任務，但在人工智能的世界裡，並非所有型號都適合所有公司。對於這些大企業來說，適合他們的可能並不適合你的公司。即使目前市場上存在泡沫，C-suite的高管們也必須更好地理解這些技術的影響。

隨著（過多的）LLM初創公司使計算機能夠綜合大量數據並回應自然語言查詢，基於LLM的人工智能正變得對全球企業至關重要。AWS首席執行官Matt Garman在宣布擴大與Anthropic的合作及投資時表示：“AWS客戶在開發基於Anthropic的生成式人工智能應用方面的反應非常驚人。通過繼續在Amazon Bedrock中部署Anthropic模型，並與Anthropic合作開發我們的定制Trainium芯片，我們將繼續推進客戶在生成式人工智能技術上所能實現的邊界。”

小型語言模型（SLMs）的必要性

那麼，小型語言模型（SLMs）究竟是什麼？它們是僅針對特定類型數據進行訓練的語言模型，能夠生成定制的輸出。這一點的關鍵優勢在於數據保持在防火牆內部，外部的SLMs不會在潛在敏感數據上進行訓練。SLMs的美妙之處在於，它們的計算和能源使用按照實際項目需求進行調整，這有助於降低持續開支並減少環境影響。

另一個重要的替代方案是專門領域的LLMs，它們專注於一種知識，而不是提供更廣泛的知識。專門領域的LLMs經過大量訓練，能夠深入理解特定類別並更準確地回答查詢，例如由CMO與CFO提出的問題。

AI的幻覺、力量和訓練挑戰

由於LLMs需要數千個AI處理芯片（GPU）來處理數百億的參數，因此建造成本可能高達數百萬美元，特別是在訓練期間，以及在處理用戶查詢時。數據科學家協會（ADaSci）指出，僅僅訓練GPT-3（擁有1750億個參數）就“消耗了約1287 MWh的電力……大約相當於一個普通美國家庭120年的能源消耗。”這還不包括其公開可用後的能耗。相比之下，ADaSci表示，為一百萬用戶完全部署一個擁有70億參數的小型LLM僅需55.1MWh：SLM的能耗不到LLM的5%。換句話說，遵循McMillan的建議，在構建AI解決方案時可以實現顯著的節省。

LLMs通常需要的計算能力超過單個設備所能提供的，因此它們通常在雲計算機上運行。對於公司來說，這帶來了幾個後果，首先是隨著數據轉移到雲端，失去了對其數據的物理控制，並且因為數據在互聯網上傳輸而導致響應速度變慢。由於其知識範圍過於廣泛，LLMs也容易出現幻覺，這些回應乍一看似乎正確，但最終卻是錯誤的（就像你那個瘋狂的叔叔在感恩節餐桌上的建議），通常是因為用來訓練模型的信息不適用或不準確。

SLMs的優勢

SLMs能夠幫助企業提供更好的結果。儘管它們與當前廣泛使用的知名LLMs具有相同的技術基礎，但它們是基於更少的參數進行訓練的，權重和比例針對特定用例進行了調整。專注於較少變量使它們能夠更果斷地達成正確答案；它們的幻覺現象較少，也更高效。與LLMs相比，SLMs可以更快、更便宜，並且對環境的影響較小。

由於它們不需要與LLMs相同的龐大AI處理芯片集群，SLMs可以在本地運行，在某些情況下甚至可以在單個設備上運行。消除對雲處理的需求也使企業能夠更好地控制其數據和合規性。正如McMillan所解釋的，他們公司的目標不是將客戶鎖定在單一解決方案或LLM模型中，而是“擁抱所有這些技術，讓客戶可以在Teradata生態系統中使用他們選擇的語言模型，從而能夠信任進入這些模型的數據以及從這些數據中產生的分析和見解，以最有效的方式來進行。”

專門領域的LLMs的角色

專門領域的LLMs也扮演著重要角色。想像一下，將它們視為一本美國歷史教科書，而不是一本百科全書的集合——更加專注於有效解決特定需求，而不是淺薄地處理多個需求。由於它們專注於特定知識，專門領域的LLMs能夠提供更具相關性、上下文適當和準確的答案。它們的專注參數也比通用LLMs中使用的更大參數集更容易定制或微調以完成特定任務。

這些優勢也有幾個缺點。專門領域的LLMs需要從一開始就進行特別訓練，並且隨著領域內信息的發展和擴展，還需要不斷強化——這兩者都有可能非常昂貴。

SLM的應用案例：它們能為企業帶來什麼

在SLM的部署中，各行各業都將產生顛覆性的影響，例如：

– **客戶服務**：小型語言模型可以用於快速分析客戶情緒和投訴，利用非常有價值的數據保持在公司防火牆內。它們可以生成有價值的摘要，這些摘要可以整合到客戶關係管理（CRM）產品中，以改善解決行動。

– **醫療**：小型語言模型開始在分析醫生筆記中顯示其價值，這是另一個需要避免移動敏感數據的數據處理領域。當AI提取和解釋信息時，醫療提供者可以更多地專注於病人護理，而不是盯著電腦螢幕。

– **金融**：需要查找可能影響合規性或治理的電子郵件或文件的企業可以使用SLMs進行標記。這對於LLM來說是一項簡單的任務——它不需要比小型模型更多的東西，可能在儲存數據的相同伺服器上運行，避免了額外的存儲需求、昂貴的AI處理器使用或網絡傳輸費用。

– **零售**：從沃爾瑪、克羅格、好市多到塔吉特、CVS和沃爾格林，提供基於AI的產品推薦是零售業的一個戰略業務功能。這個過程也嚴重依賴於企業擁有的數據，例如客戶信息、購買和瀏覽歷史以及公司的產品目錄。這一用例可以利用開源LLM的分析功能，如聚類或向量相似性。LLM生成的產品推薦可以與典型的搜索結果並行運行，滿足客戶的具體要求，同時智能地引導他們找到更個性化的項目。

雖然OpenAI的ChatGPT-4、Anthropic的Claude和Meta的LLaMA 2等知名LLMs能夠處理大量數據以生成似乎有洞察力的輸出，但它們並不太適合理解特定企業面臨的具體問題或醫療術語的含義。

包括Hugging Face在內的小型語言模型提供了縮小其攝取數據類型、輸出和所需能量的能力，創建能夠擴展到搜索一百萬份文檔或幫助一百萬名客戶的解決方案。它們還可以被納入提供一系列定制、高效解決方案的AI套件中，而不是一個龐大且笨重的LLM。

C-suite高管應該如何進一步行動（信任）

展望未來，企業對AI的採用不會是一刀切：每個企業都將專注於效率，選擇最佳且最經濟的工具來完成工作。這意味著為每個項目選擇合適的模型，無論是通用的LLM還是小型和專門領域的LLMs，因為企業發現它們能夠提供更好的結果，需求更少的資源，並減少數據遷移至雲端的需求。

鑒於當前公眾對AI生成答案的信心狀況，顯然，受信任的AI和數據將成為下一波商業解決方案的必要條件。McMillan表示：“當你考慮訓練AI模型時，它們必須建立在優質數據的基礎上。這就是我們的宗旨，提供受信任的數據集，然後提供能力和分析功能，讓客戶及其客戶能夠信任輸出結果。”

在這個比以往任何時候都需要更高準確性和效率的世界中，小型和專門領域的LLMs提供了另一種選擇，以交付企業和廣大公眾可以信賴的結果。那些繼續投資於學習旅程的領導者將能夠加速其公司的AI優化，並在其特定市場領域中變得更具競爭力。享受這段旅程吧！

在這篇文章中，作者強調了小型語言模型在當前人工智能生態系統中的重要性，並指出了它們相對於傳統大型語言模型的多項優勢，如成本效益、環境影響及數據控制等。這些觀點揭示了企業在選擇AI解決方案時需要考慮的多樣性，並促使我們思考未來AI技術的發展方向。隨著市場不斷變化，企業應該更加靈活地應對，選擇最合適的模型來滿足其獨特需求，這將是未來成功的關鍵。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

小型語言模型：AI新趨勢的商機

chatgpt

發佈留言取消回覆

🔥 CHATGPT PLUS 帳戶出租

小型語言模型：AI新趨勢的商機

chatgpt

發佈留言 取消回覆

Related Articles

Grok辣味模式涉未成年裸照惹公憤

Anthropic Claude升級醫療AI 助醫療合規提升效率

AI編程新潮流：軟件工程師點睇Vibe-Coding?

🔥 CHATGPT PLUS 帳戶出租

發佈留言取消回覆