量度轉變:點解我哋知道推理運算正逐漸超越訓練運算
關於訓練與推理運算負載分佈嘅研究
大家都認同,推理運算將會成為人工智能(AI)應用嘅主流形式,亦係未來收入嘅主要推動力。大部分AI架構師都明白推理運算喺結構上同訓練運算有本質嘅分別。就連投資者都默默地調整策略,準備迎接呢波新浪潮。真正嘅問題唔係推理會唔會超越訓練,而係「幾時」同「我哋點樣知道」呢個轉變已經發生。
雖然業界幾乎一致認同呢個趨勢,但係到而家都冇一個統一嘅方法去量度推理運算。訓練運算有大量嘅記錄,例如浮點運算數量(FLOPs)、GPU數量同公開嘅里程碑,但推理運算雖然無處不在,卻冇呢啲清晰嘅數據。推理喺盈利報告中隱形,基建計劃冇追蹤,政策文件亦低估咗佢嘅重要性。推理運算存在於產品、組織、日常工作流程,甚至越嚟越多係代理人之間嘅對話中。佢係呢十年來最大同最少被量度嘅計算轉變。
訓練用嘅叢集同推理用嘅節點係分開設計,唔能夠輕易喺短時間內轉換。營運者可以將舊嘅GPU由訓練叢集調走,但唔可以即刻將整個叢集切換成推理模式再轉返去。可惜業界仍然只追蹤明顯嘅指標,例如模型發布、訓練運行、耗電量高嘅叢集,而實際嘅能源消耗、利用率同經濟負荷正逐步向推理轉移。冇量度推理嘅結果,就令到大家有錯覺,以為訓練仍然係核心。正因如此,我哋喺第一期推出咗「AI推理活動指數」(AI Inference Activity Index, AIAI),用嚟提供比資本支出(CapEx)或能耗等滯後指標更前瞻嘅視野。本文就會記錄我哋點估計訓練同推理嘅分佈。AIAI其他指標都係用公開數據,但呢個分佈只能透過多角度推算。
方法論
範圍:計算邊啲推理活動,排除邊啲
首先,我哋定義咩嘢算係推理活動。現有大部分討論都將雲端推理、SaaS推理、手機推理同嵌入式推理混埋一齊講「AI使用」。呢個做法雖然有趣,但難以用於基建、能源同資本規劃。
我哋只計算需要組織提供、付費或管理嘅推理活動,包括:
– 雲端大型語言模型(LLM)或API調用(OpenAI、Anthropic、AWS、Azure、Google)
– 企業推理部署(SaaS、內部AI、私有叢集)
– 行業專用AI系統(醫療、金融、物流、電訊)
– 企業使用嘅分支/邊緣設備(辦公室AI設備、企業推理機、迷你數據中心)
– 合租推理節點(2至20兆瓦嘅推理場地)
– 企業環境中基於GPU/CPU/ASIC嘅推理
– 以檢索增強生成(RAG)或語義搜索為主嘅推理負載(日益主導)
只要工作負載會觸發機架規劃、GPU/ASIC採購、網絡工程、合規工作或電力預算,就屬於計算範圍。呢啲推理係經濟上重要嘅。
我哋故意排除完全喺消費者設備上運行嘅推理,因為佢哋唔會影響基建經濟,包括:
– 智能手機(Apple Neural Engine、Qualcomm NPU、Google TPU Edge)
– 筆記本電腦(Ryzen AI、Intel NPU)
– 可穿戴設備
– 消費級機械人、無人機、家電
– 汽車端嘅感知運算(ADAS、自動駕駛計算)
呢啲設備雖然越嚟越多運行大型模型,但佢哋唔會直接影響企業資本支出、雲端基建投資、數據中心選址、能源預測同監管執行(例如HIPAA、SOC2、數據駐留規定)。我哋將來會專門分析設備端推理,但為咗避免扭曲AIAI嘅主要信號,呢次先排除。
我哋會計算:
– 辦公室AI設備
– 地區推理節點
– 電訊邊緣計算(MEC)服務器
– 服務企業嘅微型數據中心
– 認知存儲設備(你嘅領域)
– 與企業數據整合嘅本地推理叢集
呢啲都會消耗真實電力,需要硬件,促使採購,並且必須符合數據駐留同隱私法規(HIPAA、SOC 2、PCI-DSS、GDPR、國家數據主權法例)。
邊緣基建會影響數據中心經濟,而設備端硬件則唔會。呢個範圍確保我哋係根據「組織實際支付嘅」去量度訓練向推理嘅轉變。
我哋比較計算小時,而唔係資本支出
AI經濟學有一個常見誤解,就係以為可以簡單用買咗幾多GPU、投資幾多錢或者數據中心面積去比較訓練同推理。呢啲指標固然有用,但係佢哋度量嘅係「容量」,唔係「實際使用」。一個訓練園區喺兩次大型運行之間閒置住,仍然會喺資本支出中顯示,但實際上嗰段時間冇產生任何訓練活動。相比之下,推理叢集係全天候運行。AI經濟最終會趨向平衡,但計算小時使用量係CapEx或能耗數據顯示轉變之前嘅早期指標。呢個原因我哋用嘅分佈係基於「GPU計算小時」嘅實際工作時間,而唔係硬件部署量。
為咗清晰區分,我哋用咗AI基建嘅「三個時鐘」概念:
1. 資本支出時鐘(CapEx Clock)— 擁有硬件嘅數量
呢個時鐘計數買咗幾多GPU同設施。喺呢個層面,訓練仍然龐大,例如2萬個H100 GPU嘅叢集、10億美元嘅園區、專門設計嘅網絡。呢啲資產即使閒置,經濟上仍屬於「訓練資產」。
2. 運營支出時鐘(OpEx Clock)— 係啟動同實際運行嘅硬件
呢個時鐘衡量能耗、利用率、冷卻負載同服務正常運作時間。推理喺呢度佔主導,因為佢24小時無間斷運行。訓練呈現尖峰模式,係由大型作業推動,運行數日或數星期後閒置。
3. 計算小時時鐘(Compute-Hours Clock)— GPU實際做緊嘅工作
呢個係唯一反映「活動」嘅時鐘。AIAI就係鎖定呢個時鐘。訓練係每年每個模型家族做幾個龐大作業;推理係每日有數百萬至數十億嘅調用,遍及多行業。年級別比較冇意義,除非將兩者轉成同一單位。我哋選擇用「訓練GPU小時」對比「推理GPU小時」。
呢個方法冇假設訓練GPU喺作業間隙會自動變成推理GPU,只係計算GPU實際做訓練或推理嘅時間。
一個叢集即使全年80%閒置,仍算係「訓練容量」,但計算小時時鐘只計算實際訓練嘅時間。
點樣計算分佈
有咗定義同時鐘概念,下一步係將概念轉成量化數據。AIAI核心問題係:
「喺某一年,全球有幾多計算小時用於訓練,幾多用於推理?」
我哋用公開可驗證數據,分別計算訓練同推理,避免依賴不透明嘅供應商聲稱。
1. 訓練計算小時(由上而下,基於運行)
對每個大型模型運營者(OpenAI、Anthropic、Google、Meta、xAI、Mistral),我哋推算:
– 每次訓練用幾多GPU:根據公開資料(例如GPT-4用2.4萬個H100,Gemini 1.5用1.6萬個,Claude Opus系列用2.4–3.2萬個)
– 每年每個模型家族嘅訓練次數:前沿訓練約每年4至6次,中型訓練約10至20次,微調持續但規模較細
– 每次訓練時長:前沿訓練一般20至60日,微調幾小時至幾日
– 利用率:根據大型叢集分析(MLPerf、Helios),前沿訓練利用率假設85–92%
年度訓練計算小時為:
> 所有大型訓練運行嘅 GPU數 × 時間 × 利用率 之和
呢個測量穩定且可重複,唔依賴供應商透露細節數據。
2. 推理計算小時(由下而上,基於部署)
推理範圍更廣且分散,我哋用部署驅動模型:
– 計算活躍推理GPU/ASIC數量:根據雲端實例遙測、公開投資者披露、超大規模服務商分部增長
– 估算平均利用率:推理利用率較低但穩定,企業約18–30%,雲端API模型35–50%,受監管嘅本地工作負載(醫療、金融)超過60%
– 年度可用時間:推理硬件設計24/7運行,基準時間為8760小時/年
推理計算小時為:
> 推理GPU數 × 利用率 × 8760小時
直接反映實際推理活動,而非硬件規模。
3. 用兩個獨立方法驗證
為確保訓練與推理分佈可信,我哋用以下方法驗證:
A. 分析師三角驗證
交叉檢查多個報告趨勢:
– Gartner AI基建展望
– Dell’Oro超大規模計算報告
– IDC基建追蹤
– Synergy Research AI數據中心報告
結果一致顯示訓練增長趨於平緩,而推理工作負載每12至18個月倍增。
B. 能源與全球GPU容量約束
模型必須符合物理限制:
– 全球H100等效計算供應
– 數據中心已知電力消耗(TWh)
– GPU部署份額(NVIDIA文件、超大規模服務商財報)
結果始終符合物理範圍。
訓練與推理分佈結果
綜合所有運營商及企業/雲端推理部署後,全球計算小時分佈如下:
(此處應有圖像顯示)
結果與業界共識範圍及多方數據來源吻合。一個關鍵洞見係:2025年已經顯示出領先指標嘅特徵。
雖然訓練與推理交叉點預計喺2027年,但所有需求端遙測數據(API調用量、企業RAG採用率、代理鏈接)都顯示推理需求提前爆發。呢個模式與2010年代初期雲端採用趨勢相似:使用量先轉變,資本支出後跟。
未來展望
訓練與推理之間嘅分佈唔單止重塑數據中心經濟,更顛覆軟件經濟。推理計算小時喺SaaS產品、生產力工具、企業軟件及內部工作流程中激增,但幾乎冇呢啲使用被定價或量度。呢種結構性錯配,正如2000年代初軟件業由永久授權轉向訂閱模式。
我哋喺第5期會深入探討呢個轉變——推理點樣打破現有軟件商業模式、成本由邊個吸收,以及為何基於消費嘅定價可能成為AI原生軟件嘅標準。
作者:Jay Chiang,Pascaline Systems Inc.
系列:AI基建研究 №4(2025)
Jay Chiang係Pascaline Systems嘅聯合創辦人,致力開發連接計算與可信知識嘅認知存儲同AI基建技術,經常撰寫關於AI系統、數據中心及智能經濟學嘅文章。
—
編輯評論與深度分析
文章深刻揭示咗AI發展中一個經常被忽視但極其關鍵嘅趨勢:推理運算正逐步成為AI生態系統嘅主力,並且在經濟規模上將超越訓練運算。這種轉變不僅是技術層面嘅,更係經濟模式同產業結構嘅根本性變革。
過往業界多集中於訓練嘅硬件投入、算力峰值同模型規模,因為訓練往往係一次性、重資本嘅投入,容易量化。但推理運算係持續且分散嘅,它隱藏喺無數日常應用背後,令傳統基於CapEx嘅度量方法失效。文章提出用「計算小時」作為衡量推理活躍度嘅指標,創新地彌補咗這個空白,為業界提供咗一個更真實反映現況嘅工具。
呢個方法論亦提醒我哋,AI基建唔係單一硬件或單一階段嘅問題,而係一個涵蓋硬件設計、運營管理、能源消耗、合規要求同經濟模型嘅複雜系統。推理作為一種連續服務,對數據中心設計、能源規劃同資本配置提出新挑戰。
更重要嘅係,推理運算激增將推動軟件商業模式嘅轉型,由傳統授權或固定費用,轉向基於使用量嘅消費模式。呢種變化將影響所有軟件供應商,尤其係AI原生產品,因為推理成本直接關乎用戶體驗同盈利能力。
對香港同華語市場而言,呢篇研究提供咗寶貴嘅視角。隨住AI應用普及,企業需重新審視自身IT基建策略,特別係如何平衡訓練與推理資源分配,避免資源浪費同提升經濟效益。同時,政策制定者亦應該關注推理運算帶嚟嘅能源消耗同數據隱私挑戰,制定更具前瞻性嘅監管框架。
總括而言,呢篇文章唔單止係技術報告,更係一份關於AI產業未來走向嘅深刻洞察。佢提醒我哋,AI經濟唔係靜態,而係一個持續演變嘅生態,理解並量度推理運算嘅崛起,係把握未來競爭力嘅關鍵。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放