Baseten革新AI訓練平台 助企業擺脫OpenAI依賴

Ai




AI基建公司Baseten推全新模型訓練平台 助企業減少依賴OpenAI

總部設於舊金山、估值達21.5億美元的人工智能基建公司Baseten,近日宣布推出其迄今最重要的產品轉型——全面進軍模型訓練領域。新平台Baseten Training旨在協助企業微調開源AI模型,免除管理GPU集群、多節點協調及雲端容量規劃的繁瑣操作,或將改寫企業擺脫對OpenAI及其他封閉源AI供應商依賴的方式。

Baseten於星期四正式開放Baseten Training服務,這是一個基建平台,專為企業打造可自由控制訓練代碼、數據及模型權重的環境。CEO Amir Haghighat指出,此舉源於客戶的強烈需求及公司希望掌握AI部署全生命周期的戰略考量。

他形容:「我們有一群客戶一直來找我們,說『我真係唔想再面對呢啲問題』。有位客戶甚至話,『我買咗一堆H100 GPU,週五登入系統跑微調任務,週一先睇結果,有時發現根本根本唔係正常運作』。」

當前企業AI應用正處於關鍵轉折點。隨著Meta、阿里巴巴等開源模型在性能上逐漸追平甚至超越封閉系統,企業面臨降低昂貴API調用成本(如OpenAI GPT-5或Anthropic Claude)的壓力。但由開箱即用的開源模型到生產級定制AI的過渡,仍需專業的機器學習運維和基建管理技能。

Baseten的解決方案是提供基建框架,同時讓企業完全掌控其訓練流程和資源。這種低階但靈活的策略,源自過去教訓。

早期失敗經驗助Baseten釐清AI訓練基建需求

Baseten並非首次嘗試訓練產品。約兩年半前推出的Blueprints產品慘遭失敗,Haghighat坦言這次失敗讓公司獲得寶貴經驗。

「當時我們設計的抽象層太高,試圖打造一個魔法般體驗,用戶只需程式化選擇基礎模型、數據和超參數,就能自動產出模型。」他說。

問題是用戶缺乏判斷數據質量、模型選擇和超參數調整的直覺,模型表現不佳時反而怪罪產品。當時Baseten淪為顧問公司,幫助客戶排查數據重複、模型選擇等問題,偏離了原本的基建定位。

最終Baseten終止Blueprints,專注於推理服務,決心「先贏得擴展的權利」。今年初,市場現實促使公司重啟訓練業務:大部分推理收入來自客戶自行訓練的定制模型,且競爭對手的訓練平台多採限制性條款,鎖定用戶於自家推理服務。

Haghighat指出:「不少競爭者條款規定,訓練完成的模型權重不能帶走。我理解他們的角度,但我仍相信真正的價值和收入在推理階段。」

Baseten則堅持用戶擁有權重並可自由下載,賭注是優越的推理性能將令客戶留在平台。

多雲GPU協調及快速排程是Baseten的技術亮點

Baseten Training定位於「基礎設施層」,比Blueprints更低階,但配備針對可靠性、監控和與推理堆棧整合的工具。技術特點包括多節點跨集群訓練(支援NVIDIA H100及B200 GPU)、自動檢查點保存防止節點故障、分鐘級任務排程及自家多雲管理系統(MCM)。

MCM能動態調配多家雲端供應商的GPU資源,為客戶節省成本,避免傳統超大雲端供應商要求的多年合約和容量限制。

Haghighat表示:「傳統超大雲供應商不允許彈性調用GPU資源,必須簽長約。我們則完全不這樣。」

這種多雲抽象化趨勢讓工作負載能在不同供應商間自由流動。AWS近期大規模故障時,Baseten推理服務仍正常運行,因為系統自動將流量切換到其他雲端,這項能力也延伸到訓練工作負載。

Baseten的監控工具可提供每張GPU的詳細指標、多節點任務的檢查點追蹤,並有嶄新UI顯示基礎設施層事件。公司亦推出開源「ML Cookbook」訓練食譜,幫助用戶快速達成訓練成功。

早期客戶分享84%成本節省及50%延遲改善

Baseten的目標市場是依賴定制模型的AI本地企業。Oxen AI專注數據集管理及模型微調,CEO Greg Schoeninger表示:「硬件和軟件平台要兩者兼顧很難成功,與Baseten合作處理基建是明智選擇。」

Oxen完全建基於Baseten基建,透過CLI程式化管理訓練任務,自動調配GPU,對外呈現為Oxen自家介面。其客戶AlliumAI透過整合,推理成本由46,800美元降至7,530美元,節省84%。

AlliumAI CEO Daniel Demillard說:「微調LoRA是利用開源模型的有效方式,但基建很頭痛。用Oxen和Baseten後,這些複雜問題消失,我們可無憂大規模訓練及部署,完全不用理會CUDA或選GPU。」

另一客戶Parsed則專注醫療、金融、法律等關鍵領域,協助企業減少對OpenAI依賴,打造超越通用大型語言模型的專業模型。Parsed聯合創辦人Charles O’Neill表示,過去因訓練平台Bug導致模型性能下降,且下載權重及檢查點困難。Baseten幫助其訓練500多個任務,轉錄延遲降低50%,48小時內在歐盟完成HIPAA合規部署。

Parsed還利用Baseten修改的vLLM推理框架及「推測解碼」技術,通過生成草稿標記加速語言模型輸出,將延遲減半。O’Neill強調:「快的模型重要,但持續進步更關鍵。Baseten讓我們同時擁有今日的性能優勢和持續提升的基建。」

訓練與推理關係密切 Baseten整合雙方創造價值

Parsed案例凸顯Baseten訓練擴展背後更深層戰略:訓練與推理界線比想像中模糊。Baseten的模型性能團隊經常用訓練平台打造「草稿模型」以支持推測解碼,這種前沿技術可大幅提速推理。

Haghighat說:「推理中的推測解碼需要訓練草稿模型,我們的性能團隊是訓練產品的大客戶,持續訓練這些EAGLE模型。」

這種技術相依性支持Baseten主張同時掌控訓練和推理的價值。訓練好的模型可一鍵部署到預優化的推理端點,支援聊天完成和音頻轉錄等工作負載。

此策略與垂直整合競爭者如Replicate或Modal不同,Baseten押注低階基建彈性及性能,特別適合大規模定制模型運行。

開源模型日益成熟 企業視微調為擺脫OpenAI依賴之路

Baseten整體策略基於對開源AI模型發展的信念:它們正快速達到足以推動大規模企業採用的水準。

Haghighat表示:「封閉和開源模型質量都在提升,我們甚至不必期待開源超越封閉,因為兩者同時進步,能在不同場景釋放價值。」

他指出強化學習和監督微調技術讓企業能將開源模型調整到「不必全能,但專精於某個窄領域」的水平。

這一趨勢已反映在Baseten的Model APIs業務,該服務提供生產級開源模型訪問,包括DeepSeek V3、R1、Llama 4及Qwen 3,優化性能與可靠性。企業通常先用現成模型,後轉向Training微調,最終部署於Baseten的Dedicated Deployments基建。

不過Haghighat坦言市場仍「模糊」於哪種訓練技術會主導。Baseten透過前線工程團隊與客戶合作,探索強化學習、監督微調等先進技術,期待發現真正符合用戶需求的產品化路徑。

未來路線包括針對常用訓練模式抽象化、擴展至圖像、音頻和視頻微調,並深化高級技術整合如prefill-decode分離以提升效率。

面對競爭激烈市場 Baseten押注開發者體驗與性能取勝

Baseten進入一個競爭激烈的AI基建市場。AWS、Google Cloud、Microsoft Azure等超大雲供應商提供GPU訓練資源,Lambda Labs、CoreWeave、Together AI等專業供應商則在價格、性能或易用性上競爭,還有Hugging Face、Replicate、Modal等垂直整合平台。

Baseten的差異化在於MCM多雲容量管理系統、由推理業務積累的深厚性能優化經驗,以及專為生產部署優化的開發者體驗。

公司近期完成1億5千萬美元D輪融資,估值21.5億美元,為雙線產品發展提供充裕資金。主要客戶包括用於轉錄的Descript、運行客服AI的Decagon,以及提供程式碼助手的Sourcegraph,均屬模型定制和性能要求高的領域。

Haghighat認為時機是Baseten最大優勢。隨著開源模型改善、企業不滿封閉供應商依賴,以及微調技術成熟,市場正發生可持續變革。

他說:「封閉模型在某些場景已領先,開源尚未達標,但市場上人們正用不同訓練技術,特別是強化學習和監督微調,讓開源模型在所需窄領域達到封閉模型水準,這種趨勢非常明顯。」

對於企業在封閉到開源AI模型的複雜過渡,Baseten提供清晰價值主張:處理微調過程中複雜環節的基建,同時優化推理的性能、可靠性及成本效益。公司堅持用戶擁有模型權重,與競爭對手透過合約鎖定用戶形成鮮明對比,顯示其相信技術實力勝於合約限制。

執行這一願景的挑戰在於平衡策略的張力:如何保持基建層定位而非淪為顧問;提供強大靈活性又不讓用戶感到複雜;打造恰到好處的抽象層以適應市場成熟。Baseten過去果斷終止Blueprints的做法,顯示其務實態度,這在眾多誇大承諾但難以兌現的基建供應商中尤為重要。

Haghighat強調:「我們始終是一家推理公司,做訓練是為了推理服務。」

這種將訓練視為達成推理目標的手段,而非最終目的的清晰定位,或許是Baseten最重要的戰略資產。隨著AI部署從實驗走向生產,掌握全棧解決方案的公司將獲得超額收益,但前提是避免淪為「技術找問題」的陷阱。

至少,Baseten的客戶不再需要週五SSH登入伺服器,祈禱週一訓練任務完成。在基建行業,有時最好的創新就是消除痛點。

評論與啟發

Baseten的故事充分反映了AI基建市場的成熟與挑戰。他們從早期高層抽象的失敗中痛定思痛,回歸「基建層」的務實路線,凸顯了AI訓練並非只靠華麗的界面和自動化就能解決的問題。用戶需要的是靈活、可控且高效的基建服務,而非被限制的黑盒解決方案。

公司堅持用戶擁有模型權重的策略,打破了不少競爭者藉由服務條款鎖定用戶的「圍牆花園」模式,這不單是商業策略上的大膽,也展示了對技術和客戶信任的自信。這種開放態度或將成為吸引企業客戶的關鍵,尤其在企業越來越重視數據和模型自主權的今天。

此外,Baseten利用多雲管理系統打破了超大雲供應商的長期合約束縛,這種彈性無疑是未來雲基建的重要趨勢。它不僅降低了成本,還提升了服務的可靠性和靈活性,為用戶帶來實實在在的價值。

值得注意的是,Baseten將訓練和推理視為一體兩面,並積極探索前沿技術如推測解碼,這種技術整合思維有助於打造更完整和高效的AI部署生態系統。這種全生命周期的考量,對於企業追求高效且穩健的AI應用至關重要。

未來,Baseten能否在競爭激烈的市場中立足,關鍵在於如何平衡基建的靈活性與用戶體驗,避免重蹈早期Blueprints過度抽象的覆轍。同時,隨著AI應用領域不斷擴大,Baseten若能持續推動多模態訓練、強化學習等技術落地,將有機會成為企業AI基建不可或缺的關鍵角色。

總結來說,Baseten的發展路徑和策略選擇,為AI基建領域提供了寶貴的參考範例,也提醒業界:技術創新固然重要,但真正贏得市場的是貼近用戶需求、務實且靈活的解決方案。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

✨ Nano Banana AI 生圖免費玩!

📸 上載你嘅「Before」,AI即刻幫你整出「After」!

🪄 一鍵變身|真實人物 → 公仔風 / Cosplay / 海報風

🧍你上載的照片:

Before Image

🎨 AI生成的照片:

After Image
🚀 即刻免費玩 Nano Banana