「Databricks 不再視 Snowflake 為競爭對手」
Databricks 最近完成了一輪高達 100 億美元的融資,這是其歷來最大的融資之一。這家領先的數據和人工智能公司預計明年將會上市,這可能讓 AI 雲數據公司 Snowflake 感到不安。然而,Databricks 的 CEO Ali Ghodsi 認為公司已經遠遠領先於 Snowflake,並且不再將其視為競爭對手。在最近的訪談中,他表示:“我們曾經有一個名為 Snow Melt 的計劃來針對 Snowflake,但那已經是過去的事了。”
在另一個訪談中,Ghodsi 承認 Snowflake 現在已經不再讓他失眠:“曾經會,但現在不會了。”
今年早些時候,Databricks 收購了數據管理初創公司 Tabular,該公司開發了 Iceberg 存儲格式。隨後,他們將 Unity Catalog 開源,這是業界唯一的統一和開放數據治理解決方案,直接挑戰了 Snowflake 早前開源的 Polaris Catalog,這是一個針對 Iceberg 表的開源數據目錄。
有趣的是,Snowflake 也對 Tabular 表示了興趣。Ghodsi 表示:“多個供應商對此非常感興趣。我是說,你可以猜到誰是真正感興趣的。”這微妙地暗示了他們最大競爭對手的參與。
從數據上看,Databricks 預計到 2025 年 1 月 31 日結束的第四季度,年收入將超過 30 億美元的增長率。該公司在 2024 年第三季度報告了超過 60% 的收入增長。相比之下,Snowflake 預計 2025 年的產品收入為 34.3 億美元。
儘管 Snowflake 的收入更高,但對於這場競爭它相對低調,卻強調了成功吸引 Databricks 客戶的成就,並推出了數據工程和機器學習的競爭產品。
Snowflake 的 CFO Michael Scarpelli 在一次舊訪談中提到:“我不知道他為什麼如此迷戀 Snowflake,因為我對 Databricks 並不著迷。”
對 AI 的大力投入
這場始於數據倉儲的競爭現在擴展到了 AI。兩家公司都致力於將生成式 AI 服務納入其產品中。
例如,Snowflake 最近與 AI 安全和研究公司 Anthropic 簽訂了一項多年合作協議,以使用其 Claude 模型。這一合作將使 Anthropic 的 Claude 模型通過 Snowflake Cortex AI 向客戶提供,幫助全球企業從其數據中獲得更多價值。
越來越多的企業轉向 Snowflake 的雲數據,利用 AI 來組織數據。與 Salesforce 和 Microsoft 一樣,Snowflake 正在其 Snowflake Intelligence 平台上開發 AI 代理。
Snowflake 首席執行官 Sridhar Ramaswamy 認為,這將簡化企業從數據中獲得價值的方式。他說:“想象一下,問一個數據代理‘給我這個 Google 文檔的摘要’或‘告訴我上個季度在北美有多少交易’,然後立即使用同一代理跟進下一步。這正是 Snowflake Intelligence 將實現的——在一個地方無縫地訪問和處理你的數據。”
Ramaswamy 今年早些時候被任命為 Snowflake 的 CEO,旨在將公司轉向 AI 和機器學習。2019 年,他共同創立了 Neeva,一個無廣告且以隱私為重點的搜索引擎,並於 2023 年被 Snowflake 收購。如今,Neeva 的服務已整合進 Snowflake,為其搜索功能帶來生成式 AI,以改善數據發現和分析。
最近,Snowflake 收購了 Datavolo 以改善數據管道,並收購了 TruEra 以增強其 AI 雲數據中的 LLM 和 ML 可觀察性。
此外,Snowflake 還開發了一個名為 Artic 的內部 LLM,並與 Reka、Mistral、Meta、AI21 和 Anthropic 建立了合作關係。該公司最近發布了 Arctic Embed L 2.0 和 Arctic Embed M 2.0,這是更新的嵌入模型,支持多語言搜索。
類似地,Databricks 也在追求收購更多初創公司的策略,以增強和擴展其產品和服務。今年,該公司已經進行了四宗收購,包括在 6 月收購 Tabular 的 10 億美元交易。Databricks 去年 7 月收購了 MosaicML,並利用其技術推出了 Databricks 的數據智能平台。
該平台包括支持整個機器學習生命周期的 AI 解決方案。其核心產品 Mosaic AI 簡化了 AI 和 ML 模型的構建、部署和管理。該平台支持使用提示工程、RAG、微調和預訓練等技術的生成式 AI 和大型語言模型(LLMs)。
Ghodsi 認為,企業必須在開發 AI 策略之前先建立數據策略。“首先,你必須正確制定數據策略。許多公司現在想跳過這一步,直接進入 AI,”他說,並補充說如果數據組織得不好,AI 就不會成功。
他進一步闡述了 Databricks 在 AI 中的角色:“我們希望成為 AI 應用的基礎設施,幫助它們進行數據飛輪,讓它們的模型變得更聰明。”
2024 年 3 月,Databricks 推出了 DBRX,一種基於變壓器的模型,擁有 1320 億個參數和每個令牌在推理期間的 360 億個活躍參數。其專家混合(MoE)架構超越了開源模型,並與 GPT-3.5 和 Gemini 1.5 Pro 等封閉源模型相抗衡。
舊有的競爭
儘管 Databricks 和 Snowflake 在設計、架構和分析支持上有相似之處,但它們的用途卻有所不同。Snowflake 作為傳統數據倉庫的現代替代品,具備 ELT(提取、加載和轉換)能力,而 Databricks 提供一個基於 Spark 的數據處理引擎,補充數據倉庫。
Databricks 作為平台即服務(PaaS)運行,而 Snowflake 則作為軟件即服務(SaaS)運行。在數據結構方面,Databricks 支持所有數據類型,包括原始和非結構化數據,而 Snowflake 主要專注於半結構化和結構化數據。
最近,Ramaswamy 分享了他對 Snowflake 和他所稱的“基於 Spark 的 SaaS”解決方案的總擁有成本(TCO)比較,這是對 Databricks 的一個諷刺。
他表示:“Snowflake 在價格性能方面持續超越基於 Spark 的 SaaS,改善了 30%……幫助團隊專注於創新,而非複雜性。” Ramaswamy 的言論引發了激烈的辯論,特別是 Databricks 的支持者認為,Spark 中的附加管理控制對於定制化至關重要。
為了反擊,Databricks 最近加強了其 SQL 和商業智能能力,進入了 Snowflake 的傳統領域。同時,Snowflake 也推出了產品來與 Databricks 在數據工程和機器學習方面競爭,包括名為“SparkAttack”的舉措,以捕捉來自 Databricks 的機器學習工作流程。
Snowflake 和 Databricks 之間的競爭成為雲數據平台創新的推動力。兩家公司不斷挑戰彼此以改進,特別是在 AI 和成本效率方面。隨著我們步入 2025 年,他們的競爭將塑造全球企業數據技術的未來。
在這場競爭中,Databricks 和 Snowflake 不僅在技術上不斷提升自我,也在市場上持續尋找機會以擴大其影響力。未來,這種競爭將對整個數據科技生態系統產生深遠影響,企業必須靈活應對,才能在變化中保持競爭力。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。