Milvus:從零開始到三萬五千顆 GitHub 星的真實旅程
過去幾年,我哋團隊一直專注於一件事:為 AI 時代打造一個真正企業級嘅向量數據庫。講到建數據庫,好多公司都做過,但要做到可擴展、易用,同時真係解決生產環境嘅實際問題,先至係最難嘅。
今個六月,Milvus 喺 GitHub 上突破咗 35,000 顆星(而家已經有超過 35,500 星)。呢個數字對我哋嚟講,唔只係一個里程碑,更加係一份認可。
每一顆星,都代表住一位開發者花時間了解我哋嘅產品,覺得有用,甚至決定投入使用。當中仲有唔少人更進一步:提出問題、貢獻代碼、喺論壇解答疑難,幫助其他開發者。
今日,我哋想同大家分享我哋嘅故事——一個真實、有血有肉、有掙扎、有突破嘅 Milvus 成長記。
Milvus 的誕生:因為市面上冇嘢用得落
2017 年,AI 應用開始興起,非結構化數據爆發式增長。我哋問自己:點樣先可以有效率咁儲存同檢索推動語義理解嘅向量嵌入(vector embeddings)?
傳統數據庫設計嚟處理行與列,唔係高維度向量。當時現有工具要嘛唔啱用,要嘛慢到不可接受。我哋試過 Elasticsearch、喺 MySQL 上自建索引,甚至用過 FAISS,但佢本身只係研究用嘅庫,唔係為生產環境而設。
最後,唯有自己起樓。唔係因為覺得容易,而係我哋見到 AI 發展嘅方向,知道一定要有專門為呢個場景設計嘅基建。
2018 年,我哋深入開發 Milvus。當時「向量數據庫」呢個詞根本未出現過。我哋其實係創造緊一個全新嘅基建軟件門類,既興奮又有壓力。
開源 Milvus:公開建立,接受考驗
2019 年 11 月,我哋決定開源 Milvus 0.10 版本。
開源,即係將所有缺點都攤喺陽光下。每個 hack、每個 TODO、每個猶豫過嘅設計選擇都無所遁形。但我哋相信,要成為 AI 關鍵基建,向量數據庫必須開放同人人可用。
開源後,反應超出預期。開發者唔止用 Milvus,仲會幫手改進。佢哋搵到我哋睇漏咗嘅 bug、建議新功能、甚至提出令我哋反思設計嘅問題。
2020 年,我哋加入 LF AI & Data Foundation。唔單止提升咗項目公信力,更學識點樣長遠維護開源項目,包括治理、兼容性同可持續發展。
2021 年,Milvus 1.0 推出並順利畢業於 LF AI & Data Foundation。同年,我哋喺全球級 BigANN 向量搜索挑戰賽攞冠軍。呢個勝利唔只係榮譽,更證明咗我哋嘅方案真係解決到現實問題。
最艱難的決定:推倒重來
嚟到 2021 年,Milvus 1.0 已經好穩定,但企業客戶不斷要求:更雲原生、更易橫向擴展、更簡單運維。
我哋面臨選擇:繼續 patch 下去,還是完全重寫?我哋選擇後者。
Milvus 2.0 幾乎係全新開發,採用完全解耦嘅存儲與計算架構,支持動態擴展。呢兩年係公司最大壓力時期,因為要放棄一個已經有成千上萬人用緊嘅成熟系統,去冒險做一個未證明過嘅新產品。
2022 年,Milvus 2.0 推出,徹底將 Milvus 由一個強大嘅向量數據庫,升級成可應付企業級負載嘅生產基建。同年,我哋完成咗新一輪融資,唔係為咗燒錢,而係加大產品質量同全球支持力度。每一步都要打好基礎。
AI 爆發,Milvus 進入快車道
2023 年,RAG(檢索增強生成)成為 AI 新熱潮。語義搜索由一個技術 trick 變成 chatbot、文件問答、AI agent 等應用嘅基建。
Milvus 嘅 GitHub 星數直線上升,支援請求爆炸。好多從未接觸過向量數據庫嘅開發者,突然問起複雜嘅索引策略、查詢優化。
我哋發現,需要唔止係技術擴展,仲要升級社群支持。於是招聘更多開發者布道師、重寫文件、出教學內容。
同時,我哋推出咗 Zilliz Cloud——Milvus 嘅全託管雲端版本。有人質疑我哋「商業化」開源項目,但事實係,維護企業級基建成本高昂,Zilliz Cloud 令我哋可以持續投入 Milvus 開發,同時核心項目依然完全開源。
2024 年,Forrester 評選我哋為向量數據庫領導者,Milvus 星數突破三萬。七年來嘅基建之路,終於變成高速公路。愈來愈多企業將向量數據庫視為關鍵基建,公司業務亦加速增長,證明我哋嘅基礎打得夠穩。
Milvus 背後的團隊:Zilliz
有趣嘅係,好多人識 Milvus,但唔識 Zilliz。其實 Zilliz 就係負責開發、維護、支持 Milvus 嘅團隊。
我哋最重視嘅,唔係華麗 demo,而係實實在在嘅細節:性能優化、安全補丁、真正幫到新手嘅文件、以及耐心回應 GitHub 問題。
我哋喺美國、歐洲、亞洲建立咗 24/7 支援團隊,確保開發者可以喺自己時區搵到幫手。社群貢獻者「Milvus 大使」會辦活動、答問題、甚至解釋得比官方更易明。
我哋歡迎 AWS、GCP 等雲服務商集成 Milvus——即使佢哋有自己託管版。愈多部署選擇,對用戶愈好。不過,當遇到複雜技術難題,最終都會搵番我哋,因為只有最熟悉架構嘅人先解釋到點解要咁改、點解咁做。
開源唔只係「工具箱」,而係「進化過程」——無數熱愛同相信佢嘅人一齊努力。只有真正理解架構底蘊嘅團隊,先能提供最專業嘅支援。
如果你用緊 Milvus 開源版,或者考慮將向量數據庫作為 AI 系統核心,歡迎直接聯絡我哋,搵最專業、最快速嘅支援。
Milvus 的實戰價值:用戶信任
Milvus 嘅應用場景遠超我哋最初想像,已經成為全球最嚴苛企業 AI 基建之一。
例如,Bosch 利用 Milvus 革新自動駕駛數據分析,節省 80% 數據收集成本,每年慳返 140 萬美元,並可於毫秒內搜索數十億駕駛場景。
Read AI 服務數百萬活躍用戶,靠 Milvus 實現 20-50 毫秒內檢索數十億條紀錄,agentic search 速度提升 5 倍。佢哋 CTO 話:「Milvus 就係我哋資訊檢索嘅核心。」
全球頂級金融科技公司,選用 Milvus,批量數據導入速度比競爭對手快 5-10 倍,原本要 8 小時嘅工作而家 1 小時搞掂。
美國最大法律工作平台 Filevine,管理 30 億個向量,數百萬法律文件,律師分析文件時間減少 60-80%,真正做到「數據覺醒」。
我哋仲支援 NVIDIA、OpenAI、Microsoft、Salesforce、Walmart 等各行各業巨頭。全球超過 10,000 間機構選擇 Milvus 或 Zilliz Cloud 作為向量數據庫。
呢啲唔只係技術成功,更係向量數據庫悄悄成為 AI 應用基建嘅最佳證明。
Zilliz Cloud:企業級向量數據庫雲服務的誕生
Milvus 開源免費,但要喺企業規模穩定運行,涉及大量專業知識同資源。索引選擇、內存管理、擴展策略、安全設定……全部都唔簡單。好多團隊想享受 Milvus 強大功能,但又唔想自己搞運維,亦需要企業級支援同 SLA 保證。
所以我哋推出咗 Zilliz Cloud——一個全面託管、覆蓋全球 25 個地區、5 大雲平台(AWS、GCP、Azure 等),專為企業級 AI 工作負載設計。
Zilliz Cloud 有幾大特色:
– 超大規模高性能:專利 AI AutoIndex 引擎,查詢速度比開源快 3-5 倍,無需手動調整索引。雲原生架構支持數十億向量、萬級並發,保持亞秒級響應。
– 內建安全與合規:數據靜態/傳輸加密、細緻 RBAC、審計日誌、SAML/OAuth2.0、BYOC 部署,符合 GDPR、HIPAA 等全球標準。
– 成本最優化:熱/冷數據分層、彈性擴展、按需計費,總體成本比自管部署低 50% 以上。
– 真正雲端中立:任意雲平台部署,無供應商綁定,全球一致性與可擴展性。
呢啲功能未必聽落好誇張,但係解決咗企業每日面對嘅實際問題。最重要係:底層依然係 Milvus,完全無專屬鎖定或兼容問題。
下一步:Vector Data Lake(向量數據湖)
我哋最早提出「向量數據庫」概念,亦係第一批實踐者,但我哋唔會止步於此。未來目標係:「向量數據湖」。
現實問題係:唔係所有向量查詢都需要毫秒級延遲。好多企業擁有龐大但唔常查詢嘅數據,例如歷史文件分析、批量相似性計算、長期趨勢分析。用傳統即時向量數據庫又貴又唔啱用。
向量數據湖採用存儲-計算分離架構,專為大規模、低頻存取場景而設,成本大幅降低。
核心能力包括:
– 統一數據棧:連接線上線下數據層,格式一致,數據熱/冷分層無需重複格式轉換。
– 兼容主流計算生態:原生支持 Spark、Ray 等框架,方便現有數據團隊用熟悉工具處理向量數據。
– 成本最優化:熱數據用 SSD/NVMe,冷數據自動轉 S3 等對象存儲,智能索引令 I/O 快速,儲存成本可預測。
目的唔係取代向量數據庫,而係讓企業有合適工具應付唔同場景:即時查詢用數據庫,大數據分析用數據湖。
我哋深信摩爾定律同杰文斯悖論:計算單位成本愈低,應用規模愈大。向量基建都一樣。
只要每日改進索引、存儲、緩存、部署模式,就可以令 AI 基建更普及、更平民化,推動非結構化數據全面進入 AI 原生時代。
多謝你哋!
35,000+ 顆星,代表住一個值得自豪嘅社群——一班覺得 Milvus 有用、願意推薦同貢獻嘅開發者。
但我哋未停步。Milvus 仲有 bug 要修、性能要提升、社群想要嘅功能要落實。我哋嘅路線圖公開,真心希望你哋多啲意見。
數字唔係最重要,真正珍貴係背後嘅信任。信我哋會繼續開放開發、聽意見、持續改進。
– 貢獻者:你哋嘅 PR、bug 報告、文件改進,每日令 Milvus 更好,多謝你哋!
– 用戶:多謝你哋信任我哋,將生產工作量交俾 Milvus,仲有坦率嘅反饋。
– 社群:多謝你哋答疑、辦活動、幫新手入門。
如果你對向量數據庫有興趣,歡迎搵我哋;如果已經用緊 Milvus 或 Zilliz Cloud,更加想聽你哋嘅故事。如果純粹好奇,我哋社群隨時開放。
一齊繼續打造令 AI 應用有可能嘅基建!
編輯評論:Milvus 的啟示——開源基建的未來與香港的機遇
Milvus 呢個案例,對香港科技界有幾個重要啟示。第一,開源唔再係純粹「玩玩吓」或者「免費用」,而係成為新一代科技基建不可或缺嘅一部分。Milvus 團隊由零開始,面對過技術、商業、社群三重挑戰,選擇公開透明,最終贏得全球信任。呢種「先有社群,後有商業」模式,值得本地初創借鑒。
第二,Milvus 兩次大膽推倒重來,證明科技創新唔可以怕「打爛重做」。好多香港企業一遇到 legacy system 就止步,怕風險、怕成本,但 Milvus 證明只要堅持正確方向,長遠回報遠超短期陣痛。
第三,Milvus 由數據庫進化到數據湖,反映 AI 應用愈嚟愈多元,基建必須同時兼顧即時性與成本效益。香港作為區內數據樞紐,應該積極參與呢類開源基建項目,甚至推動本地企業試用、貢獻,建立屬於香港嘅 AI 生態圈。
最後,Milvus 強調社群力量同專業支援並重,亦啟發香港科技人:開源唔代表冇服務,反而可以做得更好、更貼地。只要有專業團隊支撐,加上全球社群,香港完全有機會成為下一個開源 AI 基建重鎮。
Milvus 的成功,唔只係技術勝利,更係一場理念、文化同社群嘅勝利。香港科技界,係時候學習 Milvus 嘅精神,勇於創新,開放合作,迎接 AI 新時代。