Meta開源超過1600語言AI語音識別系統！

zero comment

Meta 推出支援逾1600種語言的新一代多語言自動語音識別系統

Meta 最新發布了一款多語言自動語音識別（ASR）系統，支援超過1600種語言，遠遠超越OpenAI開源的Whisper模型僅支援99種語言的範圍。這套系統的架構更具彈性，開發者可透過「零樣本上下文學習」（zero-shot in-context learning）功能，於推理階段輸入少量音頻與文字對應範例，即可讓模型識別更多未曾訓練過的語言，整體潛在支援語言數量可擴展至超過5400種，涵蓋幾乎所有有文字記錄的口語語言。

這種由靜態模型能力向動態可擴展框架的轉變，讓社群能自行擴充語言支援，令Omnilingual ASR成為迄今最具延展性的語音識別系統。更重要的是，Meta將此系統於2025年11月10日以Apache 2.0開源許可證公開發布，無需付費或受限使用，令研究人員和企業都能自由應用於商業或企業級項目，徹底打破過去Meta先前有限制的授權模式。

系統發布同時附有技術論文、GitHub程式碼庫、Hugging Face的示範空間，涵蓋一套包含70億參數的多語言音訊表示模型及超過350種低資源語言的龐大語音資料庫，並支援即刻語音轉文字功能。

Meta於官方X帳號表示：「透過開放這些模型與數據集，我們旨在打破語言障礙，擴大數碼接觸，並賦能全球社群。」

設計重點：專為語音轉文字應用而生

Omnilingual ASR的核心目標是將口語轉換成書面文字，適用於語音助理、字幕生成、口述檔案數碼化及低資源語言的無障礙應用。與過往需大量標註數據的ASR模型不同，系統中包含零樣本版本，能用極少的音頻與文字對應範例，識別從未見過的語言，大幅降低新增或瀕危語言的門檻，免除龐大語料庫及重新訓練的需求。

模型家族與技術架構

Omnilingual ASR包含多款模型，訓練基於超過430萬小時、1600多種語言的語音資料：

– wav2vec 2.0自監督語音表示模型（參數規模300M至7B）
– 基於CTC的高效監督式ASR模型
– 結合語音編碼器與Transformer文字解碼器的先進LLM-ASR模型
– 可於推理階段適應新語言的LLM-ZeroShot ASR模型

所有模型均採用編碼器-解碼器架構，將原始音訊轉為語言無關的表示，再解碼成文字。

規模與性能的重要性

雖然Whisper等模型提升了主流語言的語音識別能力，但在全球語言多樣性的長尾部分仍顯不足。Meta系統直接支援超過1600種語言，並能透過上下文學習推廣到5400多種語言。根據Meta研究，系統在78%支援語言中達到10%以下的字元錯誤率（CER），其中涵蓋超過500種先前未被任何ASR模型涵蓋的語言，為許多被排除於數碼工具之外的語言社群開啟了新可能。

背景：Meta AI戰略調整與Llama 4的反思

Omnilingual ASR的推出正值Meta AI策略關鍵時刻。此前Llama 4於2025年4月發布，卻因質素參差及缺乏企業採用而遭受批評，令Meta創辦人兼CEO馬克·祖克伯格決定重整AI團隊，聘請Scale AI前CEO Alexandr Wang出任首席AI官，並展開大規模招聘，吸納頂尖AI人才。

Omnilingual ASR標誌著Meta回歸其多語言AI領域的領先地位，採用開源且極具擴展性的架構，提升工程師技術聲譽，並以透明、自由的許可證政策，推動全球語言技術的民主化。此舉符合Meta 2025年重點打造「個人超智能」願景，並持續在基礎AI能力及基礎設施（如自家AI加速器）投資，同時在歐洲恢復公開數據訓練，力求在全球市場競爭中取得優勢。

社群驅動的數據蒐集

為達成此規模，Meta與非洲、亞洲等地研究機構及社群組織合作，打造Omnilingual ASR語料庫，收錄超過3350小時、348種低資源語言的自然語音，且所有錄音均由當地語者有償錄製。參與團體包括非洲Next Voices（由蓋茨基金會支持）、Mozilla Foundation的Common Voice及Lanfrica/NaijaVoices等，語料以自然、開放式題目錄製，並嚴格把關文字轉錄品質。

性能與硬件需求

Omnilingual ASR最大型模型omniASR_LLM_7B推理需約17GB GPU記憶體，適合高端硬件部署；而300M至1B參數的小型版本則可在低功耗設備上實時運行。性能測試顯示：

– 高及中資源語言中95%達到10%以下CER
– 低資源語言中36%達標
– 對噪音及未知領域具良好魯棒性，尤其經過微調後

零樣本系統可憑少量音頻文字對，快速適應新語言。

開放存取與開發者工具

所有模型與數據集採用寬鬆的Apache 2.0及CC-BY 4.0授權，方便自由使用。安裝支援PyPI和uv指令，並提供HuggingFace數據集整合、預建推理流程及語言代碼調節，提高準確度。開發者可以透過API查詢支援語言清單，便於快速整合。

更廣泛的影響與社會意義

Omnilingual ASR將語音識別從固定語言列表轉變為可擴展框架，鼓勵社群參與、促進口語與瀕危語言的數碼接入，並推動語音技術在多語言環境的研究。Meta強調倫理考量與社群合作，指出「無模型能預先包含世界所有語言，但Omnilingual ASR讓社群可用自身數據擴充識別能力。」

資源獲取

– 程式碼與模型：[github.com/facebookresearch/omnilingual-asr](https://github.com/facebookresearch/omnilingual-asr)
– 語料庫：[huggingface.co/datasets/facebook/omnilingual-asr-corpus](https://huggingface.co/datasets/facebook/omnilingual-asr-corpus)
– 官方博客：[ai.meta.com/blog/omnilingual-asr](https://ai.meta.com/blog/omnilingual-asr)

企業應用新契機

對企業開發者而言，Omnilingual ASR大幅降低在多語言市場部署語音轉文字系統的門檻。相較商業API僅支援少數高資源語言，這套開源系統即時覆蓋1600多種語言，並可透過零樣本學習擴展至數千種。此彈性對語音客服、字幕服務、無障礙設施、教育及公共科技等領域尤為重要，既符合法規需求亦具競爭優勢。且Apache 2.0授權允許企業自由調校、部署，無須擔心限制條款。

這也標誌著ASR生態從集中式、雲端封閉服務轉向社群可擴展的基礎設施，讓多語言語音識別更加普及、可定制且經濟實惠，開創以語言包容性為核心的新一代企業語音應用。

—

評論與深入觀察

Meta Omnilingual ASR的發布不僅是技術上的突破，更是戰略與社會責任的雙重展現。在當前全球化及數碼平權的浪潮中，語言多樣性長期被忽視，尤其是數百種低資源及瀕危語言在數碼世界中缺乏存在感。Meta這次以開源策略，開放龐大語料與先進模型，真正讓科技貼近語言社群，賦能地方語言的數字化保存與活化。

此外，零樣本學習的引入代表了語音識別技術的根本轉型：不再依賴巨量標註數據和繁複訓練，而是將權力交還給用戶和社群，自主擴展語言支援。這種架構更符合多元文化環境的需求，也將促進語音技術在全球範圍內的公平普及。

從商業角度看，Meta此舉也意在重塑自身AI形象，回應先前Llama 4市場反響不佳的挑戰。它通過真實、可用且開放的產品，重建開發者與企業的信心，並藉此鞏固其在多語言AI領域的領導地位。

不過，開源亦帶來挑戰，如何確保社群數據的質量與倫理使用，避免語言數據被濫用或忽略社群意願，將是未來重點。Meta在此方面的合作模式與透明度值得業界持續關注與借鑒。

總括而言，Omnilingual ASR不只是技術創新，更是對語言多樣性與數碼包容性的重大貢獻。它為全球語言社群帶來新希望，也為企業提供了前所未有的多語言服務基礎，開啟了語音識別技術更民主、更普惠的未來。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

Meta開源超過1600語言AI語音識別系統！

chatgpt

🔥 CHATGPT PLUS 帳戶出租

Meta開源超過1600語言AI語音識別系統！

chatgpt

Related Articles

用LlamaIndex同OpenAI打造自我評估AI系統詳解

AI興起下心理健康新挑戰與機遇揭秘

AI精神病危機？虛擬助手引發幻覺真相揭秘！

🔥 CHATGPT PLUS 帳戶出租