Meta開源超過1600語言AI語音識別系統!

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

Meta 推出支援逾1600種語言的新一代多語言自動語音識別系統

Meta 最新發布了一款多語言自動語音識別(ASR)系統,支援超過1600種語言,遠遠超越OpenAI開源的Whisper模型僅支援99種語言的範圍。這套系統的架構更具彈性,開發者可透過「零樣本上下文學習」(zero-shot in-context learning)功能,於推理階段輸入少量音頻與文字對應範例,即可讓模型識別更多未曾訓練過的語言,整體潛在支援語言數量可擴展至超過5400種,涵蓋幾乎所有有文字記錄的口語語言。

這種由靜態模型能力向動態可擴展框架的轉變,讓社群能自行擴充語言支援,令Omnilingual ASR成為迄今最具延展性的語音識別系統。更重要的是,Meta將此系統於2025年11月10日以Apache 2.0開源許可證公開發布,無需付費或受限使用,令研究人員和企業都能自由應用於商業或企業級項目,徹底打破過去Meta先前有限制的授權模式。

系統發布同時附有技術論文、GitHub程式碼庫、Hugging Face的示範空間,涵蓋一套包含70億參數的多語言音訊表示模型及超過350種低資源語言的龐大語音資料庫,並支援即刻語音轉文字功能。

Meta於官方X帳號表示:「透過開放這些模型與數據集,我們旨在打破語言障礙,擴大數碼接觸,並賦能全球社群。」

設計重點:專為語音轉文字應用而生

Omnilingual ASR的核心目標是將口語轉換成書面文字,適用於語音助理、字幕生成、口述檔案數碼化及低資源語言的無障礙應用。與過往需大量標註數據的ASR模型不同,系統中包含零樣本版本,能用極少的音頻與文字對應範例,識別從未見過的語言,大幅降低新增或瀕危語言的門檻,免除龐大語料庫及重新訓練的需求。

模型家族與技術架構

Omnilingual ASR包含多款模型,訓練基於超過430萬小時、1600多種語言的語音資料:

– wav2vec 2.0自監督語音表示模型(參數規模300M至7B)
– 基於CTC的高效監督式ASR模型
– 結合語音編碼器與Transformer文字解碼器的先進LLM-ASR模型
– 可於推理階段適應新語言的LLM-ZeroShot ASR模型

所有模型均採用編碼器-解碼器架構,將原始音訊轉為語言無關的表示,再解碼成文字。

規模與性能的重要性

雖然Whisper等模型提升了主流語言的語音識別能力,但在全球語言多樣性的長尾部分仍顯不足。Meta系統直接支援超過1600種語言,並能透過上下文學習推廣到5400多種語言。根據Meta研究,系統在78%支援語言中達到10%以下的字元錯誤率(CER),其中涵蓋超過500種先前未被任何ASR模型涵蓋的語言,為許多被排除於數碼工具之外的語言社群開啟了新可能。

背景:Meta AI戰略調整與Llama 4的反思

Omnilingual ASR的推出正值Meta AI策略關鍵時刻。此前Llama 4於2025年4月發布,卻因質素參差及缺乏企業採用而遭受批評,令Meta創辦人兼CEO馬克·祖克伯格決定重整AI團隊,聘請Scale AI前CEO Alexandr Wang出任首席AI官,並展開大規模招聘,吸納頂尖AI人才。

Omnilingual ASR標誌著Meta回歸其多語言AI領域的領先地位,採用開源且極具擴展性的架構,提升工程師技術聲譽,並以透明、自由的許可證政策,推動全球語言技術的民主化。此舉符合Meta 2025年重點打造「個人超智能」願景,並持續在基礎AI能力及基礎設施(如自家AI加速器)投資,同時在歐洲恢復公開數據訓練,力求在全球市場競爭中取得優勢。

社群驅動的數據蒐集

為達成此規模,Meta與非洲、亞洲等地研究機構及社群組織合作,打造Omnilingual ASR語料庫,收錄超過3350小時、348種低資源語言的自然語音,且所有錄音均由當地語者有償錄製。參與團體包括非洲Next Voices(由蓋茨基金會支持)、Mozilla Foundation的Common Voice及Lanfrica/NaijaVoices等,語料以自然、開放式題目錄製,並嚴格把關文字轉錄品質。

性能與硬件需求

Omnilingual ASR最大型模型omniASR_LLM_7B推理需約17GB GPU記憶體,適合高端硬件部署;而300M至1B參數的小型版本則可在低功耗設備上實時運行。性能測試顯示:

– 高及中資源語言中95%達到10%以下CER
– 低資源語言中36%達標
– 對噪音及未知領域具良好魯棒性,尤其經過微調後

零樣本系統可憑少量音頻文字對,快速適應新語言。

開放存取與開發者工具

所有模型與數據集採用寬鬆的Apache 2.0及CC-BY 4.0授權,方便自由使用。安裝支援PyPI和uv指令,並提供HuggingFace數據集整合、預建推理流程及語言代碼調節,提高準確度。開發者可以透過API查詢支援語言清單,便於快速整合。

更廣泛的影響與社會意義

Omnilingual ASR將語音識別從固定語言列表轉變為可擴展框架,鼓勵社群參與、促進口語與瀕危語言的數碼接入,並推動語音技術在多語言環境的研究。Meta強調倫理考量與社群合作,指出「無模型能預先包含世界所有語言,但Omnilingual ASR讓社群可用自身數據擴充識別能力。」

資源獲取

– 程式碼與模型:[github.com/facebookresearch/omnilingual-asr](https://github.com/facebookresearch/omnilingual-asr)
– 語料庫:[huggingface.co/datasets/facebook/omnilingual-asr-corpus](https://huggingface.co/datasets/facebook/omnilingual-asr-corpus)
– 官方博客:[ai.meta.com/blog/omnilingual-asr](https://ai.meta.com/blog/omnilingual-asr)

企業應用新契機

對企業開發者而言,Omnilingual ASR大幅降低在多語言市場部署語音轉文字系統的門檻。相較商業API僅支援少數高資源語言,這套開源系統即時覆蓋1600多種語言,並可透過零樣本學習擴展至數千種。此彈性對語音客服、字幕服務、無障礙設施、教育及公共科技等領域尤為重要,既符合法規需求亦具競爭優勢。且Apache 2.0授權允許企業自由調校、部署,無須擔心限制條款。

這也標誌著ASR生態從集中式、雲端封閉服務轉向社群可擴展的基礎設施,讓多語言語音識別更加普及、可定制且經濟實惠,開創以語言包容性為核心的新一代企業語音應用。

評論與深入觀察

Meta Omnilingual ASR的發布不僅是技術上的突破,更是戰略與社會責任的雙重展現。在當前全球化及數碼平權的浪潮中,語言多樣性長期被忽視,尤其是數百種低資源及瀕危語言在數碼世界中缺乏存在感。Meta這次以開源策略,開放龐大語料與先進模型,真正讓科技貼近語言社群,賦能地方語言的數字化保存與活化。

此外,零樣本學習的引入代表了語音識別技術的根本轉型:不再依賴巨量標註數據和繁複訓練,而是將權力交還給用戶和社群,自主擴展語言支援。這種架構更符合多元文化環境的需求,也將促進語音技術在全球範圍內的公平普及。

從商業角度看,Meta此舉也意在重塑自身AI形象,回應先前Llama 4市場反響不佳的挑戰。它通過真實、可用且開放的產品,重建開發者與企業的信心,並藉此鞏固其在多語言AI領域的領導地位。

不過,開源亦帶來挑戰,如何確保社群數據的質量與倫理使用,避免語言數據被濫用或忽略社群意願,將是未來重點。Meta在此方面的合作模式與透明度值得業界持續關注與借鑒。

總括而言,Omnilingual ASR不只是技術創新,更是對語言多樣性與數碼包容性的重大貢獻。它為全球語言社群帶來新希望,也為企業提供了前所未有的多語言服務基礎,開啟了語音識別技術更民主、更普惠的未來。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。