LLaMA-Omni2：中文即時語音模型，科研突破！

zero comment

大語言模型（LLMs）即時語音對話新突破：中國科學院發布可擴展模組化語音語言模型LLaMA-Omni2

中國科學院計算技術研究所最新推出了一款名為LLaMA-Omni2的語音大語言模型家族，現已在Hugging Face平台公開。這項研究建立了一套模組化框架，將語音感知、語音合成與語言理解整合於一體，實現了低延遲的即時語音對話。與以往的串聯式系統不同，LLaMA-Omni2採用端到端流水線設計，同時保持模組的可解釋性及訓練成本低廉。

LLaMA-Omni2架構概覽

LLaMA-Omni2系列模型參數量涵蓋從5億到140億不等，均基於Qwen2.5-Instruct系列打造。整體架構包括：

– 語音編碼器：採用Whisper-large-v3將輸入語音轉換成逐詞音頻表示。
– 語音適配器：利用下採樣層及前饋神經網絡將編碼器輸出調整至語言模型所需輸入空間。
– 核心大語言模型（LLM）：以Qwen2.5系列作為主要推理引擎。
– 串流文字轉語音（TTS）解碼器：透過自回歸Transformer將LLM輸出轉成語音標記，隨後使用受CosyVoice2啟發的因果流匹配模型生成梅爾頻譜圖。

系統中設計了一個門控機制，在語音合成前融合LLM隱藏狀態與文字嵌入，提升生成語音的語境一致性。

串流生成及讀寫調度策略

LLaMA-Omni2採用一種讀寫調度策略來支援串流輸出。具體而言，每生成R個文字標記，系統會生成W個語音標記。這種同步產生文字與聲音的方式有效降低語音延遲，同時保證語言流暢度。

實驗結果顯示，當R=3、W=10時，系統在延遲（約583毫秒）、語音識別錯誤率（ASR-WER為3.26）和用戶體驗評分（UTMOS為4.19）之間達成理想平衡。

訓練方法

LLaMA-Omni2雖然表現出色，但訓練數據量相對緊湊，僅使用約20萬條多輪語音對話樣本。這些樣本由指令式文本數據集（如Alpaca、UltraChat）合成，涵蓋多樣化的輸入聲音，並統一使用FishSpeech及CosyVoice2模型產生的輸出聲音。

訓練分兩階段進行：

– 第一階段：分別獨立優化語音轉文字和文字轉語音模組。
– 第二階段：微調語音到語音生成流程，包括門控模組及自回歸解碼部分。

基準測試結果

模型在語音問答和語音指令執行任務上以語音轉文字（S2T）及語音轉語音（S2S）兩種模式進行評估。

| 模型 | Llama Q (S2S) | Web Q (S2S) | GPT-4o 評分 | ASR-WER | 延遲 (毫秒) |
| — | — | — | — | — | — |
| GLM-4-Voice (9B) | 50.7 | 15.9 | 4.09 | 3.48 | 1562.8 |
| LLaMA-Omni (8B) | 49.0 | 23.7 | 3.52 | 3.67 | 346.7 |
| LLaMA-Omni2-7B | 60.7 | 31.3 | 4.15 | 3.26 | 582.9 |

性能隨模型規模穩定提升，特別是LLaMA-Omni2-14B在多項任務中均優於現有基準，且使用的訓練數據遠少於原生SpeechLM模型如GLM-4-Voice。

組件分析

– 門控融合模組：移除門控後，語音識別錯誤率上升，語音質量下降，證實其對文字與語境信號對齊的重要性。
– TTS預訓練：從Qwen2.5初始化並採用串流微調的TTS模型表現最佳，從零開始訓練難以收斂。
– 讀寫策略：調整R:W比率會影響延遲與質量，較大的W提升用戶體驗分數但增加響應延遲。

研究亦指出，多輪對話數據優於單輪數據，且性能在約20萬樣本後趨於穩定。

總結

LLaMA-Omni2證明了高質素、低延遲的語音交互大語言模型技術已經成熟，無需依賴龐大語音數據集的超大規模預訓練。結合模組化架構與自回歸串流合成，該系統為即時語音應用提供了切實可行的新路徑。

—

編輯評論與深度觀察

LLaMA-Omni2的出現標誌著語音與文字融合的AI技術又向前推進了一大步。過去語音交互系統多仰賴串聯式架構，語音識別、語言理解、語音合成三個模組分開處理，導致延遲高、系統複雜且難以整合。LLaMA-Omni2採用端到端流水線，同時保持模組化設計，不但提升效率，還保留了系統的可解釋性和靈活性，這在業界是一大創新。

此外，該模型以較小的訓練數據量達成卓越表現，顯示了高效合成數據和精巧訓練策略的潛力。這對於資源有限的研究團隊或企業而言，降低了開發高階語音AI的門檻。

從應用角度看，低於600毫秒的語音響應延遲已經接近自然人類對話的即時感，對於智能助理、客服機器人甚至遠程教育等場景意義重大。未來若能進一步優化多語言支持和情感理解，這類系統將大幅提升人機互動的自然度和實用性。

值得關注的是，門控融合模組的設計凸顯了多模態信息融合的重要性。這種將文字語境與語音特徵巧妙結合的技術，可能成為未來多感官AI系統的關鍵。

總結來說，LLaMA-Omni2不僅在技術層面帶來突破，也為業界樹立了新標杆，未來語音AI或將從此掀開新篇章。香港及華語市場的開發者和企業，應密切關注這類技術的動態，搶佔智能語音應用的先機。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

LLaMA-Omni2：中文即時語音模型，科研突破！

chatgpt

🔥 CHATGPT PLUS 帳戶出租

LLaMA-Omni2：中文即時語音模型，科研突破！

chatgpt

Related Articles

AI設計843件零件電腦 一次開機成功！

哈佛唔係唯一？明尼蘇達頂尖生更勝一籌！

波士頓動力Atlas機械人將入駕現代工廠！

🔥 CHATGPT PLUS 帳戶出租

AI設計843件零件電腦一次開機成功！