微軟開源VibeVoice-1.5B：90分鐘多聲道語音合成新突破

zero comment

微軟推出VibeVoice-1.5B：開源文字轉語音模型可合成長達90分鐘、多達四位講者的語音

微軟最新開源的文字轉語音（TTS）模型**VibeVoice-1.5B**，打破了現有TTS技術的界限，能夠生成表情豐富、長篇幅、多講者的語音內容。該模型採用MIT許可證，對研究用途極具彈性和擴展性。VibeVoice-1.5B不僅是一個普通的TTS引擎，更是一套框架，能夠連續合成長達90分鐘的自然語音，支援多達四位不同講者同時生成，並且可處理跨語言以及唱歌合成的場景。其流式架構以及即將推出的更大型7B模型，更讓它成為AI語音對話、播客製作和合成語音研究的重大突破。

主要特點

– **超長語音上下文與多講者支援**：VibeVoice-1.5B能夠在單次會話中合成長達**90分鐘**的語音，並同時支援**四位不同講者**，遠超傳統TTS模型通常只能處理1至2位講者的限制。
– **同步生成多講者語音**：模型不只是簡單拼接單一聲音片段，而是能夠支援多位講者的**平行音頻流**，模擬自然對話中的輪流發言。
– **跨語言及唱歌合成**：雖然主要訓練於英語及中文，VibeVoice-1.5B亦具備跨語言合成能力，甚至能生成唱歌語音，這在過往公開的TTS模型中相當罕見。
– **MIT開源許可證**：完全開源且適合商業使用，強調研究透明度和可重複性。
– **適合流式及長篇音頻合成**：架構設計高效，可處理長時間合成，未來將推出7B參數的流式模型，擴大即時高保真TTS的應用範圍。
– **情感與表達力控制**：模型強調情感控制和自然表達，適合播客或對話場景。

架構與技術詳解

VibeVoice基於一個參數量為15億的語言模型（Qwen2.5-1.5B），結合兩種新型的分詞器——**聲學分詞器**和**語義分詞器**，均採用較低的幀率（7.5Hz）以提升計算效率，並確保長序列的一致性。

– **聲學分詞器**：採用σ-VAE變種，編碼器和解碼器均約3.4億參數，能將24kHz的原始音頻壓縮下採樣達3200倍。
– **語義分詞器**：透過自動語音識別代理任務訓練，為編碼器結構，與聲學分詞器類似但不包含VAE元件。
– **擴散解碼器**：約1.23億參數的輕量級條件擴散模組，用於預測聲學特徵，採用無分類器引導和DPM-Solver提升感知質量。
– **上下文長度課程訓練**：從4千個token開始，逐步增加至6.5萬token，支持模型生成長篇連貫的音頻。
– **序列建模**：語言模型理解對話流程和輪流發言，擴散解碼器則負責精細的聲學細節，實現語義與合成的分離，同時保持講者身份長時間不變。

模型限制與負責任使用

– **僅支援英語和中文**：模型只在這兩種語言上訓練，其他語言可能產生難以理解或冒犯性的內容。
– **不支援重疊語音**：雖然可模擬輪流對話，但不支援講者語音重疊。
– **僅限語音合成**：不生成背景音效、擬聲音或音樂，輸出純語音。
– **法律與道德風險**：微軟明確禁止用於聲音冒充、散播假消息或繞過身份驗證，使用者需遵守相關法律並明確標示AI生成內容。
– **非專業即時應用**：雖然效率不錯，但此版本不適合低延遲互動或直播場景，這部分將由即將推出的7B版本解決。

結語

微軟的VibeVoice-1.5B在開源文字轉語音領域是一項突破：它可擴展、多講者且表達豐富，採用輕量擴散架構，為研究者和開源開發者帶來長篇對話式語音合成新可能。雖然目前主要聚焦於研究用途，並限於英語及中文，但其功能和未來版本的潛力，標誌著AI合成語音與交互的重大轉折點。

對技術團隊、內容創作者及AI愛好者而言，VibeVoice-1.5B是下一代合成語音應用不可錯過的工具。該模型已在Hugging Face和GitHub公開，附有完善文檔與開源許可。隨著TTS技術朝向更表達力、互動性及道德透明的方向發展，微軟此次推出的產品無疑是開源AI語音合成的重要里程碑。

—

常見問題

VibeVoice-1.5B有何獨特之處？
能生成長達90分鐘的多講者（最多四人）富有表情的語音，支援跨語言與唱歌合成，且完全開源，突破了長篇對話式AI語音生成的界限。

建議使用什麼硬件本地運行？
社群測試顯示，使用1.5B模型生成多講者對話約需7GB GPU顯存，消費級8GB顯卡（如RTX 3060）即可滿足推論需求。

目前支援哪些語言和音頻風格？
僅訓練於英語和中文，支持跨語言旁白（例如英文提示生成中文語音）和基本唱歌合成。僅生成語音，不含背景音，也不支援講者語音重疊，對話以順序輪流形式呈現。

—

編輯評論與深入解析

微軟VibeVoice-1.5B的推出，代表了開源文字轉語音技術的一大飛躍。傳統TTS模型多半受限於短片段語音與單一講者，難以應付長時間、多角色的對話場景。VibeVoice-1.5B不但突破了語音長度限制，更支持多講者同步合成，這對於播客製作、虛擬主持及互動式AI助理等應用場景極具價值。

值得注意的是，模型採用創新的雙分詞器架構和擴散解碼器，將語義理解與聲學合成有效分離，提升了語音的自然度與表情豐富度。這種設計思路未來或將成為TTS領域的新標準。跨語言及唱歌合成功能，也為多語言多媒體內容創作帶來更大自由度。

不過，現階段模型仍有明顯限制，如不支援語音重疊與背景音效，且只限於英中語言，這意味著距離真正多語言、多場景的通用語音合成還有一段距離。此外，微軟對於倫理和法律風險的嚴格限制也提醒業界，合成語音技術在推廣應用時必須謹慎把關，避免濫用。

展望未來，微軟即將推出的7B規模流式模型，將進一步擴展即時互動與高保真語音合成的可能性。這將徹底改寫AI語音技術的生態，推動更自然、更具表達力的數字人機溝通體驗。

總結而言，VibeVoice-1.5B不僅是技術上的重要突破，也象徵著AI語音合成開源生態邁向成熟與多元化的關鍵一步。對香港及華語市場的開發者來說，這是一個值得深入研究和應用的機會，有助於推動本地語音AI技術的創新與發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

想畫人像、產品圖、插畫？SSFuture 圖像生成器支援 Flux 同 Gemini Nano Banana Pro 改圖 / 合成，打廣東話都得，仲可以沿用上一張圖繼續微調。

微軟開源VibeVoice-1.5B：90分鐘多聲道語音合成新突破

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

chatgpt

Related Articles

$100打造舒適又時尚新年大碼衣櫥秘訣！

揭露AI濫用遊戲開發：守護未來遊戲樂趣

Nvidia聯手SK hynix打造10倍快AI專用SSD