微軟推出VibeVoice-1.5B:開源文字轉語音模型 可合成長達90分鐘、多達四位講者的語音
微軟最新開源的文字轉語音(TTS)模型**VibeVoice-1.5B**,打破了現有TTS技術的界限,能夠生成表情豐富、長篇幅、多講者的語音內容。該模型採用MIT許可證,對研究用途極具彈性和擴展性。VibeVoice-1.5B不僅是一個普通的TTS引擎,更是一套框架,能夠連續合成長達90分鐘的自然語音,支援多達四位不同講者同時生成,並且可處理跨語言以及唱歌合成的場景。其流式架構以及即將推出的更大型7B模型,更讓它成為AI語音對話、播客製作和合成語音研究的重大突破。
主要特點
– **超長語音上下文與多講者支援**:VibeVoice-1.5B能夠在單次會話中合成長達**90分鐘**的語音,並同時支援**四位不同講者**,遠超傳統TTS模型通常只能處理1至2位講者的限制。
– **同步生成多講者語音**:模型不只是簡單拼接單一聲音片段,而是能夠支援多位講者的**平行音頻流**,模擬自然對話中的輪流發言。
– **跨語言及唱歌合成**:雖然主要訓練於英語及中文,VibeVoice-1.5B亦具備跨語言合成能力,甚至能生成唱歌語音,這在過往公開的TTS模型中相當罕見。
– **MIT開源許可證**:完全開源且適合商業使用,強調研究透明度和可重複性。
– **適合流式及長篇音頻合成**:架構設計高效,可處理長時間合成,未來將推出7B參數的流式模型,擴大即時高保真TTS的應用範圍。
– **情感與表達力控制**:模型強調情感控制和自然表達,適合播客或對話場景。
架構與技術詳解
VibeVoice基於一個參數量為15億的語言模型(Qwen2.5-1.5B),結合兩種新型的分詞器——**聲學分詞器**和**語義分詞器**,均採用較低的幀率(7.5Hz)以提升計算效率,並確保長序列的一致性。
– **聲學分詞器**:採用σ-VAE變種,編碼器和解碼器均約3.4億參數,能將24kHz的原始音頻壓縮下採樣達3200倍。
– **語義分詞器**:透過自動語音識別代理任務訓練,為編碼器結構,與聲學分詞器類似但不包含VAE元件。
– **擴散解碼器**:約1.23億參數的輕量級條件擴散模組,用於預測聲學特徵,採用無分類器引導和DPM-Solver提升感知質量。
– **上下文長度課程訓練**:從4千個token開始,逐步增加至6.5萬token,支持模型生成長篇連貫的音頻。
– **序列建模**:語言模型理解對話流程和輪流發言,擴散解碼器則負責精細的聲學細節,實現語義與合成的分離,同時保持講者身份長時間不變。
模型限制與負責任使用
– **僅支援英語和中文**:模型只在這兩種語言上訓練,其他語言可能產生難以理解或冒犯性的內容。
– **不支援重疊語音**:雖然可模擬輪流對話,但不支援講者語音重疊。
– **僅限語音合成**:不生成背景音效、擬聲音或音樂,輸出純語音。
– **法律與道德風險**:微軟明確禁止用於聲音冒充、散播假消息或繞過身份驗證,使用者需遵守相關法律並明確標示AI生成內容。
– **非專業即時應用**:雖然效率不錯,但此版本不適合低延遲互動或直播場景,這部分將由即將推出的7B版本解決。
結語
微軟的VibeVoice-1.5B在開源文字轉語音領域是一項突破:它可擴展、多講者且表達豐富,採用輕量擴散架構,為研究者和開源開發者帶來長篇對話式語音合成新可能。雖然目前主要聚焦於研究用途,並限於英語及中文,但其功能和未來版本的潛力,標誌著AI合成語音與交互的重大轉折點。
對技術團隊、內容創作者及AI愛好者而言,VibeVoice-1.5B是下一代合成語音應用不可錯過的工具。該模型已在Hugging Face和GitHub公開,附有完善文檔與開源許可。隨著TTS技術朝向更表達力、互動性及道德透明的方向發展,微軟此次推出的產品無疑是開源AI語音合成的重要里程碑。
—
常見問題
VibeVoice-1.5B有何獨特之處?
能生成長達90分鐘的多講者(最多四人)富有表情的語音,支援跨語言與唱歌合成,且完全開源,突破了長篇對話式AI語音生成的界限。
建議使用什麼硬件本地運行?
社群測試顯示,使用1.5B模型生成多講者對話約需7GB GPU顯存,消費級8GB顯卡(如RTX 3060)即可滿足推論需求。
目前支援哪些語言和音頻風格?
僅訓練於英語和中文,支持跨語言旁白(例如英文提示生成中文語音)和基本唱歌合成。僅生成語音,不含背景音,也不支援講者語音重疊,對話以順序輪流形式呈現。
—
編輯評論與深入解析
微軟VibeVoice-1.5B的推出,代表了開源文字轉語音技術的一大飛躍。傳統TTS模型多半受限於短片段語音與單一講者,難以應付長時間、多角色的對話場景。VibeVoice-1.5B不但突破了語音長度限制,更支持多講者同步合成,這對於播客製作、虛擬主持及互動式AI助理等應用場景極具價值。
值得注意的是,模型採用創新的雙分詞器架構和擴散解碼器,將語義理解與聲學合成有效分離,提升了語音的自然度與表情豐富度。這種設計思路未來或將成為TTS領域的新標準。跨語言及唱歌合成功能,也為多語言多媒體內容創作帶來更大自由度。
不過,現階段模型仍有明顯限制,如不支援語音重疊與背景音效,且只限於英中語言,這意味著距離真正多語言、多場景的通用語音合成還有一段距離。此外,微軟對於倫理和法律風險的嚴格限制也提醒業界,合成語音技術在推廣應用時必須謹慎把關,避免濫用。
展望未來,微軟即將推出的7B規模流式模型,將進一步擴展即時互動與高保真語音合成的可能性。這將徹底改寫AI語音技術的生態,推動更自然、更具表達力的數字人機溝通體驗。
總結而言,VibeVoice-1.5B不僅是技術上的重要突破,也象徵著AI語音合成開源生態邁向成熟與多元化的關鍵一步。對香港及華語市場的開發者來說,這是一個值得深入研究和應用的機會,有助於推動本地語音AI技術的創新與發展。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。