微軟開源VibeVoice-1.5B:90分鐘多聲道語音合成新突破

Ai




微軟推出VibeVoice-1.5B:開源文字轉語音模型 可合成長達90分鐘、多達四位講者的語音

微軟最新開源的文字轉語音(TTS)模型**VibeVoice-1.5B**,打破了現有TTS技術的界限,能夠生成表情豐富、長篇幅、多講者的語音內容。該模型採用MIT許可證,對研究用途極具彈性和擴展性。VibeVoice-1.5B不僅是一個普通的TTS引擎,更是一套框架,能夠連續合成長達90分鐘的自然語音,支援多達四位不同講者同時生成,並且可處理跨語言以及唱歌合成的場景。其流式架構以及即將推出的更大型7B模型,更讓它成為AI語音對話、播客製作和合成語音研究的重大突破。

主要特點

– **超長語音上下文與多講者支援**:VibeVoice-1.5B能夠在單次會話中合成長達**90分鐘**的語音,並同時支援**四位不同講者**,遠超傳統TTS模型通常只能處理1至2位講者的限制。
– **同步生成多講者語音**:模型不只是簡單拼接單一聲音片段,而是能夠支援多位講者的**平行音頻流**,模擬自然對話中的輪流發言。
– **跨語言及唱歌合成**:雖然主要訓練於英語及中文,VibeVoice-1.5B亦具備跨語言合成能力,甚至能生成唱歌語音,這在過往公開的TTS模型中相當罕見。
– **MIT開源許可證**:完全開源且適合商業使用,強調研究透明度和可重複性。
– **適合流式及長篇音頻合成**:架構設計高效,可處理長時間合成,未來將推出7B參數的流式模型,擴大即時高保真TTS的應用範圍。
– **情感與表達力控制**:模型強調情感控制和自然表達,適合播客或對話場景。

架構與技術詳解

VibeVoice基於一個參數量為15億的語言模型(Qwen2.5-1.5B),結合兩種新型的分詞器——**聲學分詞器**和**語義分詞器**,均採用較低的幀率(7.5Hz)以提升計算效率,並確保長序列的一致性。

– **聲學分詞器**:採用σ-VAE變種,編碼器和解碼器均約3.4億參數,能將24kHz的原始音頻壓縮下採樣達3200倍。
– **語義分詞器**:透過自動語音識別代理任務訓練,為編碼器結構,與聲學分詞器類似但不包含VAE元件。
– **擴散解碼器**:約1.23億參數的輕量級條件擴散模組,用於預測聲學特徵,採用無分類器引導和DPM-Solver提升感知質量。
– **上下文長度課程訓練**:從4千個token開始,逐步增加至6.5萬token,支持模型生成長篇連貫的音頻。
– **序列建模**:語言模型理解對話流程和輪流發言,擴散解碼器則負責精細的聲學細節,實現語義與合成的分離,同時保持講者身份長時間不變。

模型限制與負責任使用

– **僅支援英語和中文**:模型只在這兩種語言上訓練,其他語言可能產生難以理解或冒犯性的內容。
– **不支援重疊語音**:雖然可模擬輪流對話,但不支援講者語音重疊。
– **僅限語音合成**:不生成背景音效、擬聲音或音樂,輸出純語音。
– **法律與道德風險**:微軟明確禁止用於聲音冒充、散播假消息或繞過身份驗證,使用者需遵守相關法律並明確標示AI生成內容。
– **非專業即時應用**:雖然效率不錯,但此版本不適合低延遲互動或直播場景,這部分將由即將推出的7B版本解決。

結語

微軟的VibeVoice-1.5B在開源文字轉語音領域是一項突破:它可擴展、多講者且表達豐富,採用輕量擴散架構,為研究者和開源開發者帶來長篇對話式語音合成新可能。雖然目前主要聚焦於研究用途,並限於英語及中文,但其功能和未來版本的潛力,標誌著AI合成語音與交互的重大轉折點。

對技術團隊、內容創作者及AI愛好者而言,VibeVoice-1.5B是下一代合成語音應用不可錯過的工具。該模型已在Hugging Face和GitHub公開,附有完善文檔與開源許可。隨著TTS技術朝向更表達力、互動性及道德透明的方向發展,微軟此次推出的產品無疑是開源AI語音合成的重要里程碑。

常見問題

VibeVoice-1.5B有何獨特之處?
能生成長達90分鐘的多講者(最多四人)富有表情的語音,支援跨語言與唱歌合成,且完全開源,突破了長篇對話式AI語音生成的界限。

建議使用什麼硬件本地運行?
社群測試顯示,使用1.5B模型生成多講者對話約需7GB GPU顯存,消費級8GB顯卡(如RTX 3060)即可滿足推論需求。

目前支援哪些語言和音頻風格?
僅訓練於英語和中文,支持跨語言旁白(例如英文提示生成中文語音)和基本唱歌合成。僅生成語音,不含背景音,也不支援講者語音重疊,對話以順序輪流形式呈現。

編輯評論與深入解析

微軟VibeVoice-1.5B的推出,代表了開源文字轉語音技術的一大飛躍。傳統TTS模型多半受限於短片段語音與單一講者,難以應付長時間、多角色的對話場景。VibeVoice-1.5B不但突破了語音長度限制,更支持多講者同步合成,這對於播客製作、虛擬主持及互動式AI助理等應用場景極具價值。

值得注意的是,模型採用創新的雙分詞器架構和擴散解碼器,將語義理解與聲學合成有效分離,提升了語音的自然度與表情豐富度。這種設計思路未來或將成為TTS領域的新標準。跨語言及唱歌合成功能,也為多語言多媒體內容創作帶來更大自由度。

不過,現階段模型仍有明顯限制,如不支援語音重疊與背景音效,且只限於英中語言,這意味著距離真正多語言、多場景的通用語音合成還有一段距離。此外,微軟對於倫理和法律風險的嚴格限制也提醒業界,合成語音技術在推廣應用時必須謹慎把關,避免濫用。

展望未來,微軟即將推出的7B規模流式模型,將進一步擴展即時互動與高保真語音合成的可能性。這將徹底改寫AI語音技術的生態,推動更自然、更具表達力的數字人機溝通體驗。

總結而言,VibeVoice-1.5B不僅是技術上的重要突破,也象徵著AI語音合成開源生態邁向成熟與多元化的關鍵一步。對香港及華語市場的開發者來說,這是一個值得深入研究和應用的機會,有助於推動本地語音AI技術的創新與發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
A hand holding a broken mirror piece with a man's face reflected in it against a cloudy sky background. The mirror piece is jagged and held up by fingers, showing the man's close-up face with stubble and piercing eyes 
100% use my upload reference image image generate A dynamic, ultra-realistic action shot of a snowboarder performing a high-air jump on a snowy mountain slope. The rider wears a bright green winter jacket, black snow pants, gloves, and a dark beanie, with reflective goggles catching the cold mountain light. A cloud of visible breath escapes from the rider’s mouth in the freezing air. Snow explodes upward from the snowboard, creating sharp, frozen particles suspended mid-air. The background features a dramatic high-altitude landscape with forested slopes and distant mountains under soft, cold blue lighting. Capture cinematic contrast, DSLR realism, 85mm lens, f/2.8, crisp details, slow-motion energy, dynamic composition, atmospheric depth, high-clarity sports photography. Create a photorealistic image of uploaded photo sitting at a relaxed outdoor restaurant in London on a cool Wednesday morning in March 2026. The sky is clear, the spring air is crisp, and the city feels calm as it wakes up. She is the focal point of the shot—wearing a light scarf, gently stirring her tea while gazing off to the side with a thoughtful expression. Everything behind her, from the waiter moving about to the soft morning traffic, should fall into a smooth blur, giving the picture the effortless, candid atmosphere of a moment casually snapped on a phone.
滴滴出行優惠 👉 新用戶香港 Call 車首程免費(最高減 HK$88)— 按此領取優惠!