Kyutai Hibiki:實時語音互譯AI,聲線都一樣!

Ai




Kyutai推出Hibiki:一款具近人類質量的2.7B實時語音翻譯模型

實時語音翻譯是一項複雜的挑戰,需無縫整合語音識別、機器翻譯和文本轉語音合成。傳統的級聯方法經常引入累積錯誤,無法保留講者身份,並且處理速度緩慢,使其不太適合像現場翻譯這樣的實時應用。此外,現有的同聲翻譯模型在準確性和延遲之間難以取得平衡,依賴於難以擴展的複雜推理機制。一個重大障礙是缺乏大規模、良好對齊的語音數據集,限制了訓練能夠生成上下文準確且自然翻譯模型的能力,且延遲最小。

Kyutai開發了Hibiki,這是一款擁有27億參數的解碼器模型,專為實時語音到語音(S2ST)和語音到文本(S2TT)翻譯而設。Hibiki以12.5Hz的幀率和2.2kbps的比特率運行,目前支持法語到英語的翻譯,並旨在保留翻譯輸出中的語音特徵。其簡化版本Hibiki-M(1.7B參數)則針對智能手機上的實時性能進行了優化,使其更易於進行設備內翻譯。

技術方法及優勢

Hibiki的解碼器架構使其能夠使用多流語言模型同時處理語音,預測文本和音頻標記。它採用神經音頻編解碼器(Mimi)來壓縮音頻,同時保持音質,確保翻譯生成的高效性。其設計的一個關鍵方面是上下文對齊,這種方法利用文本翻譯模型的困惑度來確定生成語音的最佳時機,使Hibiki能夠動態調整翻譯延遲,同時保持一致性。此外,Hibiki支持批量推理,能在H100 GPU上並行處理多達320個序列,使其適合大規模應用。該模型在700萬小時的英語音頻、45萬小時的法語和4萬小時的合成平行數據上進行訓練,這使其在各種語音模式中都具備魯棒性。

性能與評估

Hibiki在翻譯質量和講者忠實度方面表現出色。其ASR-BLEU分數達到30.5,超過了現有的基準,包括離線模型。人類評估其自然度為3.73/5,接近專業人類翻譯者的4.12/5分數。該模型在講者相似度方面也表現良好,得分為0.52,而Seamless的得分為0.43。與Seamless和StreamSpeech相比,Hibiki始終提供更高的翻譯質量和更好的語音轉換,同時保持競爭力的延遲。雖然簡化版Hibiki-M在講者相似度上略低,但在實時設備使用中仍然有效。

結論

Hibiki為實時語音翻譯提供了一個實用的方法,通過整合上下文對齊、高效壓縮和實時推理來提高翻譯質量,同時保留自然語音特徵。通過以寬鬆的CC-BY許可釋出開源版本,Hibiki有潛力對多語言交流的進步做出重大貢獻。

對於Hibiki這一技術的推出,我認為它不僅能提升語音翻譯的準確性,也有助於打破語言障礙,促進全球交流。隨著全球化的進展,實時語音翻譯的需求不斷增加,Hibiki的開發恰逢其時。這項技術的開源特性也將鼓勵更多的開發者參與進來,推動語音翻譯技術的進一步發展和應用。值得注意的是,儘管目前的性能令人印象深刻,但如何在多語言環境中保持一貫的翻譯質量仍然是一個挑戰,未來的研究需要聚焦於這一點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

📣 即刻用 Google Workspace|唔使vpn都能享用 Google AI Pro

即使你只係一個人,都可以透過 Google Workspace 使用 官方Gemini AI Pro(原價 HK$160), 而在 Google Workspace 只要 HK$131 / 月

🔓 14 天免費試用
🔖 用呢條連結申請再有 額外 9 折
🇭🇰 香港可直接付款(香港信用卡)
🛡️ 不用 VPN,立即開用
🤖 可用 最新最紅Gemini 3 Pro & Nano Banana Pro
👉 立即登記 14 天免費試用 + 額外 9 折