Kyutai推出Hibiki:一款具近人類質量的2.7B實時語音翻譯模型
實時語音翻譯是一項複雜的挑戰,需無縫整合語音識別、機器翻譯和文本轉語音合成。傳統的級聯方法經常引入累積錯誤,無法保留講者身份,並且處理速度緩慢,使其不太適合像現場翻譯這樣的實時應用。此外,現有的同聲翻譯模型在準確性和延遲之間難以取得平衡,依賴於難以擴展的複雜推理機制。一個重大障礙是缺乏大規模、良好對齊的語音數據集,限制了訓練能夠生成上下文準確且自然翻譯模型的能力,且延遲最小。
Kyutai開發了Hibiki,這是一款擁有27億參數的解碼器模型,專為實時語音到語音(S2ST)和語音到文本(S2TT)翻譯而設。Hibiki以12.5Hz的幀率和2.2kbps的比特率運行,目前支持法語到英語的翻譯,並旨在保留翻譯輸出中的語音特徵。其簡化版本Hibiki-M(1.7B參數)則針對智能手機上的實時性能進行了優化,使其更易於進行設備內翻譯。
技術方法及優勢
Hibiki的解碼器架構使其能夠使用多流語言模型同時處理語音,預測文本和音頻標記。它採用神經音頻編解碼器(Mimi)來壓縮音頻,同時保持音質,確保翻譯生成的高效性。其設計的一個關鍵方面是上下文對齊,這種方法利用文本翻譯模型的困惑度來確定生成語音的最佳時機,使Hibiki能夠動態調整翻譯延遲,同時保持一致性。此外,Hibiki支持批量推理,能在H100 GPU上並行處理多達320個序列,使其適合大規模應用。該模型在700萬小時的英語音頻、45萬小時的法語和4萬小時的合成平行數據上進行訓練,這使其在各種語音模式中都具備魯棒性。
性能與評估
Hibiki在翻譯質量和講者忠實度方面表現出色。其ASR-BLEU分數達到30.5,超過了現有的基準,包括離線模型。人類評估其自然度為3.73/5,接近專業人類翻譯者的4.12/5分數。該模型在講者相似度方面也表現良好,得分為0.52,而Seamless的得分為0.43。與Seamless和StreamSpeech相比,Hibiki始終提供更高的翻譯質量和更好的語音轉換,同時保持競爭力的延遲。雖然簡化版Hibiki-M在講者相似度上略低,但在實時設備使用中仍然有效。
結論
Hibiki為實時語音翻譯提供了一個實用的方法,通過整合上下文對齊、高效壓縮和實時推理來提高翻譯質量,同時保留自然語音特徵。通過以寬鬆的CC-BY許可釋出開源版本,Hibiki有潛力對多語言交流的進步做出重大貢獻。
—
對於Hibiki這一技術的推出,我認為它不僅能提升語音翻譯的準確性,也有助於打破語言障礙,促進全球交流。隨著全球化的進展,實時語音翻譯的需求不斷增加,Hibiki的開發恰逢其時。這項技術的開源特性也將鼓勵更多的開發者參與進來,推動語音翻譯技術的進一步發展和應用。值得注意的是,儘管目前的性能令人印象深刻,但如何在多語言環境中保持一貫的翻譯質量仍然是一個挑戰,未來的研究需要聚焦於這一點。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放