Kyutai Hibiki：實時語音互譯AI，聲線都一樣！

zero comment

Kyutai推出Hibiki：一款具近人類質量的2.7B實時語音翻譯模型

實時語音翻譯是一項複雜的挑戰，需無縫整合語音識別、機器翻譯和文本轉語音合成。傳統的級聯方法經常引入累積錯誤，無法保留講者身份，並且處理速度緩慢，使其不太適合像現場翻譯這樣的實時應用。此外，現有的同聲翻譯模型在準確性和延遲之間難以取得平衡，依賴於難以擴展的複雜推理機制。一個重大障礙是缺乏大規模、良好對齊的語音數據集，限制了訓練能夠生成上下文準確且自然翻譯模型的能力，且延遲最小。

Kyutai開發了Hibiki，這是一款擁有27億參數的解碼器模型，專為實時語音到語音（S2ST）和語音到文本（S2TT）翻譯而設。Hibiki以12.5Hz的幀率和2.2kbps的比特率運行，目前支持法語到英語的翻譯，並旨在保留翻譯輸出中的語音特徵。其簡化版本Hibiki-M（1.7B參數）則針對智能手機上的實時性能進行了優化，使其更易於進行設備內翻譯。

技術方法及優勢

Hibiki的解碼器架構使其能夠使用多流語言模型同時處理語音，預測文本和音頻標記。它採用神經音頻編解碼器（Mimi）來壓縮音頻，同時保持音質，確保翻譯生成的高效性。其設計的一個關鍵方面是上下文對齊，這種方法利用文本翻譯模型的困惑度來確定生成語音的最佳時機，使Hibiki能夠動態調整翻譯延遲，同時保持一致性。此外，Hibiki支持批量推理，能在H100 GPU上並行處理多達320個序列，使其適合大規模應用。該模型在700萬小時的英語音頻、45萬小時的法語和4萬小時的合成平行數據上進行訓練，這使其在各種語音模式中都具備魯棒性。

性能與評估

Hibiki在翻譯質量和講者忠實度方面表現出色。其ASR-BLEU分數達到30.5，超過了現有的基準，包括離線模型。人類評估其自然度為3.73/5，接近專業人類翻譯者的4.12/5分數。該模型在講者相似度方面也表現良好，得分為0.52，而Seamless的得分為0.43。與Seamless和StreamSpeech相比，Hibiki始終提供更高的翻譯質量和更好的語音轉換，同時保持競爭力的延遲。雖然簡化版Hibiki-M在講者相似度上略低，但在實時設備使用中仍然有效。

結論

Hibiki為實時語音翻譯提供了一個實用的方法，通過整合上下文對齊、高效壓縮和實時推理來提高翻譯質量，同時保留自然語音特徵。通過以寬鬆的CC-BY許可釋出開源版本，Hibiki有潛力對多語言交流的進步做出重大貢獻。

—

對於Hibiki這一技術的推出，我認為它不僅能提升語音翻譯的準確性，也有助於打破語言障礙，促進全球交流。隨著全球化的進展，實時語音翻譯的需求不斷增加，Hibiki的開發恰逢其時。這項技術的開源特性也將鼓勵更多的開發者參與進來，推動語音翻譯技術的進一步發展和應用。值得注意的是，儘管目前的性能令人印象深刻，但如何在多語言環境中保持一貫的翻譯質量仍然是一個挑戰，未來的研究需要聚焦於這一點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。