Kyutai Hibiki:實時語音互譯AI,聲線都一樣!

Ai




Kyutai推出Hibiki:一款具近人類質量的2.7B實時語音翻譯模型

實時語音翻譯是一項複雜的挑戰,需無縫整合語音識別、機器翻譯和文本轉語音合成。傳統的級聯方法經常引入累積錯誤,無法保留講者身份,並且處理速度緩慢,使其不太適合像現場翻譯這樣的實時應用。此外,現有的同聲翻譯模型在準確性和延遲之間難以取得平衡,依賴於難以擴展的複雜推理機制。一個重大障礙是缺乏大規模、良好對齊的語音數據集,限制了訓練能夠生成上下文準確且自然翻譯模型的能力,且延遲最小。

Kyutai開發了Hibiki,這是一款擁有27億參數的解碼器模型,專為實時語音到語音(S2ST)和語音到文本(S2TT)翻譯而設。Hibiki以12.5Hz的幀率和2.2kbps的比特率運行,目前支持法語到英語的翻譯,並旨在保留翻譯輸出中的語音特徵。其簡化版本Hibiki-M(1.7B參數)則針對智能手機上的實時性能進行了優化,使其更易於進行設備內翻譯。

技術方法及優勢

Hibiki的解碼器架構使其能夠使用多流語言模型同時處理語音,預測文本和音頻標記。它採用神經音頻編解碼器(Mimi)來壓縮音頻,同時保持音質,確保翻譯生成的高效性。其設計的一個關鍵方面是上下文對齊,這種方法利用文本翻譯模型的困惑度來確定生成語音的最佳時機,使Hibiki能夠動態調整翻譯延遲,同時保持一致性。此外,Hibiki支持批量推理,能在H100 GPU上並行處理多達320個序列,使其適合大規模應用。該模型在700萬小時的英語音頻、45萬小時的法語和4萬小時的合成平行數據上進行訓練,這使其在各種語音模式中都具備魯棒性。

性能與評估

Hibiki在翻譯質量和講者忠實度方面表現出色。其ASR-BLEU分數達到30.5,超過了現有的基準,包括離線模型。人類評估其自然度為3.73/5,接近專業人類翻譯者的4.12/5分數。該模型在講者相似度方面也表現良好,得分為0.52,而Seamless的得分為0.43。與Seamless和StreamSpeech相比,Hibiki始終提供更高的翻譯質量和更好的語音轉換,同時保持競爭力的延遲。雖然簡化版Hibiki-M在講者相似度上略低,但在實時設備使用中仍然有效。

結論

Hibiki為實時語音翻譯提供了一個實用的方法,通過整合上下文對齊、高效壓縮和實時推理來提高翻譯質量,同時保留自然語音特徵。通過以寬鬆的CC-BY許可釋出開源版本,Hibiki有潛力對多語言交流的進步做出重大貢獻。

對於Hibiki這一技術的推出,我認為它不僅能提升語音翻譯的準確性,也有助於打破語言障礙,促進全球交流。隨著全球化的進展,實時語音翻譯的需求不斷增加,Hibiki的開發恰逢其時。這項技術的開源特性也將鼓勵更多的開發者參與進來,推動語音翻譯技術的進一步發展和應用。值得注意的是,儘管目前的性能令人印象深刻,但如何在多語言環境中保持一貫的翻譯質量仍然是一個挑戰,未來的研究需要聚焦於這一點。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🔥 CHATGPT PLUS 帳戶出租

唔使外國信用卡、送埋 VPN,輕鬆即用!

1個月 HK$118|1年 HK$1288|獨立帳號 🎁

💳 支援 PayMe / 轉數快 / Alipay / 信用卡

✨ 我哋亦可以代升級你的帳戶!

🚀 即刻睇詳情

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Create a photorealistic and highly detailed image featuring the attached image walking confidently down a modern city street, accompanied by Jason Statham, Dwayne “The Rock” Johnson, and Jason Momoa acting as bodyguards.

John Wick (Keanu Reeves) is walking just beside or slightly behind the subject, holding an umbrella over him to shield from light rain.

The subject should be the central figure, wearing stylish casual clothing — like a fitted jacket, dark jeans, and sunglasses — exuding calm authority and cool charisma.

Statham, The Rock, and Momoa are dressed in black tactical-style suits, maintaining alert, protective stances, scanning the surroundings like professional bodyguards. John Wick wears his signature black suit and tie, looking composed as he holds the umbrella.

The setting is a downtown urban street with wet pavement reflecting city lights, parked luxury cars, and paparazzi in the background snapping photos.

The photo should look like a real paparazzi shot — slightly off-angle, mid-step motion blur, with realistic lighting and reflections.

Lighting: natural daylight with overcast skies, reflections from wet concrete, realistic shadows, subtle raindrops on the umbrella and clothing.

Camera realism: crisp detail on facial features and clothing textures, shallow depth of field emphasizing the group, with lens flare or light bloom for authenticity.

Mood & tone: grounded, cinematic, and stylish — feels like a moment from a celebrity entourage photo or action-movie press capture, taken with an iPhone by paparazzi.

Style: ultra-realistic, documentary-style street photography with modern cinematic sharpness. A young person with short blonde hair squatting confidently in front of a white sports car on a wet city street at night. Captured with a wide-angle fisheye lens for dramatic distortion. Neon signs, Japanese billboards, and glowing city lights reflect on the wet pavement. Moody, cyberpunk-inspired atmosphere with light rain and soft reflections. Casual streetwear—oversized dark sweatshirt, loose grey pants, worn sneakers. Background filled with vibrant nightlife, blurred car headlights, and bustling urban energy. High contrast, teal-orange tones, cinematic depth, film grain, atmospheric haze, shallow depth of field, 35mm film look, poster-style composition, ultra-realistic lighting. 一隻在香港茶餐廳喝奶茶的貓