OpenAI出新招:AI聲線更真,轉錄唔怕「老作」!

Ai

OpenAI升級其轉錄及語音生成AI模型

OpenAI最近推出了新的轉錄和語音生成AI模型,該公司聲稱這些模型在之前版本的基礎上有所改進。

對於OpenAI來說,這些模型符合其更廣泛的“代理”願景:建立可以獨立完成用戶任務的自動化系統。雖然“代理”的定義可能存在爭議,但OpenAI產品負責人Olivier Godemont對其進行了一種解釋,即一個可以與企業客戶對話的聊天機器人。

Godemont在與TechCrunch的簡報中表示:“我們會看到越來越多的代理在接下來的幾個月中出現。”他補充道:“總的主題是幫助客戶和開發者利用有用、可用和準確的代理。”

OpenAI聲稱其新的文本轉語音模型“gpt-4o-mini-tts”不僅能提供更細緻和真實的語音,還比之前的語音合成模型更具“可引導性”。開發者可以指示gpt-4o-mini-tts如何用自然語言表達,例如,“像瘋狂科學家一樣說話”或“使用像正念老師那樣的平靜聲音”。

以下是一個“真實犯罪風格”的老練聲音示例:

還有一個女性“專業”聲音的樣本:

OpenAI產品團隊成員Jeff Haris告訴TechCrunch,這一目標是讓開發者可以調整語音的“體驗”和“上下文”。

Harris繼續說:“在不同的上下文中,你不希望只有一種平坦、單調的聲音。如果你在客戶支持場景中,並且希望聲音因為出錯而顯得歉意,你可以讓聲音帶有那種情感……我們的主要信念是,開發者和用戶希望真正控制的不僅是說什麼,還有怎麼說。”

至於OpenAI的新語音轉錄模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,它們有效地取代了該公司已經使用多時的Whisper轉錄模型。這些新模型在“多元、高質量的音頻數據集”上進行訓練,OpenAI聲稱能更好地捕捉口音和多樣化的語音,即使在嘈雜的環境中也能如此。

Harris補充道,這些模型也不太可能出現幻覺。Whisper模型以製造虛假詞語和整段內容而臭名昭著,甚至在對話中引入種族評論和虛構的醫療處理。

Harris表示:“這些模型在這方面比Whisper有了很大改善。確保模型的準確性對於獲得可靠的語音體驗至關重要,而在這個上下文中,準確性意味著模型能準確聽到單詞,而不是填補它們未聽到的細節。”

不過,要注意的是,根據OpenAI的內部基準,gpt-4o-transcribe這個更準確的轉錄模型,在印度語和德拉威語(如泰米爾語、泰盧固語、馬拉雅拉姆語和卡納達語)的“單詞錯誤率”接近30%。這意味著該模型在這些語言中大約每10個單詞就會錯過3個。

OpenAI不再開放新轉錄模型

與以往不同的是,OpenAI並不打算將其新的轉錄模型公開。該公司歷來會根據MIT許可證發布新的Whisper版本供商業使用。

Harris表示,gpt-4o-transcribe和gpt-4o-mini-transcribe的規模“遠大於Whisper”,因此不適合公開發布。

他說:“這些模型不是那種可以在你的筆記本電腦上本地運行的模型,就像Whisper一樣。我們希望確保,如果我們要發布開源內容,我們是經過深思熟慮的,並且擁有一個真正針對該特定需求進行調整的模型。我們認為終端用戶設備是開源模型最有趣的案例之一。”

這些新模型的推出顯示了OpenAI在AI語音技術領域的又一次進步,特別是在語音的情感表達和準確性方面。不過,對於不同語言的適用性,仍然需要進一步的改進和測試。隨著技術的不斷演進,未來可能會有更多的應用場景出現,這對於用戶和開發者來說都是一個值得期待的發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Create a hyper-realistic 8K close-up body portrait of a female model, using the uploaded photo as the exact facial reference. Maintain 100% accuracy of the facial features — do not alter or modify any aspect of the face. Render the skin texture, lighting, and overall composition with photo-realistic detail, ensuring lifelike color tones and natural depth of field. A man with his original hair is sitting casually on a white cube, smiling warmly at the camera. He is wearing a cream-colored cable-knit sweater, blue jeans, and brown loafers. His legs are crossed, with one hand resting on his knee.
The background reveals a cozy and festive living room. A large, beautifully decorated Christmas tree with numerous warm lights and gold ornaments stands prominently behind him. Several wrapped gift boxes are visible at the base of the tree. To his left, another smaller decorated Christmas tree and a wreath on the wall further enhance the holiday atmosphere. The lighting is soft and inviting, creating a warm and welcoming scene. 電影感、外景特寫人物肖像,16:9比例,4K超高解析度:

場景設定於溫暖柔和的秋日下午,陽光灑落在海邊蜿蜒小徑上,光線溫柔金黃。一位年輕亞洲女性作為主角,擁有甜美明亮的微笑,肌膚細膩、面容生動自然,眼中蘊含溫暖的神采。她穿著一件質感細膩、寬鬆舒適且露肩的米白色短版毛衣,下身搭配貼身黑色牛仔褲,整體造型時尚休閒、比肩電影主角。

她輕鬆自然地斜倚在一道鮮豔、復古感十足的藍色木製欄杆之上,姿態優雅隨性。畫面使用85mm焦段F1.4大光圈鏡頭,中景3/4身構圖,主體人物清晰細緻、膚質呈現柔和光澤感。前景有一層淡淡、模糊的蘆葦或芒草,透過淺景深帶來層次感與夢幻氛圍。背景遠處則是晃動的模糊海岸線與蔚藍晴空,景色朦朧詩意。

整體色調以溫暖自然、略帶金色餘暉為主,黑柔濾鏡效果減低對比,尤其在高光處展現細膩的光暈與膚質柔化,氛圍極具電影感和藝術氛圍。畫面細節豐富,請強調人物情感表達與場景的詩意氛圍。 Create a hyper-realistic 8K close-up body portrait of a male model, using the uploaded photo as the exact facial reference. Maintain 100% accuracy of the facial features — do not alter or modify any aspect of the face. Render the skin texture, lighting, and overall composition with photo-realistic detail, ensuring lifelike color tones and natural depth of field. A man with his original hairstyle, he is standing confidently, hands in his pockets, looking directly at the camera. He is wearing a simple, light beige crew-neck sweater and dark trousers.
He is positioned between two decorated Christmas trees. The tree to his left is adorned with gold and white ornaments and warm lights, with wrapped red and gold gifts visible at its base. The tree to his right is decorated with red and gold ornaments. The background shows a warm, indoor setting, likely a home, with soft lighting, creating a festive and inviting atmosphere. The overall impression is one of relaxed holiday cheer.

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗