免費任玩!AI幫你改圖!!

OpenAI出新招:AI聲線更真,轉錄唔怕「老作」!

Ai

OpenAI升級其轉錄及語音生成AI模型

OpenAI最近推出了新的轉錄和語音生成AI模型,該公司聲稱這些模型在之前版本的基礎上有所改進。

對於OpenAI來說,這些模型符合其更廣泛的“代理”願景:建立可以獨立完成用戶任務的自動化系統。雖然“代理”的定義可能存在爭議,但OpenAI產品負責人Olivier Godemont對其進行了一種解釋,即一個可以與企業客戶對話的聊天機器人。

Godemont在與TechCrunch的簡報中表示:“我們會看到越來越多的代理在接下來的幾個月中出現。”他補充道:“總的主題是幫助客戶和開發者利用有用、可用和準確的代理。”

OpenAI聲稱其新的文本轉語音模型“gpt-4o-mini-tts”不僅能提供更細緻和真實的語音,還比之前的語音合成模型更具“可引導性”。開發者可以指示gpt-4o-mini-tts如何用自然語言表達,例如,“像瘋狂科學家一樣說話”或“使用像正念老師那樣的平靜聲音”。

以下是一個“真實犯罪風格”的老練聲音示例:

還有一個女性“專業”聲音的樣本:

OpenAI產品團隊成員Jeff Haris告訴TechCrunch,這一目標是讓開發者可以調整語音的“體驗”和“上下文”。

Harris繼續說:“在不同的上下文中,你不希望只有一種平坦、單調的聲音。如果你在客戶支持場景中,並且希望聲音因為出錯而顯得歉意,你可以讓聲音帶有那種情感……我們的主要信念是,開發者和用戶希望真正控制的不僅是說什麼,還有怎麼說。”

至於OpenAI的新語音轉錄模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,它們有效地取代了該公司已經使用多時的Whisper轉錄模型。這些新模型在“多元、高質量的音頻數據集”上進行訓練,OpenAI聲稱能更好地捕捉口音和多樣化的語音,即使在嘈雜的環境中也能如此。

Harris補充道,這些模型也不太可能出現幻覺。Whisper模型以製造虛假詞語和整段內容而臭名昭著,甚至在對話中引入種族評論和虛構的醫療處理。

Harris表示:“這些模型在這方面比Whisper有了很大改善。確保模型的準確性對於獲得可靠的語音體驗至關重要,而在這個上下文中,準確性意味著模型能準確聽到單詞,而不是填補它們未聽到的細節。”

不過,要注意的是,根據OpenAI的內部基準,gpt-4o-transcribe這個更準確的轉錄模型,在印度語和德拉威語(如泰米爾語、泰盧固語、馬拉雅拉姆語和卡納達語)的“單詞錯誤率”接近30%。這意味著該模型在這些語言中大約每10個單詞就會錯過3個。

OpenAI不再開放新轉錄模型

與以往不同的是,OpenAI並不打算將其新的轉錄模型公開。該公司歷來會根據MIT許可證發布新的Whisper版本供商業使用。

Harris表示,gpt-4o-transcribe和gpt-4o-mini-transcribe的規模“遠大於Whisper”,因此不適合公開發布。

他說:“這些模型不是那種可以在你的筆記本電腦上本地運行的模型,就像Whisper一樣。我們希望確保,如果我們要發布開源內容,我們是經過深思熟慮的,並且擁有一個真正針對該特定需求進行調整的模型。我們認為終端用戶設備是開源模型最有趣的案例之一。”

這些新模型的推出顯示了OpenAI在AI語音技術領域的又一次進步,特別是在語音的情感表達和準確性方面。不過,對於不同語言的適用性,仍然需要進一步的改進和測試。隨著技術的不斷演進,未來可能會有更多的應用場景出現,這對於用戶和開發者來說都是一個值得期待的發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon