OpenAI出新招：AI聲線更真，轉錄唔怕「老作」！

zero comment

OpenAI升級其轉錄及語音生成AI模型

OpenAI最近推出了新的轉錄和語音生成AI模型，該公司聲稱這些模型在之前版本的基礎上有所改進。

對於OpenAI來說，這些模型符合其更廣泛的“代理”願景：建立可以獨立完成用戶任務的自動化系統。雖然“代理”的定義可能存在爭議，但OpenAI產品負責人Olivier Godemont對其進行了一種解釋，即一個可以與企業客戶對話的聊天機器人。

Godemont在與TechCrunch的簡報中表示：“我們會看到越來越多的代理在接下來的幾個月中出現。”他補充道：“總的主題是幫助客戶和開發者利用有用、可用和準確的代理。”

OpenAI聲稱其新的文本轉語音模型“gpt-4o-mini-tts”不僅能提供更細緻和真實的語音，還比之前的語音合成模型更具“可引導性”。開發者可以指示gpt-4o-mini-tts如何用自然語言表達，例如，“像瘋狂科學家一樣說話”或“使用像正念老師那樣的平靜聲音”。

以下是一個“真實犯罪風格”的老練聲音示例：

還有一個女性“專業”聲音的樣本：

OpenAI產品團隊成員Jeff Haris告訴TechCrunch，這一目標是讓開發者可以調整語音的“體驗”和“上下文”。

Harris繼續說：“在不同的上下文中，你不希望只有一種平坦、單調的聲音。如果你在客戶支持場景中，並且希望聲音因為出錯而顯得歉意，你可以讓聲音帶有那種情感……我們的主要信念是，開發者和用戶希望真正控制的不僅是說什麼，還有怎麼說。”

至於OpenAI的新語音轉錄模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，它們有效地取代了該公司已經使用多時的Whisper轉錄模型。這些新模型在“多元、高質量的音頻數據集”上進行訓練，OpenAI聲稱能更好地捕捉口音和多樣化的語音，即使在嘈雜的環境中也能如此。

Harris補充道，這些模型也不太可能出現幻覺。Whisper模型以製造虛假詞語和整段內容而臭名昭著，甚至在對話中引入種族評論和虛構的醫療處理。

Harris表示：“這些模型在這方面比Whisper有了很大改善。確保模型的準確性對於獲得可靠的語音體驗至關重要，而在這個上下文中，準確性意味著模型能準確聽到單詞，而不是填補它們未聽到的細節。”

不過，要注意的是，根據OpenAI的內部基準，gpt-4o-transcribe這個更準確的轉錄模型，在印度語和德拉威語（如泰米爾語、泰盧固語、馬拉雅拉姆語和卡納達語）的“單詞錯誤率”接近30%。這意味著該模型在這些語言中大約每10個單詞就會錯過3個。

OpenAI不再開放新轉錄模型

與以往不同的是，OpenAI並不打算將其新的轉錄模型公開。該公司歷來會根據MIT許可證發布新的Whisper版本供商業使用。

Harris表示，gpt-4o-transcribe和gpt-4o-mini-transcribe的規模“遠大於Whisper”，因此不適合公開發布。

他說：“這些模型不是那種可以在你的筆記本電腦上本地運行的模型，就像Whisper一樣。我們希望確保，如果我們要發布開源內容，我們是經過深思熟慮的，並且擁有一個真正針對該特定需求進行調整的模型。我們認為終端用戶設備是開源模型最有趣的案例之一。”

這些新模型的推出顯示了OpenAI在AI語音技術領域的又一次進步，特別是在語音的情感表達和準確性方面。不過，對於不同語言的適用性，仍然需要進一步的改進和測試。隨著技術的不斷演進，未來可能會有更多的應用場景出現，這對於用戶和開發者來說都是一個值得期待的發展。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

OpenAI出新招：AI聲線更真，轉錄唔怕「老作」！

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

chatgpt

OpenAI出新招：AI聲線更真，轉錄唔怕「老作」！

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

chatgpt

Related Articles

2026最新智能電視系統用戶評分排名榜！

樂高智能磚爭議全面解析！

CES 2026最新智能科技 革新你生活每一刻

CES 2026最新智能科技革新你生活每一刻