
亞馬遜推出新的AI語音模型Nova Sonic
亞馬遜於週二推出了一款新的生成式AI模型——Nova Sonic,這款模型能夠原生處理語音並生成自然聽起來的語音。亞馬遜聲稱,Nova Sonic的性能在速度、語音識別和對話質量等基準上與OpenAI和谷歌的前沿語音模型相媲美。
Nova Sonic是亞馬遜對較新AI語音模型的回應,例如支援ChatGPT語音模式的模型,這些模型在對話中感覺更自然,相比之下,亞馬遜Alexa早期的模型則顯得相當僵硬。最近的技術突破使得舊有模型及其背後的數位助手(如Alexa和蘋果的Siri)在比較中顯得相當笨拙。
Nova Sonic可通過亞馬遜的開發者平台Bedrock進行訪問,並提供一個新的雙向串流API。在一份新聞稿中,亞馬遜稱Nova Sonic是市場上“成本效益最高”的AI語音模型,價格大約比OpenAI的GPT-4o低80%。
根據亞馬遜AGI部門的高級副總裁及首席科學家Rohit Prasad的說法,Nova Sonic的組件已經在升級版的數位語音助手Alexa+中發揮作用。
在接受TechCrunch的訪問時,Prasad表示,Nova Sonic建立在亞馬遜在“大型協調系統”方面的專業知識基礎上,這些系統是構成Alexa的技術框架。相較於競爭對手的AI語音模型,Nova Sonic在將用戶請求路由到不同API方面表現出色。這種能力使Nova Sonic能夠“知道”何時需要從互聯網獲取即時信息、解析專有數據源或在外部應用中執行操作,並使用適當的工具來完成。
在雙向對話中,Nova Sonic會在“適當的時間”發言,考慮到說話者的停頓和打斷。它還生成用戶語音的文字轉錄,開發者可以用於各種應用。
根據Prasad的說法,Nova Sonic的語音識別錯誤率低於其他AI語音模型,這意味著即使用戶含糊不清、說錯話或身處嘈雜環境,該模型也能相對準確地理解用戶的意圖。在一個測量多語言和方言的語音識別基準——Multilingual LibriSpeech中,亞馬遜表示Nova Sonic的單詞錯誤率(WER)僅為4.2%,這意味著在英語、法語、意大利語、德語和西班牙語中,約每100個單詞中有4個與人類轉錄不同。
在另一個測量多參與者嘈雜互動的基準——Augmented Multi Party Interaction中,亞馬遜表示Nova Sonic的WER準確度比OpenAI的GPT-4o轉錄模型高出46.7%。根據亞馬遜的數據,Nova Sonic的行業領先速度平均感知延遲為1.09秒,這比支援OpenAI的即時API的GPT-4o模型(反應時間為1.18秒)還要快。
Prasad表示,Nova Sonic是亞馬遜更廣泛的AGI(人工通用智能)戰略的一部分,該公司將AGI定義為“能夠在計算機上執行人類所能做的任何事情的AI系統”。未來,Prasad表示亞馬遜計劃推出更多能夠理解不同模態的AI模型,包括圖像、視頻和語音,以及“如果將事物引入物理世界,則相關的其他感官數據”。
Prasad所監督的亞馬遜AGI部門似乎在當前公司的產品策略中扮演著越來越重要的角色。就在上週,亞馬遜推出了Nova Act的預覽,這是一個基於瀏覽器的AI模型,似乎正在支援Alexa+和亞馬遜的“為我購買”功能。Prasad表示,從Nova Sonic開始,公司希望為開發者提供更多內部AI模型以供使用。
在這一背景下,Nova Sonic的推出不僅僅是一個技術進步,更是亞馬遜在AI領域持續競爭的一部分。隨著AI技術的不斷演進,未來的數位助手將更加智能化和人性化,這不僅能提升用戶體驗,也可能改變人們與科技互動的方式。這樣的發展值得關注,因為它可能會影響到廣泛的行業,從客戶服務到健康護理,甚至是教育等領域。亞馬遜在這一領域的努力,將如何塑造未來的數位助手生態系統,讓人充滿期待。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。