OpenAI 剛為智能音箱帶來潛在的大升級 – 這就是原因
雖然智能音箱可能不像以前那麼普及,但很有可能你這位Tom’s Guide的精明讀者家裡至少有一個。不論你使用的是Alexa、Google Assistant還是HomePod,OpenAI可能剛為你選擇的智能音箱奠定了一個巨大的升級基礎。
開發ChatGPT的公司推出了一個新的“Realtime API”,這個API將充當一種連接組織,幫助將高級語音功能(以及更多功能)“插入”到其他應用程序中。
OpenAI的Realtime API:語音AI的未來?
根據OpenAI的說法,“開發者現在可以在他們的應用中構建快速的語音對語音體驗”。這是一個相當不錯的總結,它的工作原理類似於ChatGPT的高級語音模式,提供開發者可以輕鬆實現的語音對語音功能。
以前,開發者需要使用語音識別應用程序來轉錄腳本,這導致了一種“標準化”的聲音,缺乏細微差別和真實的對話感。Chat Completions API使得處理這些問題變得更簡單,只需一次API調用即可完成。顧名思義,Realtime API直接流式傳輸音頻和輸入,這樣開發者的語音助手可以自然地被打斷(雖然這聽起來有點無禮)。
這對智能音箱的巨大潛力
這個打斷元素是關鍵。多少次你的智能音箱誤解了你的命令,你需要等它自言自語完才能重新發問?這是一種煩惱,但有了更好的打斷檢測,情況可能會大大改善。你的智能音箱也可能會更頻繁地第一次就正確理解你的命令,因為有一個更好的底層模型在解釋你的命令,而這些命令本身也可以更加複雜。
如果你曾經嘗試讓你的智能音箱按順序做多件事,或者引用之前的對話,你會知道它們有時其實並不怎麼智能。然而,有了OpenAI的Realtime API的情境感知功能,你可以讓你的音箱回憶起之前對話中的某些內容,或者添加你的個人資料,這樣它就知道如何不同於你的伴侶或孩子來稱呼你。
當然,這些目前都只是假設,但你在五年前的Prime Day上買的那個Echo Dot可能即將得到超級升級。
Realtime API還能做什麼?
今天在DevDay SF,我們推出了一系列新的OpenAI平台功能:
我從來不建議AI取代人類工作(在這個領域,這是一個非常非常滑坡且日益磨損的道路),但我確實認為除了讓你的音箱知道你要求的歌曲版本之外,還有更多的可能性。
一個明顯的適用場景是呼叫中心,這仍然需要人類來處理實際的服務部分,但可以從更準確的呼叫分流中受益(2024年按鍵選項再見!)。
另外,語音助手的潛力也會變得更加可互換,因為它們可以接入同一個API,或者技術變得如此民主化,以至於我們在應用商店中有更多的選擇。
最後,OpenAI的實時模型可以運行在機器人上。這聽起來有點牽強,但讓機器人能夠以更人性化的方式交流可能是自動化的下一步——或者它們可以自己診斷錯誤並告訴你如何修復。
編者評論:
OpenAI的Realtime API無疑為智能音箱和其他語音助手帶來了革命性的潛力。這不僅僅是技術上的進步,還有可能改變我們與這些設備互動的方式。語音助手的情境感知和打斷處理能力將使它們更接近真正的對話夥伴,而不僅僅是命令執行者。這種技術進步也可能在其他領域帶來顛覆性的變化,例如呼叫中心和機器人技術。
然而,這也引發了一些值得深思的問題。AI技術的進步是否會進一步取代人類工作?我們如何平衡技術進步與人類勞動力的需求?這些都是我們在享受技術便利的同時需要考慮的重要問題。總的來說,OpenAI的Realtime API讓我們看到了語音AI的未來,也提醒我們在擁抱技術進步的同時,不應忽視其中的倫理和社會影響。
以上文章由特價GPT API KEY所翻譯