Soket AI 推實時語音API，多語言兼超低延遲！

zero comment

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

Soket AI Labs推出即時語音API，提供多語言功能

Soket AI Labs，一家位於古魯格拉姆的人工智能初創公司，近日推出其即時語音API，旨在通過語音智能和無縫整合來改變人工智能的互動方式。

Soket AI Labs聲稱，即時語音API的延遲時間低於500毫秒，確保實時互動的近乎即時響應。該API支持多語言功能，以克服語言障礙，並包括先進的功能，如工具調用、增強檢索生成（RAG）支持、自定義語音創建和克隆，以及處理動態語音干擾的能力，從而實現自然對話。

開發者可以在1到4周內輕鬆集成該API，並使用可用於Python和JavaScript的SDK。該服務的價格具有競爭力，每分鐘僅需0.012美元，為像OpenAI這樣的行業領導者提供了經濟實惠的替代方案。

Soket AI Labs強調該平台的多功能性，突出了其在銀行、金融服務、保險（BFSI）、醫療保健和電信等行業的應用。其他功能包括可微調模型和可自定義的語音選項，以滿足特定的商業需求。

該公司還計劃很快推出“語音創新者測試計劃”，邀請用戶探索和塑造語音技術的未來。

在LinkedIn的一篇文章中，Soket AI Labs的創始人兼首席執行官Abhishek Upperwal強調了創造“通用語音智能”的重要性。他表示：“語音是當今人工智能最重要的接口之一，語言模型是智能的核心。”

在5月，該公司還推出了印度首個開源多語言基礎模型Pragna-1B。Upperwal表示，該模型的訓練耗時六個月，涉及多個模型的實驗，總計使用了1500億個標記。

Soket AI Labs成立於2019年，最初專注於為智慧城市建立去中心化數據交換。然而，在OpenAI首席執行官Sam Altman訪問印度後，情況發生了重大變化，這激勵了團隊在該國建立最好的人工智能模型。

除了Soket AI Labs之外，像Sarvam AI和CoRover.ai等初創公司也在積極打造語音模型。在Cypher 2024上，Sarvam AI的首席執行官Vivek Raghavan展示了其人工智能模型的語音能力，讓在場的每個人都驚嘆不已。

這項新技術的推出不僅表明了語音智能的快速發展，也反映了語音交互在各行各業中的重要性。隨著越來越多的企業尋求提高客戶體驗，這種即時語音API將成為一個不可或缺的工具，幫助企業在全球化的市場中更好地服務客戶。

從另一個角度來看，這也引發了對語音數據隱私和安全性的擔憂。隨著語音技術的普及，如何保護用戶的數據不被濫用，成為了值得關注的問題。企業在採用這類技術時，必須同時考慮到用戶的隱私和安全，這將成為未來發展的一個重要挑戰。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

🖼️ AI 圖庫｜抄咒語學玩法

想睇吓人哋點玩 AI 畫圖？圖庫集合大量 Flux / Gemini 作品，可以一 click 複製咒語，直入生成器再改做自己版本。

✅ 真實作品示範

📋 一鍵複製咒語

✨ 不定期加入新圖

✏️ 「修改」按鈕直連生成器

👀 入去睇圖 + 抄咒語