Soket AI Labs推出即時語音API,提供多語言功能
Soket AI Labs,一家位於古魯格拉姆的人工智能初創公司,近日推出其即時語音API,旨在通過語音智能和無縫整合來改變人工智能的互動方式。
Soket AI Labs聲稱,即時語音API的延遲時間低於500毫秒,確保實時互動的近乎即時響應。該API支持多語言功能,以克服語言障礙,並包括先進的功能,如工具調用、增強檢索生成(RAG)支持、自定義語音創建和克隆,以及處理動態語音干擾的能力,從而實現自然對話。
開發者可以在1到4周內輕鬆集成該API,並使用可用於Python和JavaScript的SDK。該服務的價格具有競爭力,每分鐘僅需0.012美元,為像OpenAI這樣的行業領導者提供了經濟實惠的替代方案。
Soket AI Labs強調該平台的多功能性,突出了其在銀行、金融服務、保險(BFSI)、醫療保健和電信等行業的應用。其他功能包括可微調模型和可自定義的語音選項,以滿足特定的商業需求。
該公司還計劃很快推出“語音創新者測試計劃”,邀請用戶探索和塑造語音技術的未來。
在LinkedIn的一篇文章中,Soket AI Labs的創始人兼首席執行官Abhishek Upperwal強調了創造“通用語音智能”的重要性。他表示:“語音是當今人工智能最重要的接口之一,語言模型是智能的核心。”
在5月,該公司還推出了印度首個開源多語言基礎模型Pragna-1B。Upperwal表示,該模型的訓練耗時六個月,涉及多個模型的實驗,總計使用了1500億個標記。
Soket AI Labs成立於2019年,最初專注於為智慧城市建立去中心化數據交換。然而,在OpenAI首席執行官Sam Altman訪問印度後,情況發生了重大變化,這激勵了團隊在該國建立最好的人工智能模型。
除了Soket AI Labs之外,像Sarvam AI和CoRover.ai等初創公司也在積極打造語音模型。在Cypher 2024上,Sarvam AI的首席執行官Vivek Raghavan展示了其人工智能模型的語音能力,讓在場的每個人都驚嘆不已。
這項新技術的推出不僅表明了語音智能的快速發展,也反映了語音交互在各行各業中的重要性。隨著越來越多的企業尋求提高客戶體驗,這種即時語音API將成為一個不可或缺的工具,幫助企業在全球化的市場中更好地服務客戶。
從另一個角度來看,這也引發了對語音數據隱私和安全性的擔憂。隨著語音技術的普及,如何保護用戶的數據不被濫用,成為了值得關注的問題。企業在採用這類技術時,必須同時考慮到用戶的隱私和安全,這將成為未來發展的一個重要挑戰。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。