PlayAI 隨時複製聲音
在2016年,Hammad Syed 和前WhatsApp工程師Mahmoud Felfel認為,為Medium文章開發一個文本轉語音的Chrome擴展會非常有趣。這個可以朗讀任何Medium故事的擴展在Product Hunt上受到關注。一年後,它演變成一個完整的商業模式。
“我們看到更大的機會在於幫助個人和組織為他們的應用創建真實的音頻內容,”Syed告訴TechCrunch。“用戶無需自己構建模型,就可以比以往更快地部署人類質量的語音體驗。”
Syed和Felfel的公司PlayAI(前稱PlayHT)自稱為“AI的聲音界面”。客戶可以選擇多種預定義的聲音,或者克隆一個聲音,並使用PlayAI的API將文本轉語音整合到他們的應用中。
用戶可以調整聲音的語調、節奏和音色。
PlayAI還提供一個“遊樂場”,用戶可以上傳文件以生成朗讀版本,並有一個儀表板用於創建更精緻的音頻旁白和配音。最近,該公司還進入了“AI代理”市場,推出可以自動化任務的工具,例如回答企業的客戶電話。
PlayAI的PlayNote實驗
PlayAI的一個有趣實驗是PlayNote,它可以將PDF、視頻、照片、歌曲及其他文件轉變為播客風格的節目、朗讀摘要、一對一辯論,甚至是兒童故事。就像Google的NotebookLM一樣,PlayNote從上傳的文件或URL生成腳本,並將其輸入一系列AI模型,最終製作出成品。
我試用了一下,結果還不錯。PlayNote的“播客”設置所生成的片段在質量上與NotebookLM相當,而該工具能夠處理照片和視頻,讓創作變得非常有趣。當我給它一張我最近吃的雞肉摩雷的照片時,PlayNote寫了一個五分鐘的播客腳本。真的是在未來生活。
當然,這個工具和所有AI工具一樣,偶爾會生成奇怪的產物和幻覺。雖然PlayNote會盡力將文件適應到你選擇的格式,但別指望一份枯燥的法律文件會成為最佳的資料來源。比如:將馬斯克訴OpenAI的訴訟框架成睡前故事:
PlayNote的播客格式得益於PlayAI最新的模型PlayDialog,Syed表示該模型可以使用對話的“上下文和歷史”來生成反映對話流的語音。“利用對話的歷史上下文來控制語調、情感和節奏,PlayDialog提供自然的對話和合適的語氣,”他補充道。
安全和倫理問題
PlayAI與ElevenLabs是競爭對手,過去因為其放任的安全措施而受到批評。公司的聲音克隆工具要求用戶勾選一個框,表明他們“擁有所有必要的權利或同意”來克隆聲音,但並沒有任何執行機制。我在測試中輕鬆克隆了卡馬拉·哈里斯的聲音,這相當令人擔憂,考慮到詐騙和深度偽造的潛在風險。
PlayAI聲稱它會自動檢測並阻止“性、攻擊性、種族主義或威脅性內容”。但在我的測試中並非如此。我使用哈里斯的克隆聲音生成了一段我無法嵌入的語音,卻從未看到過任何警告信息。
同時,PlayNote的社區平台上充斥著公開生成的內容,其中有些文件的標題明確寫著“女人口交表演”。
Syed告訴我,PlayAI會對未經同意而克隆的聲音報告作出回應,通過封鎖負責的用戶並立即刪除克隆的聲音。他還表示,PlayAI的高保真聲音克隆需要20分鐘的聲音樣本,價格較高(每年49美元或每月99美元),這超出了大多數詐騙者的支付能力。
“PlayAI有多項倫理保障措施,”Syed說。“我們已經實施了強大的機制來識別聲音是否是使用我們的技術合成的。如果任何濫用行為被報告,我們會迅速核實內容的來源,並采取果斷行動以糾正情況並防止進一步的倫理違規。”
我希望這真的是事實——並且PlayAI能夠遠離以死去的科技名人為主題的市場推廣活動。如果PlayAI的監管不夠嚴格,它可能會在田納西州面臨法律挑戰,該州有法律禁止平台利用AI製作未經授權的人聲錄音。
PlayAI在訓練其聲音克隆AI方面的做法也有些模糊。該公司不會透露其模型數據的來源,這似乎是出於競爭的考量。
“PlayAI主要使用開放數據集,[以及授權數據]和內部構建的專有數據集,”Syed表示。“我們不會使用來自產品的用戶數據來訓練,也不會使用創作者的數據來訓練模型。我們的模型基於數百萬小時的實際人類語音進行訓練,提供多種語言和口音的男性和女性聲音。”
大多數AI模型都是基於公共網絡數據進行訓練的,其中一些可能受到版權保護或有嚴格的許可限制。許多AI供應商辯稱,合理使用法則保護他們免受版權索賠。但這並未阻止數據所有者提起集體訴訟,聲稱供應商使用了他們的數據而未經許可。
PlayAI尚未被起訴。然而,其服務條款暗示如果用戶面臨法律威脅,該公司不會為其辯護。
未來的挑戰
像PlayAI這樣的聲音克隆平台面臨著來自演員的批評,因為他們擔心聲音工作最終會被AI生成的聲音取代,且演員將對數字雙胞胎的使用幾乎沒有控制權。
好萊塢演員工會SAG-AFTRA已與一些初創公司達成協議,包括在線人才市場Narrativ和Replica Studios,所謂“公平”和“倫理”的聲音克隆安排。但即使這些合作也受到嚴格審查,包括來自SAG-AFTRA自己成員的質疑。
在加州,法律要求依賴表演者數字複製品(例如克隆聲音)的公司提供複製品的用途描述,並與表演者的法律顧問協商。他們還要求娛樂雇主在使用已故表演者的數字克隆前獲得其遺產的同意。
Syed表示,PlayAI“保證”通過其平台生成的每個聲音克隆都是專屬於創作者的。“這種專屬性對於保護用戶的創作權至關重要,”他補充道。
日益增長的法律負擔是一個挑戰,還有競爭。Papercup、Deepdub、Acapela、Respeecher和Voice.ai,以及大型科技公司亞馬遜、微軟和谷歌,都提供AI配音和聲音克隆工具。據說,最高知名度的聲音克隆供應商ElevenLabs正在以超過30億美元的估值籌集新資金。
不過,PlayAI並未在尋找投資者方面遇到困難。本月,這家由Y Combinator支持的公司完成了一輪由Kindred Ventures領投的2000萬美元種子輪融資,使其總資金達到2100萬美元。Syed表示:“這筆新資金將用於投資我們的生成式AI聲音模型和語音代理平台,並縮短企業構建人類質量語音體驗的時間。”他還補充說,PlayAI計劃擴大其40人的員工隊伍。
這篇文章揭示了PlayAI在AI聲音克隆領域的創新及其面臨的挑戰。隨著技術的進步,我們不僅需要關注其帶來的便利,還需要認識到其可能引發的倫理和法律問題。未來,企業如何在創新與合規之間找到平衡,將是影響整個行業發展的關鍵。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。