NVIDIA推出新AI模型Fugatto 可從文本提示創建音頻
NVIDIA最近推出了一個新的實驗性生成AI模型,稱為「基礎生成音頻變壓器Opus 1」,簡稱Fugatto。這個模型被形容為「音效的瑞士軍刀」,可以根據文本提示來創建音頻或修改現有的音樂、語音和聲音文件。該模型由來自全球的AI研究團隊設計,NVIDIA表示這使得模型的「多口音和多語言能力」更為強大。
「我們希望創建一個能理解和生成聲音的模型,就像人類一樣,」該項目的研究人員之一及NVIDIA應用音頻研究經理拉斐爾·瓦萊(Rafael Valle)表示。NVIDIA在其公告中列出了一些Fugatto可能的實際應用場景。公司建議,音樂製作人可以利用這項技術快速生成歌曲創意的原型,然後輕鬆編輯以嘗試不同的風格、聲音和樂器。
此外,人們還可以用它來生成語言學習工具的材料,選擇自己喜歡的聲音。而視頻遊戲開發者則可以利用它來創建預錄資產的變體,以適應根據玩家的選擇和行動而發生的遊戲變化。研究人員還發現,該模型能夠在一些微調後完成其預訓練中未包含的任務。例如,它可以將分開訓練的指令結合起來,生成聽起來憤怒的語音並帶有特定口音,或在雷陣雨中模擬鳥鳴的聲音。該模型還可以生成隨時間變化的聲音,比如隨著雨暴向前推進而改變的雨聲。
NVIDIA尚未透露是否會向公眾開放Fugatto的使用,但這並不是第一個能夠從文本提示創建聲音的生成AI技術。Meta之前已經發布了一個開源的AI工具包,可以根據文本描述創建聲音。谷歌則擁有一個名為MusicLM的文本轉音樂AI,公眾可以通過該公司的AI測試廚房網站訪問。
在當今的數字創作環境中,這種技術的出現無疑會對音樂、遊戲和語言學習等領域帶來新的變革。Fugatto不僅提高了創作的靈活性,還可能改變我們對聲音生成的理解。隨著AI技術的持續進步,未來或許會出現更多類似的創新,這將使創作者能夠以更低的成本和更高的效率實現他們的創意。這種變化不僅限於專業人士,普通用戶也能參與其中,這對於民主化創作過程具有重要意義。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。