教導人工智能模仿人類的聲音
受人類聲道機制的啟發,一種新的人工智能模型可以產生並理解日常聲音的模仿。這種方法可能有助於為娛樂和教育構建新的聲音界面。
無論你是在描述故障汽車引擎的聲音,還是模仿鄰居的貓叫,使用聲音來模仿聲音是一種在言語無法表達時的有效溝通方式。聲音模仿就像用鉛筆快速畫一幅圖片來傳達你所看到的東西——只是這次不是用鉛筆,而是用聲道來表達聲音。這似乎有些困難,但其實我們都可以直觀地做到:試著用你的聲音模仿救護車的警報聲、烏鴉的叫聲或鈴聲。
麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員受人類溝通的認知科學啟發,開發出一種人工智能系統,能夠在沒有任何訓練的情況下產生類似人類的聲音模仿,且從未“聽過”人類的聲音印象。
為了達成這一目標,研究人員設計了可以模擬人類聲音的系統。他們首先建立了一個人類聲道模型,模擬聲帶的振動如何被喉嚨、舌頭和嘴唇所塑造。接著,他們使用靈感來自認知的人工智能算法來控制這個聲道模型,使其能夠產生模仿,並考慮到人類選擇表達聲音的特定上下文。
這個模型能夠有效地從世界上提取許多聲音,並生成類似人類的模仿——包括像樹葉沙沙聲、蛇的嘶嘶聲和接近的救護車警報聲等噪音。該模型還可以反向運行,根據人類的聲音模仿來猜測現實中的聲音,類似於某些計算機視覺系統可以根據草圖檢索高品質圖像。例如,該模型能夠正確區分人類模仿貓的“喵”聲和“嘶”的聲音。
未來,這個模型可能會導致更直觀的“模仿基礎”界面,為聲音設計師提供幫助,創造更具人性化的虛擬現實AI角色,甚至幫助學生學習新語言。
共同作者——麻省理工學院CSAIL的博士生Kartik Chandra和Karima Ma,以及本科研究員Matthew Caren指出,計算機圖形學研究人員早已認識到,現實主義並不是視覺表達的最終目標。例如,一幅抽象畫或孩子的蠟筆塗鴉可以和一張照片一樣富有表現力。
“過去幾十年,素描算法的進步為藝術家提供了新工具,推進了人工智能和計算機視覺的發展,甚至加深了對人類認知的理解,”Chandra表示。“正如素描是一種抽象的、非寫實的圖像表現,我們的方法捕捉到了人類表達所聽聲音的抽象、非音響寫實的方式。這讓我們了解聽覺抽象的過程。”
模仿的藝術,分為三個部分
該團隊開發了三個逐漸精細化的模型,以便與人類聲音模仿進行比較。首先,他們創建了一個基準模型,旨在生成與現實聲音盡可能相似的模仿——但這個模型並未很好地匹配人類行為。
研究人員隨後設計了一個第二個“交流”模型。Caren指出,該模型考慮了對聽眾來說聲音的獨特性。例如,你可能會通過模仿摩托艇引擎的隆隆聲來模仿摩托艇的聲音,因為這是其最具特色的聽覺特徵,即使這並不是聲音中最響亮的方面(與水花濺起相比)。這第二個模型生成的模仿好於基準模型,但團隊希望進一步改進。
為了更進一步,研究人員在模型上添加了最後一層推理。“聲音模仿的音調可能因為你所投入的努力而有所不同。要產生完全準確的聲音需要時間和精力,”Chandra表示。研究人員的完整模型考慮到了這一點,試圖避免非常迅速、響亮或高低音調的發聲,因為人們在對話中不太可能使用這些。最終結果是更像人類的模仿,能夠密切匹配人類在模仿同樣聲音時所做的許多決策。
在構建了這個模型後,團隊進行了一項行為實驗,以檢測AI生成的聲音模仿和人類生成的聲音模仿在人類評審中的評價。值得注意的是,參與者在實驗中普遍更喜愛AI模型的聲音模仿,比例達到25%,對於摩托艇的模仿高達75%,對於槍聲的模仿則為50%。
朝著更具表現力的聲音技術邁進
熱衷於音樂和藝術技術的Caren設想,這個模型可以幫助藝術家更好地將聲音傳達給計算系統,並協助電影製作人和其他內容創作者生成更具背景的AI聲音。它也可以讓音樂家通過模仿難以用文本描述的噪音,快速搜索聲音數據庫。
同時,Caren、Chandra和Ma正在探討該模型在其他領域的應用,包括語言的發展、嬰兒學習說話的過程,甚至是模仿行為在鳥類(如鸚鵡和歌鳥)中的表現。
該團隊在當前模型的版本上仍有工作要做:它在某些輔音(如“z”)上存在困難,這導致一些聲音(如蜜蜂的嗡嗡聲)模仿不準確。他們也尚未能夠複製人類如何模仿語音、音樂或在不同語言中以不同方式模仿的聲音,例如心跳聲。
斯坦福大學的語言學教授Robert Hawkins表示,語言中充滿了擬聲詞和模仿但並不完全重現其所描述事物的詞彙,例如“喵”這個詞並不精確地模仿貓的聲音。“將真實貓的聲音轉換為‘喵’這個詞的過程揭示了生理、社會推理和交流在語言演變中的複雜相互作用,”Hawkins說,他並未參與CSAIL的研究。“這個模型為公式化和測試這些過程的理論提供了一個令人興奮的步驟,展示了人類聲道的物理限制和來自交流的社會壓力是解釋聲音模仿分佈所必需的。”
Caren、Chandra和Ma與另外兩位CSAIL成員Jonathan Ragan-Kelley(麻省理工學院電氣工程與計算機科學系副教授)和Joshua Tenenbaum(麻省理工學院腦與認知科學教授及大腦、心智和機器中心成員)共同撰寫了這篇論文。他們的工作部分得到了赫茲基金會和國家科學基金會的支持,並於12月初在SIGGRAPH Asia上發表。
這項研究的發展不僅在技術上有著重要的意義,也為我們理解人類如何交流提供了新的視角。隨著人工智能技術的進步,我們可能會見證更自然的機器人互動,並進一步推進對語言和聲音的理解。這不僅僅是技術的突破,還是人類與機器之間溝通的橋樑。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。