Meta 推出 Google 播客生成器的“開放”版本
Meta 最近推出了一個“開放”實現版本,模仿 Google 的 NotebookLM 中熱門的生成播客功能。
這個名為 NotebookLlama 的項目主要使用 Meta 自家的 Llama 模型來進行大部分處理。與 NotebookLM 類似,它可以生成對話式的播客風格內容,從上傳的文本文件中提取摘要。
NotebookLlama 會先從文件中創建一個轉錄文本,例如新聞文章或博客文章的 PDF。然後,它會加入“更多的戲劇化效果”和插話,再將轉錄內容輸入開放的文本轉語音模型。
然而,NotebookLlama 的結果聽起來遠不如 NotebookLM。在我聽過的 NotebookLlama 範例中,聲音明顯具有機械質感,並且在一些奇怪的時候會彼此重疊。
但該項目的 Meta 研究人員表示,透過更強大的模型可以改善質量。
“文本轉語音模型限制了自然聲音的效果,”他們在 NotebookLlama 的 GitHub 頁面上寫道。“另一種撰寫播客的方法是讓兩個代理討論感興趣的話題並撰寫播客大綱。目前,我們使用單一模型來撰寫播客大綱。”
NotebookLlama 並非首次嘗試複製 NotebookLM 的播客功能。有些項目比其他項目更成功。但是,甚至連 NotebookLM 自己也無法解決所有 AI 面臨的幻覺問題。也就是說,AI 生成的播客難免會包含一些虛構的內容。
編者評論:
Meta 的 NotebookLlama 嘗試為播客生成帶來更多的創新和開放性,這一點值得讚賞。然而,從目前的技術實現來看,其效果仍然不夠自然,特別是在語音合成方面。這揭示了當前 AI 技術在語音自然性和真實性上的局限。即便如此,這項技術的開放性意味著未來有更大的改進空間,尤其是當更多的開發者和研究人員參與進來時。
此外,AI 生成內容的“幻覺”問題仍然是一大挑戰。未來的發展應該更著眼於如何讓 AI 更加準確和可靠,這不僅涉及技術本身的進步,也需要在倫理和使用範圍上進行更深入的討論。這些挑戰不僅僅是技術上的問題,更是社會對 AI 角色的認識和期待的再思考。
以上文章由特價GPT API KEY所翻譯