YuE：開源AI音樂模型，創作完整歌曲，媲美Suno AI

zero comment

YuE：一個開放源代碼的音樂生成AI模型系列，能夠創作完整的歌曲

隨著人工智能和音樂生成技術的發展，短小的器樂作品已經取得了顯著進展。然而，對於現有模型來說，創作包含歌詞、聲樂和器樂伴奏的完整歌曲仍然是一個挑戰。從歌詞生成完整歌曲面臨多重挑戰，包括音樂的長度需要AI模型在數分鐘內保持一致性和連貫性，音樂還涉及複雜的和聲結構、樂器編排及節奏模式，而不僅僅是語音或音效。此外，AI生成的歌詞在與音樂元素結合時常常會出現不連貫的情況，並且有效訓練AI模型的配對歌詞音頻數據集也相對稀缺。

在這樣的背景下，由多模態藝術投影團隊開發的YuE開放源代碼基礎模型系列應運而生，與Suno AI在歌曲生成方面競爭。這些模型旨在從歌詞創作出幾分鐘的完整歌曲，具備變化背景音樂、風格和歌詞的能力。YuE系列模型有多個變種，參數最高可達70億。其中一些YuE系列模型在Hugging Face上可用，包括：

– YuE-s1-7B-anneal-en-cot
– YuE-s1-7B-anneal-en-icl
– YuE-s1-7B-anneal-jp-kr-cot
– YuE-s1-7B-anneal-jp-kr-icl
– YuE-s1-7B-anneal-zh-cot
– YuE-s1-7B-anneal-zh-icl
– YuE-s2-1B-general
– YuE-upsampler

YuE採用先進技術來解決完整歌曲生成的挑戰，利用LLaMA系列語言模型來增強歌詞到歌曲的生成過程。其中一項核心進展是其雙標記技術，這使得聲樂和器樂建模可以同步進行，而不需要修改LLaMA的基本架構。這確保了生成的歌曲中聲樂和器樂元素的和諧。此外，YuE還採用了一種強大的音頻標記器，這不僅降低了訓練成本，還加速了收斂，確保生成的音頻保持音樂完整性，同時優化計算效率。

YuE中的另一項獨特技術是歌詞思維鏈（Lyrics-CoT），這使模型能夠以結構化的方式逐步生成歌詞，確保整首歌的歌詞內容保持一致和有意義。YuE遵循結構化的三階段訓練方案，這增強了可擴展性、音樂性和歌詞控制。這種結構化的訓練確保模型能生成不同長度和複雜度的歌曲，改善生成音樂的自然感，並加強生成歌詞與整體歌曲結構之間的對齊。

YuE的突出之處在於它能生成包含聲樂旋律和器樂伴奏的完整歌曲。與現有模型在長篇作品創作上掙扎不同，YuE能在整首歌中保持音樂的連貫性。生成的聲樂遵循自然的歌唱模式和音調變化，使音樂更具吸引力。同時，器樂元素也與聲樂曲線巧妙對齊，產生自然平衡的歌曲。該模型系列還支持多種音樂風格和語言。

在使用方面，YuE模型設計為可以在高性能GPU上運行，以實現無縫的完整歌曲生成。建議至少使用80GB的GPU內存（如NVIDIA A100）以獲得最佳效果。根據所使用的GPU，生成30秒的音樂片段通常需要150到360秒。用戶可以利用Hugging Face的Transformers庫來生成音樂，該模型還支持音樂上下文學習（ICL），允許用戶提供參考歌曲，讓AI生成新音樂。

YuE在Creative Commons Attribution Non-Commercial 4.0 License下發佈，鼓勵藝術家和內容創作者對其輸出進行取樣、修改和整合，並在作品中標註模型為YuE by HKUST/M-A-P。YuE為AI生成音樂的許多應用開啟了大門，可以協助音樂家和作曲家生成歌曲創意和完整作品，為電影、視頻遊戲和虛擬內容創作音樂配樂，根據用戶提供的歌詞或主題生成自定義歌曲，並通過展示AI生成的各種風格和語言的作品來幫助音樂教育。

總結來說，YuE代表了AI音樂生成領域的一次突破，解決了長期以來歌詞到歌曲轉換的挑戰。憑藉其先進技術、可擴展架構和開放源代碼的理念，YuE有望重新定義AI驅動的音樂製作格局。隨著進一步的增強和社區貢獻的出現，YuE有潛力成為完整歌曲生成的領先基礎模型。

在這個快速變化的科技時代，YuE的推出不僅展示了AI在音樂創作中的潛力，還引發了對未來音樂創作方式的思考。隨著AI技術的進一步發展，音樂創作的界限將會被重新定義，無論是對於專業音樂人還是業餘愛好者，YuE都可能成為創作的得力助手。這不僅是技術的進步，更是創意表達的新途徑。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。