YuE:一個開放源代碼的音樂生成AI模型系列,能夠創作完整的歌曲
隨著人工智能和音樂生成技術的發展,短小的器樂作品已經取得了顯著進展。然而,對於現有模型來說,創作包含歌詞、聲樂和器樂伴奏的完整歌曲仍然是一個挑戰。從歌詞生成完整歌曲面臨多重挑戰,包括音樂的長度需要AI模型在數分鐘內保持一致性和連貫性,音樂還涉及複雜的和聲結構、樂器編排及節奏模式,而不僅僅是語音或音效。此外,AI生成的歌詞在與音樂元素結合時常常會出現不連貫的情況,並且有效訓練AI模型的配對歌詞音頻數據集也相對稀缺。
在這樣的背景下,由多模態藝術投影團隊開發的YuE開放源代碼基礎模型系列應運而生,與Suno AI在歌曲生成方面競爭。這些模型旨在從歌詞創作出幾分鐘的完整歌曲,具備變化背景音樂、風格和歌詞的能力。YuE系列模型有多個變種,參數最高可達70億。其中一些YuE系列模型在Hugging Face上可用,包括:
– YuE-s1-7B-anneal-en-cot
– YuE-s1-7B-anneal-en-icl
– YuE-s1-7B-anneal-jp-kr-cot
– YuE-s1-7B-anneal-jp-kr-icl
– YuE-s1-7B-anneal-zh-cot
– YuE-s1-7B-anneal-zh-icl
– YuE-s2-1B-general
– YuE-upsampler
YuE採用先進技術來解決完整歌曲生成的挑戰,利用LLaMA系列語言模型來增強歌詞到歌曲的生成過程。其中一項核心進展是其雙標記技術,這使得聲樂和器樂建模可以同步進行,而不需要修改LLaMA的基本架構。這確保了生成的歌曲中聲樂和器樂元素的和諧。此外,YuE還採用了一種強大的音頻標記器,這不僅降低了訓練成本,還加速了收斂,確保生成的音頻保持音樂完整性,同時優化計算效率。
YuE中的另一項獨特技術是歌詞思維鏈(Lyrics-CoT),這使模型能夠以結構化的方式逐步生成歌詞,確保整首歌的歌詞內容保持一致和有意義。YuE遵循結構化的三階段訓練方案,這增強了可擴展性、音樂性和歌詞控制。這種結構化的訓練確保模型能生成不同長度和複雜度的歌曲,改善生成音樂的自然感,並加強生成歌詞與整體歌曲結構之間的對齊。
YuE的突出之處在於它能生成包含聲樂旋律和器樂伴奏的完整歌曲。與現有模型在長篇作品創作上掙扎不同,YuE能在整首歌中保持音樂的連貫性。生成的聲樂遵循自然的歌唱模式和音調變化,使音樂更具吸引力。同時,器樂元素也與聲樂曲線巧妙對齊,產生自然平衡的歌曲。該模型系列還支持多種音樂風格和語言。
在使用方面,YuE模型設計為可以在高性能GPU上運行,以實現無縫的完整歌曲生成。建議至少使用80GB的GPU內存(如NVIDIA A100)以獲得最佳效果。根據所使用的GPU,生成30秒的音樂片段通常需要150到360秒。用戶可以利用Hugging Face的Transformers庫來生成音樂,該模型還支持音樂上下文學習(ICL),允許用戶提供參考歌曲,讓AI生成新音樂。
YuE在Creative Commons Attribution Non-Commercial 4.0 License下發佈,鼓勵藝術家和內容創作者對其輸出進行取樣、修改和整合,並在作品中標註模型為YuE by HKUST/M-A-P。YuE為AI生成音樂的許多應用開啟了大門,可以協助音樂家和作曲家生成歌曲創意和完整作品,為電影、視頻遊戲和虛擬內容創作音樂配樂,根據用戶提供的歌詞或主題生成自定義歌曲,並通過展示AI生成的各種風格和語言的作品來幫助音樂教育。
總結來說,YuE代表了AI音樂生成領域的一次突破,解決了長期以來歌詞到歌曲轉換的挑戰。憑藉其先進技術、可擴展架構和開放源代碼的理念,YuE有望重新定義AI驅動的音樂製作格局。隨著進一步的增強和社區貢獻的出現,YuE有潛力成為完整歌曲生成的領先基礎模型。
在這個快速變化的科技時代,YuE的推出不僅展示了AI在音樂創作中的潛力,還引發了對未來音樂創作方式的思考。隨著AI技術的進一步發展,音樂創作的界限將會被重新定義,無論是對於專業音樂人還是業餘愛好者,YuE都可能成為創作的得力助手。這不僅是技術的進步,更是創意表達的新途徑。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。