利用生成式人工智能創造逼真的3D形狀的新方法
研究人員提出了一個簡單的改進方法,旨在幫助藝術家、設計師和工程師創造更優質的3D模型。
創造逼真的3D模型,應用於虛擬現實、電影製作和工程設計等領域,往往是一個繁瑣的過程,需要大量的手動試錯。雖然生成式人工智能模型能夠通過文本提示幫助創作者生成栩栩如生的2D圖像,但這些模型並不適合生成3D形狀。為了解決這個問題,一種名為“分數蒸餾”的新技術利用2D圖像生成模型來創建3D形狀,但其產出的模型往往模糊或像卡通一樣。
麻省理工學院的研究人員探索了生成2D圖像和3D形狀的算法之間的關係和差異,找出了低質量3D模型的根本原因。隨後,他們對分數蒸餾技術進行了簡單的改進,使其能夠生成清晰、高品質的3D形狀,這些形狀的質量更接近於最佳模型生成的2D圖像。
從2D圖像到3D形狀
擴散模型,如DALL-E,是一類生成式人工智能模型,可以從隨機噪聲中生成逼真的圖像。這些模型的訓練過程中,研究人員向圖像添加噪聲,然後教模型逆轉過程以去除噪聲。這些模型利用學習到的“去噪”過程根據用戶的文本提示創建圖像。
然而,擴散模型在直接生成逼真的3D形狀方面表現不佳,因為缺乏足夠的3D數據來進行訓練。為了解決這個問題,研究人員在2022年開發了名為“分數蒸餾取樣”(Score Distillation Sampling,SDS)的技術,利用預訓練的擴散模型將2D圖像組合成3D表示。
這一技術包括從隨機3D表示開始,從隨機攝像機角度渲染所需物體的2D視圖,然後向該圖像添加噪聲,使用擴散模型去噪,並優化隨機3D表示以使其與去噪後的圖像相匹配。這些步驟重複進行,直到生成所需的3D物體。然而,這種方式生成的3D形狀往往看起來模糊或過度飽和。
麻省理工學院的研究人員探索了SDS的每個步驟,找到了過程中一個關鍵公式與2D擴散模型的對應公式之間的不匹配。這個公式告訴模型如何逐步添加和去除噪聲,以使其看起來更像所需的圖像。
簡化的解決方案
研究人員並未試圖精確解決這一繁瑣的公式,而是測試了近似技術,直到找到最佳方法。他們的近似技術從當前的3D形狀渲染中推斷缺失的噪聲項,而非隨機取樣。
“這樣做的話,正如論文中的分析預測,生成的3D形狀看起來更加清晰和現實,”Lukoianov說。研究人員還提高了圖像渲染的解析度並調整了一些模型參數,以進一步提升3D形狀的質量。
最終,他們能夠利用現成的預訓練圖像擴散模型創建平滑、逼真的3D形狀,而無需昂貴的再訓練。這些3D物體的清晰度與依賴其他臨時解決方案的其他方法相當。
然而,這種方法仍然受到預訓練擴散模型的偏見和缺陷影響,容易出現幻覺和其他失敗。改善基礎擴散模型將進一步提升他們的過程。
這項研究部分由豐田研究所、美國國家科學基金會、新加坡國防科學技術局、亞馬遜科學中心、IBM、美國陸軍研究處和麻省理工學院-IBM沃森人工智能實驗室等資助。
評論
這項研究展示了生成式人工智能在3D建模領域的潛力,特別是在藝術和設計領域。隨著技術的進步,未來的藝術家和設計師將能夠更輕鬆地創造出令人驚嘆的3D作品,而不必經歷繁瑣的試錯過程。這不僅能提高創作效率,還可能激發出更多創意,讓設計更具多樣性和創新性。
此外,這項技術的發展也引發了對於生成式人工智能在不同領域應用的思考。如何在各種創意產業中更好地利用這項技術,並同時解決其固有的偏見和缺陷,將是未來研究的重要方向。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。