「OmniGen:全新對話式AI圖像編輯工具」

Ai

OmniGen:一個讓你可以以對話方式編輯圖像的開源AI模型

來自北京的研究人員推出了一個新的統一模型,將傳統上各自獨立的AI圖像任務整合成一個強大的系統,旨在改變各行各業的創意工作流程。

這是一種全新的AI藝術創作方式。圖像:由Decrypt使用AI創建。

OmniGen的運作方式

OmniGen不僅僅是一個圖像生成器。它專注於圖像編輯和上下文理解,允許用戶通過與模型的對話來調整生成的圖像,而不需要加載獨立的第三方工具。它能夠進行“推理”並理解指令,這得益於其內置的LLM(大型語言模型)。

北京人工智能學院的研究人員終於發布了這種新型AI模型的權重——用戶可以在他們的電腦上運行的可執行AI模型。與其前身不同,OmniGen作為一個全面的創意套件運作。它能夠在一個整合的框架內處理從基本圖像編輯到複雜視覺推理任務的所有工作。

OmniGen依賴於兩個核心組件:變分自編碼器(VAE)和變壓器模型。VAE將圖像分解為其基本組件,而變壓器模型則能靈活處理各種輸入。這種簡化的方法消除了其他圖像生成系統中常見的附加模塊,從而提高了效率。

OmniGen在一個名為X2I的十億圖像數據集上進行訓練,能夠處理從文本到圖像生成、精細的照片編輯到更細緻的操作,如填充和深度圖操作等各種任務。最引人注目的是它能理解上下文。例如,當提示它找出洗手的地方時,它會立即識別並突出顯示圖像中的水槽,顯示出接近人類理解的推理能力。

換句話說,與目前任何其他圖像生成器不同,用戶可以像與ChatGPT互動一樣“與OmniGen對話”來生成和修改圖像——無需處理分割、遮罩或其他複雜技術,因為該模型能夠通過簡單的指令理解一切。

未來的發展

這是一項相當重要的突破。OmniGen的一個有趣成就就是它內置了微軟的Phi-3 LLM,研究人員訓練模型以鏈式思維的方法進行圖像生成,將複雜的創意任務分解為更小、更易管理的步驟,這與人類藝術家的工作方式相似。這種方法使創意工作流程的控制達到了前所未有的水平,儘管研究人員指出目前的輸出質量與標準生成方法相匹配,而不是超越它。

展望未來,研究人員已經在探索提高OmniGen能力的方法。未來的版本可能會改進對文本密集圖像的處理和更複雜的推理能力,從而使人類創作者和AI工具之間的互動更加自然。

如何運行OmniGen

OmniGen是開源的,因此用戶可以在本地運行它。不過,通過Hugging Face——全球最大的開源AI社區/存儲庫,用戶還可以獲得一些免費生成的機會,以便在沒有所需硬件的情況下測試該模型。

對於不想過多麻煩的人,可以訪問這個免費的Hugging Face空間,玩玩這個模型。它將打開一個非常直觀的用戶界面。

基本上,該模型可以處理最多三張上下文圖像和一定量的文本輸入。它還提供了一套非常詳細的指導來生成或編輯圖像。如果你是新手,無需過多關注所有參數。只需將你想編輯的圖像(或圖像)插入程序,然後像使用ChatGPT一樣使用自然語言提示。

然而,那些希望在本地生成圖像的人需要下載權重和一些庫。考慮到其能力,運行它預計需要大量的顯存。據報導,該模型在12GB顯存上運行良好,並且目前僅與Nvidia顯卡兼容。

要在本地安裝模型,只需按照Github頁面提供的說明操作:基本上,創建一個新的安裝文件夾,克隆Github存儲庫,安裝依賴項,然後就可以使用了。為了獲得更好的用戶界面,除了僅使用文本外,還可以安裝Gradio界面,按照Github頁面提供的步驟進行操作。或者,如果你更喜歡視頻指導,可以參考這個教程。

如果你有一定經驗,可以使用ComfyUI來生成圖像。要安裝OmniGen,只需訪問下載管理器,搜索OmniGen節點並安裝它。完成後,重新啟動ComfyUI,就可以使用了。執行時,節點本身將下載權重。

我們測試了該模型,發現與SD 3.5或Flux相比,它生成圖像的速度明顯較慢。它的優勢不在於質量,而在於準確性,這意味著一些圖像可能缺乏細節或真實感,但在遵循提示的程度上卻表現出色,尤其是在處理自然語言編輯提示時。

在目前的狀態下,OmniGen並不是一個適合尋找超越Flux或SD 3.5的圖像生成器的選擇。然而,這個模型並不打算成為那樣。

對於那些尋求AI驅動的圖像編輯器的人來說,這可能是當前最強大且最易於使用的選擇之一。通過簡單的提示命令,它達到了專業AI藝術家使用非常複雜工作流程時所得到的類似結果。

總的來說,這個模型對於初學者來說是一個很好的替代方案,但對於專業AI藝術家來說,如果他們能將其強大的能力融入自己的工作流程中,將會大大簡化從眾多不同節點或過程到單次生成的工作流程,這樣可以減少運行和加載的元素。

例如,將其作為主要來源來合併不同元素進行組合,然後對該結果進行去噪,以便通過更強大的AI模型進行第二次處理,可能會成為實現優秀生成的一個非常好且多功能的解決方案。

這顯示了開源AI在創意領域的潛力和未來發展的廣闊空間,值得我們持續關注。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *