「OmniGen:全新對話式AI圖像編輯工具」

Ai




OmniGen:一個讓你可以以對話方式編輯圖像的開源AI模型

來自北京的研究人員推出了一個新的統一模型,將傳統上各自獨立的AI圖像任務整合成一個強大的系統,旨在改變各行各業的創意工作流程。

這是一種全新的AI藝術創作方式。圖像:由Decrypt使用AI創建。

OmniGen的運作方式

OmniGen不僅僅是一個圖像生成器。它專注於圖像編輯和上下文理解,允許用戶通過與模型的對話來調整生成的圖像,而不需要加載獨立的第三方工具。它能夠進行“推理”並理解指令,這得益於其內置的LLM(大型語言模型)。

北京人工智能學院的研究人員終於發布了這種新型AI模型的權重——用戶可以在他們的電腦上運行的可執行AI模型。與其前身不同,OmniGen作為一個全面的創意套件運作。它能夠在一個整合的框架內處理從基本圖像編輯到複雜視覺推理任務的所有工作。

OmniGen依賴於兩個核心組件:變分自編碼器(VAE)和變壓器模型。VAE將圖像分解為其基本組件,而變壓器模型則能靈活處理各種輸入。這種簡化的方法消除了其他圖像生成系統中常見的附加模塊,從而提高了效率。

OmniGen在一個名為X2I的十億圖像數據集上進行訓練,能夠處理從文本到圖像生成、精細的照片編輯到更細緻的操作,如填充和深度圖操作等各種任務。最引人注目的是它能理解上下文。例如,當提示它找出洗手的地方時,它會立即識別並突出顯示圖像中的水槽,顯示出接近人類理解的推理能力。

換句話說,與目前任何其他圖像生成器不同,用戶可以像與ChatGPT互動一樣“與OmniGen對話”來生成和修改圖像——無需處理分割、遮罩或其他複雜技術,因為該模型能夠通過簡單的指令理解一切。

未來的發展

這是一項相當重要的突破。OmniGen的一個有趣成就就是它內置了微軟的Phi-3 LLM,研究人員訓練模型以鏈式思維的方法進行圖像生成,將複雜的創意任務分解為更小、更易管理的步驟,這與人類藝術家的工作方式相似。這種方法使創意工作流程的控制達到了前所未有的水平,儘管研究人員指出目前的輸出質量與標準生成方法相匹配,而不是超越它。

展望未來,研究人員已經在探索提高OmniGen能力的方法。未來的版本可能會改進對文本密集圖像的處理和更複雜的推理能力,從而使人類創作者和AI工具之間的互動更加自然。

如何運行OmniGen

OmniGen是開源的,因此用戶可以在本地運行它。不過,通過Hugging Face——全球最大的開源AI社區/存儲庫,用戶還可以獲得一些免費生成的機會,以便在沒有所需硬件的情況下測試該模型。

對於不想過多麻煩的人,可以訪問這個免費的Hugging Face空間,玩玩這個模型。它將打開一個非常直觀的用戶界面。

基本上,該模型可以處理最多三張上下文圖像和一定量的文本輸入。它還提供了一套非常詳細的指導來生成或編輯圖像。如果你是新手,無需過多關注所有參數。只需將你想編輯的圖像(或圖像)插入程序,然後像使用ChatGPT一樣使用自然語言提示。

然而,那些希望在本地生成圖像的人需要下載權重和一些庫。考慮到其能力,運行它預計需要大量的顯存。據報導,該模型在12GB顯存上運行良好,並且目前僅與Nvidia顯卡兼容。

要在本地安裝模型,只需按照Github頁面提供的說明操作:基本上,創建一個新的安裝文件夾,克隆Github存儲庫,安裝依賴項,然後就可以使用了。為了獲得更好的用戶界面,除了僅使用文本外,還可以安裝Gradio界面,按照Github頁面提供的步驟進行操作。或者,如果你更喜歡視頻指導,可以參考這個教程。

如果你有一定經驗,可以使用ComfyUI來生成圖像。要安裝OmniGen,只需訪問下載管理器,搜索OmniGen節點並安裝它。完成後,重新啟動ComfyUI,就可以使用了。執行時,節點本身將下載權重。

我們測試了該模型,發現與SD 3.5或Flux相比,它生成圖像的速度明顯較慢。它的優勢不在於質量,而在於準確性,這意味著一些圖像可能缺乏細節或真實感,但在遵循提示的程度上卻表現出色,尤其是在處理自然語言編輯提示時。

在目前的狀態下,OmniGen並不是一個適合尋找超越Flux或SD 3.5的圖像生成器的選擇。然而,這個模型並不打算成為那樣。

對於那些尋求AI驅動的圖像編輯器的人來說,這可能是當前最強大且最易於使用的選擇之一。通過簡單的提示命令,它達到了專業AI藝術家使用非常複雜工作流程時所得到的類似結果。

總的來說,這個模型對於初學者來說是一個很好的替代方案,但對於專業AI藝術家來說,如果他們能將其強大的能力融入自己的工作流程中,將會大大簡化從眾多不同節點或過程到單次生成的工作流程,這樣可以減少運行和加載的元素。

例如,將其作為主要來源來合併不同元素進行組合,然後對該結果進行去噪,以便通過更強大的AI模型進行第二次處理,可能會成為實現優秀生成的一個非常好且多功能的解決方案。

這顯示了開源AI在創意領域的潛力和未來發展的廣闊空間,值得我們持續關注。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Generate an ultra-realistic, highly ultra-detailed, 8k resolution with 1080x1080 pixel portrait of me using the uploaded image for reference (preserved the likeness and the original face for reference) of a striking, high-resolution portrait of a young woman with long, flowing wavy brunette hair, seated gracefully on a simple black wooden chair in a dimly lit studio. She wears an oversized, off-white knitted sweater that drapes loosely over her frame, slipping off one shoulder to reveal smooth skin and add a subtle touch of sensuality. Her pose is elegant and contemplative: one arm rests gently on the chair’s backrest while her hand delicately supports her chin, and her gaze is directed thoughtfully toward the side, creating an intimate and introspective mood. The lighting is expertly crafted with a single soft, directional light source positioned to the side, casting gentle shadows that sculpt her form and highlight the texture of the knitwear and the natural contours of her legs and arms. This chiaroscuro effect enhances the depth and dimensionality of the image, emphasizing the softness of her skin and the intricate weave of the sweater. The background is a smooth, muted dark gray, providing a minimalist and distraction-free backdrop that contrasts beautifully with her light-colored apparel and warm skin tones. *** The composition is a full-body vertical frame that captures the model’s seated posture with perfect balance, positioning her slightly off-center to create visual interest and harmony. The overall color palette is subdued and warm, featuring neutral tones that evoke a sense of calm and understated elegance. The image is impeccably sharp, showcasing fine details such as the delicate waves of her hair, the subtle folds in the fabric, and the natural texture of her skin. The style is classic and timeless, blending modern minimalism with emotive portraiture to convey quiet strength, beauty, and introspection.

➖Additional details:
- Negative Prompt: cartoon, 3d render, cgi,a low poly, painting, drawing, sketch, anime, deformed, bad anatomy, mutated hands, extra limbs, low quality, blurry, artifacts, plastic skin, out of frame, out of focus, wrong spelling, rumble letters, missing letter, blurry letter, blurry face, lowres, pixelated, jpeg artifacts, repeated face and repeated word. 一張年輕東方女性站在戶外木棧道上的全身人像照片。
人物與穿著:
這位女性擁有修長的身材和淺棕色的長直髮,留著齊劉海。
她面帶微笑,表情甜美。頭上戴著一對動物耳朵的髮飾。
上半身穿著一件白色的短版 T 恤/緊身衣(Crop Top),領口較低。
下半身是一條淺藍色的牛仔短裙,裙襬帶有蕾絲邊緣。繫著一條淺棕色的皮帶
腳上穿著一雙露趾的裸色高跟涼鞋。
背景與環境:
她站在一條戶外的深色木質棧道上,左手輕輕扶著旁邊的深色木質欄杆。
背景呈現柔和的散景(景深很淺),可以看到綠色的植物和一些被處理成偏冷藍色調的樹枝或樹葉,營造出一種清新且夢幻的氛圍。
總體而言,這張照片風格清新、甜美,光線柔和,突出了人物的時尚穿搭和外貌。 An intense, close-up portrait set in a smoky, underground jazz club or speakeasy. The subject is the 'Boss' of an information network, hiding in plain sight. The scene is dark, defined by heavy shadows and cigarette smoke swirling in the air. A single spotlight hits the subject from the side, creating a classic 'Rembrandt triangle' on the cheek of [exactly face uploaded image 100%]. He wears a sharp, pinstripe suit with a silk tie, loosened at the collar. He holds a glass of amber whiskey, the condensation rendered in 8K detail. The camera uses a macro 100mm lens, focusing entirely on the eyes and the texture of the skin, blurring out the background patrons into abstract shapes. The mood is conspiratorial, sophisticated, and deeply atmospheric.