AI圖像生成對決:Grok與Gemini的7輪較量
隨著人工智能技術的快速發展,使用AI生成圖像變得愈加簡單。透過聊天機器人,我們能夠輕鬆地輸入提示,讓語言模型自動生成所需的圖片。
Grok是一個相對較新的聊天平台,內建於X上,目前免費提供使用。據傳聞,它將在明年某個時候推出獨立的網址,這將使其與Gemini、ChatGPT、Claude和MetaAI等競爭對手展開更加直接的競爭。
xAI團隊為Grok打造了專屬的AI圖像生成模型。此前,它使用Flux來創建圖像,但現在已轉向Aurora。儘管Elon Musk表示不應使用Aurora這個名字,而應直接將其視為Grok創造的圖像。
Gemini最近也進行了重大改進,Gemini 2.0 Flash已成為Gemini高級訂閱用戶可用的模型之一。不過,目前Gemini仍使用底層的Imagen 3模型來生成圖像,這在未來會有所改變,因為Gemini 2.0將具備原生的圖像生成能力。
Grok和Gemini在生成圖像方面表現出色,無論是為其他模型製作提示,還是精煉已寫好的提示。因此,我將它們進行了頭對頭的比較。
創建測試提示
為測試兩個聊天機器人在生成圖像的能力而創建的提示,與為Midjourney或Ideogram撰寫的提示略有不同。重點在於保持簡單,使用頂層概念及一些描述,因為AI會填補空白。
此外,還需要使用“想像”、“繪畫”或“創作”等觸發詞和短語,讓模型知道你想要的是圖片,而不是故事或文本回應。我希望得到照片而非畫作,因此會使用這作為關鍵詞。
Gemini僅能以1:1的分辨率輸出圖像,而Grok似乎偏好4:3的比例。除非另有說明,否則所有圖像均為首次回應,且沒有後續的精煉。這些請求均在同一會話中發出,而不是為每個提示創建新聊天。
1. 現代城市野生動物
提示:“生成一張照片風格的圖像,顯示一隻紅狐狸在黎明時分穿越雨中的城市斑馬線,行人撐著雨傘在信號燈前等候。”
這個提示旨在測試它們描繪動物的能力,以及捕捉正確的光線和背景元素。理想的輸出應該看起來像是一張風格化的照片,帶有雨水效果,但同時保持盡可能現實的視覺效果。
雖然Gemini的圖像更為引人注目,但我認為Grok更接近我心目中的畫面。狐狸的樣子比Gemini的圖像更為真實。
勝者:Grok
2. 繁忙的廚房
提示:“生成一張專業廚師廚房在晚餐高峰期的照片風格圖像,鍋中冒著蒸汽,燒烤台上可見火焰。”
這是為了展示它們能否準確展示廚房設備、跟隨提示並處理熱量和濕氣等元素。圖像應展示商業廚房的行為,並表達活動的概念。
Grok在這方面輕鬆取勝,因為Gemini未能理解提示的上下文,未能展示廚師在廚房中的情景。
勝者:Grok
3. 建築工地進展
提示:“生成一幅紀錄攝影風格的圖像,顯示一棟中層建築正在施工,工人安裝玻璃面板,起重機在晴朗的午後作業。”
這個提示旨在考驗它的透視生成能力,需要展示高度和位置。它還需要展示材料特性並盡可能真實。我選擇紀錄風格,因為這也增加了額外的複雜性。
Gemini的圖像看起來比Grok更為真實,而Grok未能包含工人,只顯示了一個廣闊的視野。
勝者:Gemini
4. 農貿市場的早晨
提示:“創建一張智能手機攝影風格的圖像,顯示早上7點繁忙的農貿市場,攤販正在設置攤位,而早期顧客在檢查新鮮農產品。”
這次比較中,模型應顯示一天中的時間(正確的光線)以及產品的新鮮度和人際互動。我希望看到陰影長度和活動水平。
這是我最難做決定的一次。我更喜歡Gemini圖像的自然外觀,但我認為Grok更準確地捕捉了光線和一天中的時間。
勝者:Grok
5. 汽車維修診斷
提示:“創建一張黑白復古風格的照片,顯示一名技工在現代汽車上使用診斷工具,車蓋打開,發動機艙可見。”
我想看看這兩個模型如何處理黑白攝影。在這方面,它們還需要展示工具的使用、光線和發動機的細節。
這又是兩幅圖像之間的接近比拼,但我將勝利頒給Gemini,因為它更準確地顯示了發動機的細節。
勝者:Gemini
6. 緊急救援
提示:“為我創建一張動作照片,顯示醫護人員在社區街道上為病人提供治療,警察在現場指揮交通。”
動作攝影是一個挑戰。我在早期的職業生涯中做過一段時間(雖然做得不好)。我們需要展示正確的位置、公共安全措施以及畫面中的緊迫感。
Gemini更好地匹配了提示,並創造出更真實的圖像。這是一個輕鬆的決定。
勝者:Gemini
7. 小提琴演奏練習
提示:“創建一張照片風格的圖像,顯示一名小提琴手在日落時獨自在房間裡練習,樂譜在架子上清晰可見。”
最後是一個更具藝術性的題目。我們希望看到手部在小提琴上的位置、自然光的效果以及樂譜的質量。
其中一幅看起來像是古典專輯的封面,而另一幅更像是一個人練習小提琴的照片。由於提示要求的是練習者,我將勝利頒給Grok。
勝者:Grok
Grok與Gemini的最終得分
| | Grok | Gemini |
|———-|——-|——–|
| 城市中的狐狸 | ⭐️ | |
| 廚房中的廚師 | ⭐️ | |
| 建築工地 | | ⭐️ |
| 農貿市場 | ⭐️ | |
| 汽車維修 | | ⭐️ |
| 緊急救援 | | ⭐️ |
| 小提琴練習 | ⭐️ | |
| 總計 | 4 | 3 |
Grok的表現令人印象深刻。不僅作為一個聊天機器人,還在生成現實圖像方面展現了不俗的能力。這並不減損Imagen 3本身的優秀,但它往往過於風格化。
這場比賽非常接近。兩個模型的實力相當,但Grok在解釋提示方面更佳,並創造出更自然的圖像。
值得注意的是,谷歌即將推出一個新的Gemini版本,能夠原生創建圖像。這意味著它不必依賴Imagen 3來生成圖片,將能夠獨立完成這一任務。
編輯評論
在這一系列的比較中,我們可以看到AI圖像生成技術的潛力和限制。Grok在某些方面的表現優於Gemini,特別是在解讀提示和創造自然圖像方面。然而,Gemini在某些情況下則展現了更高的真實感和細節。這顯示出不同模型在特定任務上的優勢和劣勢,未來的發展將會更加令人期待。
隨著這些技術的進步,我們或許需要重新思考AI在藝術創作中的角色。它不僅僅是工具,更可能是一個合作夥伴,與人類共同創造出新的視覺藝術作品。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。