AI 影像對決：Grok 對抗 Gemini 誰更勝一籌？

zero comment

AI圖像生成對決：Grok與Gemini的7輪較量

隨著人工智能技術的快速發展，使用AI生成圖像變得愈加簡單。透過聊天機器人，我們能夠輕鬆地輸入提示，讓語言模型自動生成所需的圖片。

Grok是一個相對較新的聊天平台，內建於X上，目前免費提供使用。據傳聞，它將在明年某個時候推出獨立的網址，這將使其與Gemini、ChatGPT、Claude和MetaAI等競爭對手展開更加直接的競爭。

xAI團隊為Grok打造了專屬的AI圖像生成模型。此前，它使用Flux來創建圖像，但現在已轉向Aurora。儘管Elon Musk表示不應使用Aurora這個名字，而應直接將其視為Grok創造的圖像。

Gemini最近也進行了重大改進，Gemini 2.0 Flash已成為Gemini高級訂閱用戶可用的模型之一。不過，目前Gemini仍使用底層的Imagen 3模型來生成圖像，這在未來會有所改變，因為Gemini 2.0將具備原生的圖像生成能力。

Grok和Gemini在生成圖像方面表現出色，無論是為其他模型製作提示，還是精煉已寫好的提示。因此，我將它們進行了頭對頭的比較。

創建測試提示

為測試兩個聊天機器人在生成圖像的能力而創建的提示，與為Midjourney或Ideogram撰寫的提示略有不同。重點在於保持簡單，使用頂層概念及一些描述，因為AI會填補空白。

此外，還需要使用“想像”、“繪畫”或“創作”等觸發詞和短語，讓模型知道你想要的是圖片，而不是故事或文本回應。我希望得到照片而非畫作，因此會使用這作為關鍵詞。

Gemini僅能以1:1的分辨率輸出圖像，而Grok似乎偏好4:3的比例。除非另有說明，否則所有圖像均為首次回應，且沒有後續的精煉。這些請求均在同一會話中發出，而不是為每個提示創建新聊天。

1. 現代城市野生動物

提示：“生成一張照片風格的圖像，顯示一隻紅狐狸在黎明時分穿越雨中的城市斑馬線，行人撐著雨傘在信號燈前等候。”

這個提示旨在測試它們描繪動物的能力，以及捕捉正確的光線和背景元素。理想的輸出應該看起來像是一張風格化的照片，帶有雨水效果，但同時保持盡可能現實的視覺效果。

雖然Gemini的圖像更為引人注目，但我認為Grok更接近我心目中的畫面。狐狸的樣子比Gemini的圖像更為真實。

勝者：Grok

2. 繁忙的廚房

提示：“生成一張專業廚師廚房在晚餐高峰期的照片風格圖像，鍋中冒著蒸汽，燒烤台上可見火焰。”

這是為了展示它們能否準確展示廚房設備、跟隨提示並處理熱量和濕氣等元素。圖像應展示商業廚房的行為，並表達活動的概念。

Grok在這方面輕鬆取勝，因為Gemini未能理解提示的上下文，未能展示廚師在廚房中的情景。

勝者：Grok

3. 建築工地進展

提示：“生成一幅紀錄攝影風格的圖像，顯示一棟中層建築正在施工，工人安裝玻璃面板，起重機在晴朗的午後作業。”

這個提示旨在考驗它的透視生成能力，需要展示高度和位置。它還需要展示材料特性並盡可能真實。我選擇紀錄風格，因為這也增加了額外的複雜性。

Gemini的圖像看起來比Grok更為真實，而Grok未能包含工人，只顯示了一個廣闊的視野。

勝者：Gemini

4. 農貿市場的早晨

提示：“創建一張智能手機攝影風格的圖像，顯示早上7點繁忙的農貿市場，攤販正在設置攤位，而早期顧客在檢查新鮮農產品。”

這次比較中，模型應顯示一天中的時間（正確的光線）以及產品的新鮮度和人際互動。我希望看到陰影長度和活動水平。

這是我最難做決定的一次。我更喜歡Gemini圖像的自然外觀，但我認為Grok更準確地捕捉了光線和一天中的時間。

勝者：Grok

5. 汽車維修診斷

提示：“創建一張黑白復古風格的照片，顯示一名技工在現代汽車上使用診斷工具，車蓋打開，發動機艙可見。”

我想看看這兩個模型如何處理黑白攝影。在這方面，它們還需要展示工具的使用、光線和發動機的細節。

這又是兩幅圖像之間的接近比拼，但我將勝利頒給Gemini，因為它更準確地顯示了發動機的細節。

勝者：Gemini

6. 緊急救援

提示：“為我創建一張動作照片，顯示醫護人員在社區街道上為病人提供治療，警察在現場指揮交通。”

動作攝影是一個挑戰。我在早期的職業生涯中做過一段時間（雖然做得不好）。我們需要展示正確的位置、公共安全措施以及畫面中的緊迫感。

Gemini更好地匹配了提示，並創造出更真實的圖像。這是一個輕鬆的決定。

勝者：Gemini

7. 小提琴演奏練習

提示：“創建一張照片風格的圖像，顯示一名小提琴手在日落時獨自在房間裡練習，樂譜在架子上清晰可見。”

最後是一個更具藝術性的題目。我們希望看到手部在小提琴上的位置、自然光的效果以及樂譜的質量。

其中一幅看起來像是古典專輯的封面，而另一幅更像是一個人練習小提琴的照片。由於提示要求的是練習者，我將勝利頒給Grok。

勝者：Grok

Grok與Gemini的最終得分

| | Grok | Gemini |
|———-|——-|——–|
| 城市中的狐狸 | ⭐️ | |
| 廚房中的廚師 | ⭐️ | |
| 建築工地 | | ⭐️ |
| 農貿市場 | ⭐️ | |
| 汽車維修 | | ⭐️ |
| 緊急救援 | | ⭐️ |
| 小提琴練習 | ⭐️ | |
| 總計 | 4 | 3 |

Grok的表現令人印象深刻。不僅作為一個聊天機器人，還在生成現實圖像方面展現了不俗的能力。這並不減損Imagen 3本身的優秀，但它往往過於風格化。

這場比賽非常接近。兩個模型的實力相當，但Grok在解釋提示方面更佳，並創造出更自然的圖像。

值得注意的是，谷歌即將推出一個新的Gemini版本，能夠原生創建圖像。這意味著它不必依賴Imagen 3來生成圖片，將能夠獨立完成這一任務。

編輯評論

在這一系列的比較中，我們可以看到AI圖像生成技術的潛力和限制。Grok在某些方面的表現優於Gemini，特別是在解讀提示和創造自然圖像方面。然而，Gemini在某些情況下則展現了更高的真實感和細節。這顯示出不同模型在特定任務上的優勢和劣勢，未來的發展將會更加令人期待。

隨著這些技術的進步，我們或許需要重新思考AI在藝術創作中的角色。它不僅僅是工具，更可能是一個合作夥伴，與人類共同創造出新的視覺藝術作品。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

AI 影像對決：Grok 對抗 Gemini 誰更勝一籌？

chatgpt

發佈留言取消回覆

🔥 CHATGPT PLUS 帳戶出租

AI 影像對決：Grok 對抗 Gemini 誰更勝一籌？

chatgpt

發佈留言 取消回覆

Related Articles

用LlamaIndex同OpenAI打造自我評估AI系統詳解

AI興起下心理健康新挑戰與機遇揭秘

AI精神病危機？虛擬助手引發幻覺真相揭秘！

🔥 CHATGPT PLUS 帳戶出租

發佈留言取消回覆