微軟新AI影像爆發 挑戰谷歌OpenAI霸主地位

Ai




微軟推出新AI圖像生成模型 挑戰谷歌Nano Banana及OpenAI GPT-Image-1

微軟近日宣布推出首個完全自主開發的圖像生成模型——MAI-Image-1,該模型已於LMArena平台取得第9名好成績,並將很快於Copilot及Bing Image Creator中上線供用戶體驗。LMArena是一個讓用戶向兩個匿名聊天機械人提出問題,並投票選出最佳回應的評測平台。

微軟表示,MAI-Image-1團隊特別注重避免生成重複或風格過於單一的圖像,通過嚴格挑選訓練數據及細膩的評估機制,確保模型在創意使用場景下表現出色。微軟更強調,他們在開發過程中積極聽取了創意產業專業人士的反饋。

該模型在生成風景及逼真照片級圖像方面表現尤為突出,能精準捕捉光影、反射及陰影細節,並且在速度和效率上優於許多更大型但運算緩慢的模型。根據LMArena的文字轉圖像排行榜,MAI-Image-1獲得1096分,排名第9;谷歌的Gemini-2.5-Flash(Nano Banana)以1154分位列第2;OpenAI的模型得分1123分,排名第7。而目前排行榜首位則是中國科技巨頭鯤鵬科技的Hunyuan-image-3.0。

除了MAI-Image-1外,微軟還自主研發了多款AI模型,包括自然語音生成模型MAI-Voice-1,以及在推理任務中表現高效的小型語言模型Phi系列。這些都是微軟積極推動自家AI技術進步的證明,同時公司亦持續支持OpenAI的模型開發,提供資金及基礎設施支援。

目前AI圖像生成領域競爭激烈,OpenAI的模型因能模仿吉卜力工作室的藝術風格而爆紅,隨後谷歌Nano Banana則以強大的AI編輯能力刷新標準。AIM利用LMArena平台,對比了微軟MAI-Image-1、谷歌Gemini-2.5-Flash及OpenAI GPT-Image-1三款模型,針對一個描繪午後兩人在咖啡店窗邊場景的提示進行測試,重點評估它們在混合光線、反射及陰影真實感的處理能力。用戶亦可自行在LMArena試用這些模型。

編輯評論:微軟AI圖像生成的戰略意義與未來展望

微軟此次推出MAI-Image-1,標誌著其在AI圖像生成領域正式展開與谷歌及OpenAI的正面競爭。與不少倚賴外部技術的策略不同,微軟強調「完全自主開發」展示了其對AI核心技術的掌控力和長遠投入。當前AI生成技術不僅是技術競賽,更是生態系統的建立和市場佔有率的爭奪,微軟此舉勢必擴大其在AI服務領域的話語權。

此外,微軟對數據嚴選和專業反饋的重視,反映出他們力求在創意產業中獲得認可,這與許多AI模型偏向通用、規模化訓練不同。這種更貼近實際創作需求的策略,或許能幫助微軟在專業用戶群中樹立良好口碑,形成差異化優勢。

不過,從排行榜成績來看,微軟目前還未能超越谷歌及中國企業的頂尖模型,顯示出技術仍有追趕空間。尤其是中國企業的Hunyuan-image-3.0領先,凸顯全球AI技術競爭的多元化和地域性趨勢。未來,微軟如何在提升模型質素與擴大應用場景間取得平衡,將是其能否長期領先的關鍵。

整體而言,AI圖像生成正處於爆炸式發展階段,技術不斷刷新藝術創作、媒體製作及商業應用的可能。微軟的加入不僅帶來更多選擇,也將推動整個行業朝向更高效、更精細的方向演進。香港及華語用戶可期待這些技術在本地文化和創意產業的深度融合,開展更多前所未有的數碼創作體驗。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
[Subject]: Young Asian female with "Imada Mio-inspired" doll-like aesthetic (精緻洋娃娃臉). She has large round expressive eyes, a small V-line face, and rosy cheeks. Her expression is innocent, energetic, and slightly flirty. [Hair]: Messy morning hair (剛睡醒的凌亂感), long dark brown hair, slightly tousled, natural volume. [Outfit]: Wearing an oversized translucent white button-down shirt (男友風白襯衫), unbuttoned at the top to reveal collarbones, creating a "bottomless" look (下衣失蹤風格). [Style]: Japanese Gravure Photobook style (寫真集風格), Pure & Sexy vibe, bright high-key lighting, soft skin texture, Fujifilm PRO 400H color tone. 一隻在香港茶餐廳喝奶茶的貓 Ultra-detailed cinematic portrait of a futuristic armored man in side profile, human face seamlessly fused with exposed mechanical components, intricate cybernetic implants embedded into the skull and jaw, visible wires, micro-circuits, pistons and servo motors, red and gold metallic armor plating partially broken revealing internal machinery, realistic skin texture with stubble and sharp facial features, intense focused expression, hyper-realistic photorealism, sci-fi concept art, mechanical complexity, clean white background with technical sketch lines and blueprint elements, dramatic lighting, sharp focus, 8K resolution, ultra-high detail, cinematic depth, concept art style, futuristic technology, realism + illustration blend