微軟新AI影像爆發　挑戰谷歌OpenAI霸主地位

zero comment

微軟推出新AI圖像生成模型挑戰谷歌Nano Banana及OpenAI GPT-Image-1

微軟近日宣布推出首個完全自主開發的圖像生成模型——MAI-Image-1，該模型已於LMArena平台取得第9名好成績，並將很快於Copilot及Bing Image Creator中上線供用戶體驗。LMArena是一個讓用戶向兩個匿名聊天機械人提出問題，並投票選出最佳回應的評測平台。

微軟表示，MAI-Image-1團隊特別注重避免生成重複或風格過於單一的圖像，通過嚴格挑選訓練數據及細膩的評估機制，確保模型在創意使用場景下表現出色。微軟更強調，他們在開發過程中積極聽取了創意產業專業人士的反饋。

該模型在生成風景及逼真照片級圖像方面表現尤為突出，能精準捕捉光影、反射及陰影細節，並且在速度和效率上優於許多更大型但運算緩慢的模型。根據LMArena的文字轉圖像排行榜，MAI-Image-1獲得1096分，排名第9；谷歌的Gemini-2.5-Flash（Nano Banana）以1154分位列第2；OpenAI的模型得分1123分，排名第7。而目前排行榜首位則是中國科技巨頭鯤鵬科技的Hunyuan-image-3.0。

除了MAI-Image-1外，微軟還自主研發了多款AI模型，包括自然語音生成模型MAI-Voice-1，以及在推理任務中表現高效的小型語言模型Phi系列。這些都是微軟積極推動自家AI技術進步的證明，同時公司亦持續支持OpenAI的模型開發，提供資金及基礎設施支援。

目前AI圖像生成領域競爭激烈，OpenAI的模型因能模仿吉卜力工作室的藝術風格而爆紅，隨後谷歌Nano Banana則以強大的AI編輯能力刷新標準。AIM利用LMArena平台，對比了微軟MAI-Image-1、谷歌Gemini-2.5-Flash及OpenAI GPT-Image-1三款模型，針對一個描繪午後兩人在咖啡店窗邊場景的提示進行測試，重點評估它們在混合光線、反射及陰影真實感的處理能力。用戶亦可自行在LMArena試用這些模型。

—

編輯評論：微軟AI圖像生成的戰略意義與未來展望

微軟此次推出MAI-Image-1，標誌著其在AI圖像生成領域正式展開與谷歌及OpenAI的正面競爭。與不少倚賴外部技術的策略不同，微軟強調「完全自主開發」展示了其對AI核心技術的掌控力和長遠投入。當前AI生成技術不僅是技術競賽，更是生態系統的建立和市場佔有率的爭奪，微軟此舉勢必擴大其在AI服務領域的話語權。

此外，微軟對數據嚴選和專業反饋的重視，反映出他們力求在創意產業中獲得認可，這與許多AI模型偏向通用、規模化訓練不同。這種更貼近實際創作需求的策略，或許能幫助微軟在專業用戶群中樹立良好口碑，形成差異化優勢。

不過，從排行榜成績來看，微軟目前還未能超越谷歌及中國企業的頂尖模型，顯示出技術仍有追趕空間。尤其是中國企業的Hunyuan-image-3.0領先，凸顯全球AI技術競爭的多元化和地域性趨勢。未來，微軟如何在提升模型質素與擴大應用場景間取得平衡，將是其能否長期領先的關鍵。

整體而言，AI圖像生成正處於爆炸式發展階段，技術不斷刷新藝術創作、媒體製作及商業應用的可能。微軟的加入不僅帶來更多選擇，也將推動整個行業朝向更高效、更精細的方向演進。香港及華語用戶可期待這些技術在本地文化和創意產業的深度融合，開展更多前所未有的數碼創作體驗。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。