微軟推出新AI圖像生成模型 挑戰谷歌Nano Banana及OpenAI GPT-Image-1
微軟近日宣布推出首個完全自主開發的圖像生成模型——MAI-Image-1,該模型已於LMArena平台取得第9名好成績,並將很快於Copilot及Bing Image Creator中上線供用戶體驗。LMArena是一個讓用戶向兩個匿名聊天機械人提出問題,並投票選出最佳回應的評測平台。
微軟表示,MAI-Image-1團隊特別注重避免生成重複或風格過於單一的圖像,通過嚴格挑選訓練數據及細膩的評估機制,確保模型在創意使用場景下表現出色。微軟更強調,他們在開發過程中積極聽取了創意產業專業人士的反饋。
該模型在生成風景及逼真照片級圖像方面表現尤為突出,能精準捕捉光影、反射及陰影細節,並且在速度和效率上優於許多更大型但運算緩慢的模型。根據LMArena的文字轉圖像排行榜,MAI-Image-1獲得1096分,排名第9;谷歌的Gemini-2.5-Flash(Nano Banana)以1154分位列第2;OpenAI的模型得分1123分,排名第7。而目前排行榜首位則是中國科技巨頭鯤鵬科技的Hunyuan-image-3.0。
除了MAI-Image-1外,微軟還自主研發了多款AI模型,包括自然語音生成模型MAI-Voice-1,以及在推理任務中表現高效的小型語言模型Phi系列。這些都是微軟積極推動自家AI技術進步的證明,同時公司亦持續支持OpenAI的模型開發,提供資金及基礎設施支援。
目前AI圖像生成領域競爭激烈,OpenAI的模型因能模仿吉卜力工作室的藝術風格而爆紅,隨後谷歌Nano Banana則以強大的AI編輯能力刷新標準。AIM利用LMArena平台,對比了微軟MAI-Image-1、谷歌Gemini-2.5-Flash及OpenAI GPT-Image-1三款模型,針對一個描繪午後兩人在咖啡店窗邊場景的提示進行測試,重點評估它們在混合光線、反射及陰影真實感的處理能力。用戶亦可自行在LMArena試用這些模型。
—
編輯評論:微軟AI圖像生成的戰略意義與未來展望
微軟此次推出MAI-Image-1,標誌著其在AI圖像生成領域正式展開與谷歌及OpenAI的正面競爭。與不少倚賴外部技術的策略不同,微軟強調「完全自主開發」展示了其對AI核心技術的掌控力和長遠投入。當前AI生成技術不僅是技術競賽,更是生態系統的建立和市場佔有率的爭奪,微軟此舉勢必擴大其在AI服務領域的話語權。
此外,微軟對數據嚴選和專業反饋的重視,反映出他們力求在創意產業中獲得認可,這與許多AI模型偏向通用、規模化訓練不同。這種更貼近實際創作需求的策略,或許能幫助微軟在專業用戶群中樹立良好口碑,形成差異化優勢。
不過,從排行榜成績來看,微軟目前還未能超越谷歌及中國企業的頂尖模型,顯示出技術仍有追趕空間。尤其是中國企業的Hunyuan-image-3.0領先,凸顯全球AI技術競爭的多元化和地域性趨勢。未來,微軟如何在提升模型質素與擴大應用場景間取得平衡,將是其能否長期領先的關鍵。
整體而言,AI圖像生成正處於爆炸式發展階段,技術不斷刷新藝術創作、媒體製作及商業應用的可能。微軟的加入不僅帶來更多選擇,也將推動整個行業朝向更高效、更精細的方向演進。香港及華語用戶可期待這些技術在本地文化和創意產業的深度融合,開展更多前所未有的數碼創作體驗。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放