Google Veo 3 VS OpenAI Sora 2:AI影像大比拼!

Ai




AI影片生成大比拼:Google Veo 3 vs OpenAI Sora 2

AI生成影片和圖片曾經非常容易被識破(記得Will Smith食意粉的梗嗎?),但最新的AI影片模型已經進步到令人驚嘆的程度,甚至有點嚇人。

當然,用AI生成影片比起生成圖片複雜得多。市面上雖然有數十款優秀的AI圖片生成器,但能夠令人信服地生成影片的工具卻屈指可數。其中最受歡迎的兩款是Google的Veo 3和OpenAI的Sora 2。

那麼,這兩款AI影片生成模型,誰才是王者?如果你一直有留意這場競賽,結果大概不會令人意外。

什麼是Veo 3和Sora 2?

Veo 3是Google最新的生成式AI影片模型。它不單是上一代Veo 2的重大升級,更掀起了AI影片的新時代。Veo 3可以根據文字提示生成逼真的影片,而不只是簡單地動畫化現有圖片。更重要的是,它還能創造對話和其他真實音效。用戶可透過Google的AI聊天機械人Gemini,或其他Google工具如實驗性AI電影製作工具Flow來使用Veo 3。

Veo 3有兩種模式:快速版(Fast)和高質版(Quality)。今次測試選用了高質版,重點是檢視影片質素。

OpenAI則於9月30日推出了獨立iOS應用程式Sora,內含Sora 2,為其首款AI影片模型Sora的繼任版。目前Sora 2只透過邀請制的Sora app提供。Sora 2亦有類似TikTok的社交媒體式影片瀏覽功能,讓社群分享和發現AI影片。

測試提示語及評比準則

我們利用AI(ChatGPT)協助創作測試用的影片提示語,涵蓋從音效到動畫的不同面向,並進行微調。以下是部分例子:

1. 手持攝影機拍攝一名年輕女子在東京夜晚下著細雨的人潮中行走,霓虹燈映照濕潤路面和傘面,焦距淺,營造電影感超寫實效果。
2. 紅銀色超級英雄於日落時分重重落地於天台,地面混凝土破裂,斗篷隨風飄揚,鏡頭慢動作環繞,遠處有無人機穿梭摩天大樓間,效果宛如實景大片。
3. 賽博朋克風格的3D動畫,時代廣場充斥全息廣告和飛行車,一塊大型數碼廣告牌顯示“MASHABLE”字樣,光影動態鮮明,帶有《蜘蛛俠:新宇宙》的視覺能量。
4. 手繪水彩風格2D動畫,兩個朋友在雨天午後咖啡店窗邊聊天,柔和光線與可見筆觸,一人說:「有時候最細微的步伐可以改變一切。」另一人微笑點頭,配合微妙口型動畫,背景伴隨雨聲與杯子輕敲聲。
5. 照片寫實街景,一名穿著輕鬆休閒服的主角在樹蔭城市人行道上自由跳舞,背景有遠處車聲和腳步聲,黃昏電影光影。

另外,我還設計了涉及版權角色的提示語,但基於尊重版權及避免鼓勵盜用,未公開分享。

測試結果詳解

提示1:東京雨中女子
兩款AI均能生成漂亮的影片,但有明顯差異。Sora 2的畫面裁切較緊,背景細節較少,反映出焦距淺的效果較明顯;而Veo 3視角較廣,帶來更沉浸感。Sora 2影片中主角使用了傘(提示中有提及傘),但Veo 3影片在細節與趣味性上更勝一籌。總體而言,Veo 3勝出。

提示2:超級英雄降落
Sora 2因涉及版權疑慮拒絕生成影片,顯示其版權審查嚴格。Veo 3則生成了影片,但效果不夠自然,超級英雄臉部較動畫化,物理效果也有瑕疵,例如混凝土碎片消失不見。儘管如此,Google勝出,主要靠對手棄賽。

提示3:賽博朋克時代廣場
兩款都能模擬未來時代廣場場景並顯示指定字樣。Sora 2在重現《蜘蛛俠:新宇宙》風格上稍勝一籌,但整體質素並不突出。Veo 3影片更有動態感,避免了靜態單畫面,令影片更吸引。此局打成平手。

提示4:兩位朋友對話
此提示測試音效與動畫風格。Veo 3忠實呈現2D水彩風格動畫,對白自然生動;Sora 2則呈現3D風格,對白聽起來怪異,彷彿夢話。兩者背景音效均有雨聲,但未完全符合提示要求。Veo 3明顯勝出。

提示5:街頭跳舞
Sora 2擅長製作含真人臉部的影片(經過授權),可輕鬆生成跳舞影片,我本人也是主角。Veo 3在此方面功能有限,且Gemini聊天機械人傾向拒絕基於人物照片生成影片,以防深偽影片濫用。兩者影片效果奇怪,Veo 2版本的我跳舞姿勢反向且面部有瑕疵,Sora 2則更具創意和流暢。此局Sora 2勝出。

提示6:版權角色
Sora 2對版權角色極為敏感,兩次提示均拒絕生成影片;Veo 3則無此限制,能生成多個版權角色影片。此類生成引發版權爭議,本文不深入討論,但若想製作喜愛角色影片,Sora 2限制較多。

總結:Veo 3勝出且遙遙領先

OpenAI的Sora 2以其社交功能和「真人臉部影片」特色引人注目,但在影片質素和多功能性方面仍有限。Google的Veo 3整體影片質素更高,更專業,無論是電影製作、遊戲、社交媒體還是廣告,都是更實用的選擇。Veo 3支援橫向和直向影片,還可以同時生成多個影片,功能更齊全。

評論與啟發

這場Google Veo 3與OpenAI Sora 2的AI影片生成大比拼,揭示了當前AI影像技術的發展階段與挑戰。雖然Sora 2以其獨特的社交屬性和面部影片功能吸睛,但在影片質感、細節和場景動態上仍顯不足;相反,Veo 3則在畫面構圖、光影處理、動畫細節乃至音效配合上更勝一籌,展現了Google強大的研發實力和對專業應用的定位。

值得注意的是,兩者在版權限制上的策略截然不同,反映出AI影像生成在法律與倫理邊界上的掙扎。Sora 2選擇嚴格審查,避免版權爭議;Veo 3則較為寬鬆,這雖然提升了創作自由,但同時也可能引發法律風險。未來AI影片生成發展,如何在技術創新與版權保護間取得平衡,將是關鍵課題。

此外,Veo 3在生成多角度、多場景影片的能力,彰顯了AI影片製作的潛力,尤其在電影、廣告等專業領域,能大幅降低製作成本與時間,推動影像創作民主化。然而,AI生成影片仍存在物理運動不自然、音效對白異常等問題,顯示技術尚未成熟,需要更多細節優化。

對香港及華語地區媒體從業者而言,未來AI影片生成不僅是技術工具,更可能成為新聞報道、娛樂內容製作的新利器。如何善用這些工具提升內容質素,同時避免倫理與法律風險,將決定媒體競爭力。

總結來說,Google Veo 3代表了當前AI影片生成的最高水平,是專業用途的首選;而OpenAI Sora 2則走向社交娛樂市場,強調用戶參與和個人化影片創作。兩者各有千秋,反映出AI影片生成技術多元化發展的趨勢。未來我們可以期待更高質素、更智能、更符合法規的AI影片工具,徹底改變我們的視覺媒體世界。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Using the uploaded photo generate ​a Monochromatic portrait, low-key lighting, chiaroscuro technique, striped shadows crossing the face, intense gaze, film noir aesthetic, studio lighting, sharp edges, depth of field."
​"Close-up, dramatic split lighting combined with linear shadows, black background, glossy lips and subtle skin texture, photorealistic digital art, professional portrait photography. Generate an ultra-realistic, highly ultra-detailed, 8k resolution with 1080x1080 pixel portrait of me using the uploaded image for reference (preserved the likeness and the original face for reference) of a cinematic studio portrait of a woman seated on a simple wooden chair with a minimalist design, positioned slightly to the left of the frame. She is captured in a contemplative pose, with her body turned to the left, her left arm resting gracefully on the back of the chair, and her right hand gently touching her face near her lips, conveying a sense of introspection and elegance. Her long, wavy hair cascades naturally over her shoulders, framing her face and adding softness to the composition. She wears an oversized, textured knit sweater that slips off her shoulders, exposing her collarbones and upper chest, emphasizing a relaxed and intimate mood. Her legs are bare, with her right foot flat on the ground and her left knee slightly raised, creating a dynamic line that guides the viewer’s eye through the composition. *** The background is a seamless, deep charcoal or dark brown studio backdrop, providing a rich, neutral setting that enhances the dramatic lighting. The lighting setup features a single, soft yet directional light source positioned to the left of the subject, casting gentle, sculptural shadows that highlight the contours of her face, shoulders, and arms, while creating a subtle gradient across her form. The light accentuates the texture of her sweater and the natural shine of her hair, adding depth and dimension to the image. The color palette is monochromatic with warm, muted tones—shades of gray, brown, and beige—contributing to a timeless, artistic aesthetic. The image is shot with a professional full-frame camera using an 85mm or 50mm lens at a wide aperture (f/1.8 to f/2.😎 to achieve a shallow depth of field, ensuring the subject is in sharp focus while the background remains softly blurred. The resolution is ultra-high, capturing every detail from the fine texture of her sweater to the subtle expression of her pose. The overall style is elegant, contemplative, and refined, emphasizing mood and atmosphere over overt glamour. Post-processing is minimal, maintaining natural skin tones, enhancing contrast and clarity, and preserving the authenticity of the scene. This portrait embodies a delicate balance between simplicity and emotional depth, making it suitable for fine art, editorial, or fashion photography. 生成電影級人物外拍特寫畫面,16:9,4K:

秋季溫暖的下午,一位年輕的亞洲女性,甜美微笑,穿著一件寬鬆的、露肩的米白色短版毛衣、黑色修身牛仔褲。她站在海邊一條蜿蜒的小徑上,輕輕斜靠在鮮豔的藍色木製欄杆上。

F1.4大光圈鏡頭85mm焦段,中機位特寫人物3/4身像,前景有模糊淺景深的蘆葦或芒草,遠景則是模糊的海岸線跟藍天。黑柔濾鏡,減少對比高光處形成光暈。