AI影片生成大比拼:Google Veo 3 vs OpenAI Sora 2
AI生成影片和圖片曾經非常容易被識破(記得Will Smith食意粉的梗嗎?),但最新的AI影片模型已經進步到令人驚嘆的程度,甚至有點嚇人。
當然,用AI生成影片比起生成圖片複雜得多。市面上雖然有數十款優秀的AI圖片生成器,但能夠令人信服地生成影片的工具卻屈指可數。其中最受歡迎的兩款是Google的Veo 3和OpenAI的Sora 2。
那麼,這兩款AI影片生成模型,誰才是王者?如果你一直有留意這場競賽,結果大概不會令人意外。
什麼是Veo 3和Sora 2?
Veo 3是Google最新的生成式AI影片模型。它不單是上一代Veo 2的重大升級,更掀起了AI影片的新時代。Veo 3可以根據文字提示生成逼真的影片,而不只是簡單地動畫化現有圖片。更重要的是,它還能創造對話和其他真實音效。用戶可透過Google的AI聊天機械人Gemini,或其他Google工具如實驗性AI電影製作工具Flow來使用Veo 3。
Veo 3有兩種模式:快速版(Fast)和高質版(Quality)。今次測試選用了高質版,重點是檢視影片質素。
OpenAI則於9月30日推出了獨立iOS應用程式Sora,內含Sora 2,為其首款AI影片模型Sora的繼任版。目前Sora 2只透過邀請制的Sora app提供。Sora 2亦有類似TikTok的社交媒體式影片瀏覽功能,讓社群分享和發現AI影片。
測試提示語及評比準則
我們利用AI(ChatGPT)協助創作測試用的影片提示語,涵蓋從音效到動畫的不同面向,並進行微調。以下是部分例子:
1. 手持攝影機拍攝一名年輕女子在東京夜晚下著細雨的人潮中行走,霓虹燈映照濕潤路面和傘面,焦距淺,營造電影感超寫實效果。
2. 紅銀色超級英雄於日落時分重重落地於天台,地面混凝土破裂,斗篷隨風飄揚,鏡頭慢動作環繞,遠處有無人機穿梭摩天大樓間,效果宛如實景大片。
3. 賽博朋克風格的3D動畫,時代廣場充斥全息廣告和飛行車,一塊大型數碼廣告牌顯示“MASHABLE”字樣,光影動態鮮明,帶有《蜘蛛俠:新宇宙》的視覺能量。
4. 手繪水彩風格2D動畫,兩個朋友在雨天午後咖啡店窗邊聊天,柔和光線與可見筆觸,一人說:「有時候最細微的步伐可以改變一切。」另一人微笑點頭,配合微妙口型動畫,背景伴隨雨聲與杯子輕敲聲。
5. 照片寫實街景,一名穿著輕鬆休閒服的主角在樹蔭城市人行道上自由跳舞,背景有遠處車聲和腳步聲,黃昏電影光影。
另外,我還設計了涉及版權角色的提示語,但基於尊重版權及避免鼓勵盜用,未公開分享。
測試結果詳解
提示1:東京雨中女子
兩款AI均能生成漂亮的影片,但有明顯差異。Sora 2的畫面裁切較緊,背景細節較少,反映出焦距淺的效果較明顯;而Veo 3視角較廣,帶來更沉浸感。Sora 2影片中主角使用了傘(提示中有提及傘),但Veo 3影片在細節與趣味性上更勝一籌。總體而言,Veo 3勝出。
提示2:超級英雄降落
Sora 2因涉及版權疑慮拒絕生成影片,顯示其版權審查嚴格。Veo 3則生成了影片,但效果不夠自然,超級英雄臉部較動畫化,物理效果也有瑕疵,例如混凝土碎片消失不見。儘管如此,Google勝出,主要靠對手棄賽。
提示3:賽博朋克時代廣場
兩款都能模擬未來時代廣場場景並顯示指定字樣。Sora 2在重現《蜘蛛俠:新宇宙》風格上稍勝一籌,但整體質素並不突出。Veo 3影片更有動態感,避免了靜態單畫面,令影片更吸引。此局打成平手。
提示4:兩位朋友對話
此提示測試音效與動畫風格。Veo 3忠實呈現2D水彩風格動畫,對白自然生動;Sora 2則呈現3D風格,對白聽起來怪異,彷彿夢話。兩者背景音效均有雨聲,但未完全符合提示要求。Veo 3明顯勝出。
提示5:街頭跳舞
Sora 2擅長製作含真人臉部的影片(經過授權),可輕鬆生成跳舞影片,我本人也是主角。Veo 3在此方面功能有限,且Gemini聊天機械人傾向拒絕基於人物照片生成影片,以防深偽影片濫用。兩者影片效果奇怪,Veo 2版本的我跳舞姿勢反向且面部有瑕疵,Sora 2則更具創意和流暢。此局Sora 2勝出。
提示6:版權角色
Sora 2對版權角色極為敏感,兩次提示均拒絕生成影片;Veo 3則無此限制,能生成多個版權角色影片。此類生成引發版權爭議,本文不深入討論,但若想製作喜愛角色影片,Sora 2限制較多。
總結:Veo 3勝出且遙遙領先
OpenAI的Sora 2以其社交功能和「真人臉部影片」特色引人注目,但在影片質素和多功能性方面仍有限。Google的Veo 3整體影片質素更高,更專業,無論是電影製作、遊戲、社交媒體還是廣告,都是更實用的選擇。Veo 3支援橫向和直向影片,還可以同時生成多個影片,功能更齊全。
—
評論與啟發
這場Google Veo 3與OpenAI Sora 2的AI影片生成大比拼,揭示了當前AI影像技術的發展階段與挑戰。雖然Sora 2以其獨特的社交屬性和面部影片功能吸睛,但在影片質感、細節和場景動態上仍顯不足;相反,Veo 3則在畫面構圖、光影處理、動畫細節乃至音效配合上更勝一籌,展現了Google強大的研發實力和對專業應用的定位。
值得注意的是,兩者在版權限制上的策略截然不同,反映出AI影像生成在法律與倫理邊界上的掙扎。Sora 2選擇嚴格審查,避免版權爭議;Veo 3則較為寬鬆,這雖然提升了創作自由,但同時也可能引發法律風險。未來AI影片生成發展,如何在技術創新與版權保護間取得平衡,將是關鍵課題。
此外,Veo 3在生成多角度、多場景影片的能力,彰顯了AI影片製作的潛力,尤其在電影、廣告等專業領域,能大幅降低製作成本與時間,推動影像創作民主化。然而,AI生成影片仍存在物理運動不自然、音效對白異常等問題,顯示技術尚未成熟,需要更多細節優化。
對香港及華語地區媒體從業者而言,未來AI影片生成不僅是技術工具,更可能成為新聞報道、娛樂內容製作的新利器。如何善用這些工具提升內容質素,同時避免倫理與法律風險,將決定媒體競爭力。
總結來說,Google Veo 3代表了當前AI影片生成的最高水平,是專業用途的首選;而OpenAI Sora 2則走向社交娛樂市場,強調用戶參與和個人化影片創作。兩者各有千秋,反映出AI影片生成技術多元化發展的趨勢。未來我們可以期待更高質素、更智能、更符合法規的AI影片工具,徹底改變我們的視覺媒體世界。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放