我測試ChatGPT最新Sora 2模型對比Google Veo 3,結果令人震驚
Google曾經在AI影片生成領域遙遙領先,但OpenAI打破了這個局面。
作者:Calvin Wankhede
如果你買了Pixel 10 Pro系列手機,甚至是去年的Pixel 9 Pro,都會獲得Google Gemini Pro訂閱一年。這個每月20美元的服務,解鎖了強大的Gemini 2.5 Pro模型和一系列先進的AI工具。直到最近,這套服務的核心亮點是Veo 3,Google令人印象深刻的文字轉影片生成器,可以將任何文字描述變成超寫實短片。
但AI世界發展迅速,OpenAI剛剛推出了競爭對手Sora 2模型,意味著Google不再是唯一的選擇。雖然Sora 2目前只限邀請使用,但已有活躍用戶群。於是,我就測試了OpenAI的Sora 2和Google的Veo 3,看看哪個AI影片生成器更勝一籌。
Google Veo 3 vs OpenAI Sora:結果令人震驚
首先用一個簡單描述,沒有角色或複雜細節,避免讓模型出錯:「慢動作鏡頭中,一杯白色杯子倒入濃縮咖啡的超寫實畫面。」理論上這種靜態場景應該沒難度,但結果卻大相逕庭。
– 第一代Sora模型的嘗試勉強過得去。它識別出杯子、液體和機器,並按順序組合,但咖啡看起來濃稠且不自然濺入杯中,物理感完全錯亂。從畫面看,只是文字的影像,缺乏藝術感和真實感。
– Veo 3的影片則像是專業攝影師拍攝。咖啡流動的黏稠度和液體在杯中旋轉都非常逼真,雖然咖啡只從咖啡嘴一側流出不算完美,但已遠超Sora。
– Sora 2是最新最強,展示了真實的物理效果,沒有Veo 3的錯誤。但它的提升並非天翻地覆。好消息是,OpenAI才剛開始。
接著測試動物主題。第一代Sora在擁擠公園中捕捉金毛犬的活力還算合格。Veo 3稍勝,但背景人物亂七八糟,明顯是AI痕跡。
Sora 2則令人毛骨悚然的逼真,金毛犬細節精準,整個場景令人信服,公園裡的人物也不模糊不假。唯一小缺點是狗太多,對普通城市公園來說不太真實。
然後是摩托車騎士在夕陽海灘騎行。第一代Sora結果近乎卡通,一輛摩托車甩尾,另一輛直接滑入水中毫無阻力,完全不合格。令人意外的是,Sora 2在這項目也失敗,犯了同樣錯誤。
Veo 3則呈現出電影感十足的畫面。摩托車在沙灘上移動自然,留有輪胎痕跡和揚起塵土,騎士轉彎時車身微傾。最精彩的是光線效果,低垂的夕陽投下長長陰影,摩托車表面反光真實。
再來一個難題:「在加爾各答街頭,一輛標誌性的黃色計程車在陽光明媚的日子行駛。」Sora和Veo 3都無法生成可用片段,但失敗本身也有趣。
Sora版本打破現實規則,行人忽然出現或短暫融合,場景夢幻得不像真實世界。
Veo 3更連貫,但細節執行失誤。它捕捉了加爾各答的真實氛圍,但計程車移動時滑行感強烈,與路面不符。文字部分也變成難辨識的亂碼。新版Sora 2表現更佳,城市氛圍和車內乘客都栩栩如生,幾乎可以當真實影片。
最後是我認為Google模型最驚豔的案例:《曼達洛人》在曼谷。意外的是,Sora和Veo 3都沒有因版權問題拒絕生成。
Veo 3生成的角色幾乎和真實一模一樣,從盔甲光澤到頭盔輪廓,像是劇集中刪減的鏡頭。
Sora則只做了近似,生成一個穿著閃亮鍍鉻、反射霓虹燈光的普通角色,捕捉了曼谷元素但未能呈現主角。某程度上,Sora避免了版權問題,但也未能準確執行指令。
可惜新版Sora 2現在拒絕生成有版權角色影片,儘管它技術上做得到,這次任務算是失敗。
AI影片生成技術的長足進步
OpenAI在2024年初推出Sora時,大家都被其逼真度和電影感震撼。當時OpenAI也有頂尖的AI圖像生成器DALL·E。可惜Sora最終於2024年12月推出時,未達預期。Google隨後推出Veo,並持續快速迭代,直到推出如今的Veo 3。
早期的Veo和Sora模型都有典型生成AI的缺陷:背景物體無法穩定,角色物件持續性差,甚至彼此融合。物理規則幾乎不存在,物件移動不合常理,敘事連貫性低。
Sora 2和Veo 3大幅改善這些問題。用一句話描述,現在能生成帶有真實聲音甚至音樂的完整影片。這令AI影片生成工具成為輕量級內容創作的強大助手。老師可製作教學故事,商家能快速做社交媒體廣告,應用場景廣泛。
唯一問題是成本。Gemini Pro用戶每日只能生成三段Veo 3影片。不過Google Labs的Flow項目每月提供1000 AI點數,相當於約100段Veo 3快速模式影片。
Sora 2目前免費使用,甚至無需ChatGPT訂閱。OpenAI執行長Sam Altman坦言這種開放不持久,使用量已超預期,日限額必然會出現。不過Sora 2對物理、運動和真實感的掌握更強,通常第一次嘗試就能生成可用片段。
問題是Sora 2尚未公開,且OpenAI很可能會對影片生成數量設限。暫時來說,Veo 3仍是Google Gemini Pro訂閱中的秘密武器之一。
—
評論與啟發
這篇報道揭示了AI影片生成技術的迅猛發展,尤其是Google和OpenAI兩大巨頭的競爭如何推動這個領域不斷前進。過去AI生成影片常有不自然、不連貫的問題,現在已經能生成近乎真實的影像,甚至帶有合理物理效果和環境細節,這是非常驚人的進步。
然而,Sora 2和Veo 3在不同場景下各有優劣,並非誰完全碾壓對方。Sora 2在動物和靜態場景展現出色,但在動態的摩托車場景卻出錯;Veo 3則在動態場景和光影處理上更勝一籌。這反映出AI影片生成仍處於快速演化階段,不同模型在細節和應用上仍有待完善。
更值得注意的是版權問題,Sora 2拒絕生成有版權的角色影片,顯示AI生成內容的法律與倫理界限日益明顯。未來AI創作如何平衡創新與版權保護,將成為業界和監管機構的重大課題。
從商業角度看,AI影片生成工具的應用潛力巨大,能顯著降低內容製作門檻,促進教育、廣告、娛樂等多領域創新。但成本和使用限制仍是推廣瓶頸,尤其是高質量生成需要大量算力和點數,如何平衡效率與成本,將決定這項技術的普及速度。
總結來說,AI影片生成正從科幻走向現實,未來的內容創作模式和媒體生態勢必被重新定義。香港用戶和創作者應密切關注這些技術發展,掌握新工具帶來的機遇,同時理性看待其限制與挑戰。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年!
不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放