Meta玩嘢?Llama 4 AI跑分被揭造假,業界嘩然!

Ai

🎬 YouTube Premium 家庭 Plan成員一位 只需
HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放


立即升級 🔗

Meta被指操控AI基準測試

Meta最近推出了兩款全新的Llama 4模型:一款名為Scout的小型模型,以及一款中型模型Maverick,該公司聲稱Maverick在“廣泛報導的基準測試中”能夠超越GPT-4o和Gemini 2.0 Flash。

Maverick迅速在AI基準網站LMArena上取得了第二名的成績,該網站允許用戶比較不同系統的輸出並投票選出最佳者。在Meta的新聞稿中,公司強調了Maverick的ELO分數為1417,這使其高於OpenAI的4o,僅次於Gemini 2.5 Pro。(ELO分數越高,意味著該模型在與競爭對手的對抗中獲勝的次數越多。)

這一成就似乎使Meta的開放權重Llama 4成為與OpenAI、Anthropic和Google的封閉模型競爭的有力挑戰者。然而,隨著AI研究人員深入挖掘Meta的文檔,發現了一些不尋常的情況。

在細則中,Meta承認在LMArena上測試的Maverick版本並非公眾可用的版本。根據Meta自己的材料,該公司向LMArena提供了一個“實驗性聊天版本”的Maverick,該版本專門“針對對話性進行了優化”,這一點最早由TechCrunch報導。

“Meta對我們政策的解釋與我們對模型提供者的期望不符,”LMArena在模型發布兩天後在X上發布了聲明。“Meta應該更清楚地表明‘Llama-4-Maverick-03-26-Experimental’是一個為了優化人類偏好而定制的模型。由於這一點,我們正在更新我們的排行榜政策,以強化我們對公平、可重複評估的承諾,確保未來不再出現這種混淆。”

Meta的發言人在出版時未能對LMArena的聲明作出回應。

雖然Meta對Maverick所做的事情並不明確違反LMArena的規則,但該網站已經對操控系統表示擔憂,並採取措施以“防止過擬合和基準泄漏”。當公司可以提交專門調整的模型版本進行測試,而對公眾發布不同版本時,像LMArena這樣的基準排名就會變得不再具有指導現實性能的意義。

“這是最受尊重的一般基準,因為所有其他基準都不夠好,”獨立AI研究員Simon Willison告訴《The Verge》。他表示:“當Llama 4發布時,它在競技場中排名第二,僅次於Gemini 2.5 Pro——這讓我非常驚訝,我懊惱自己沒有仔細閱讀細則。”

在Meta發布Maverick和Scout後,AI社群開始傳言Meta也訓練其Llama 4模型以在基準測試中取得更好的表現,同時隱藏其實際的局限性。Meta的生成AI副總裁Ahmad Al-Dahle在X上回應了這些指控:“我們也聽說有人聲稱我們在測試集上進行訓練——這根本不是真的,我們不會這樣做。我們最好的理解是,人們所看到的變量質量是由於需要穩定實現。”

“這是一個非常混亂的發布。”

一些人還注意到Llama 4的發布時機有些奇怪。星期六通常不是重大AI新聞發布的時候。在Threads上,有人詢問為何Llama 4會在週末發布,Meta首席執行官馬克·祖克伯格回應道:“那是它準備好的時候。”

“這是一個非常混亂的發布,”Willison說,他密切關注並記錄AI模型。“我們在那裡得到的模型分數對我來說完全毫無價值。我甚至無法使用他們在高分上獲得的模型。”

Meta發布Llama 4的過程並不順利。根據《The Information》最近的報導,該公司多次推遲發布,因為該模型未能達到內部期望。在中國的一家開源AI初創公司DeepSeek發布了一個引起熱議的開放權重模型後,這些期望變得尤其高。

最終,在LMArena使用優化模型使開發者面臨困難的境地。在選擇像Llama 4這樣的模型用於應用時,開發者自然會查看基準測試以作為指導。然而,正如Maverick的情況所示,這些基準可能反映出公眾無法獲得的能力。

隨著AI開發的加速,這一事件顯示出基準測試正成為戰場。它也顯示出Meta渴望被視為AI領導者的心態,即使這意味著需要操控系統。

這一事件提醒我們,在AI技術快速發展的今天,企業在追求市場地位的過程中,應更加注重誠信和透明度。基準測試的公正性對於整個行業的健康發展至關重要,只有這樣,才能真正促進技術進步和公平競爭。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
add lotso and hamm An intense, close-up portrait set in a smoky, underground jazz club or speakeasy. The subject is the 'Boss' of an information network, hiding in plain sight. The scene is dark, defined by heavy shadows and cigarette smoke swirling in the air. A single spotlight hits the subject from the side, creating a classic 'Rembrandt triangle' on the cheek of [exactly face uploaded image 100%]. He wears a sharp, pinstripe suit with a silk tie, loosened at the collar. He holds a glass of amber whiskey, the condensation rendered in 8K detail. The camera uses a macro 100mm lens, focusing entirely on the eyes and the texture of the skin, blurring out the background patrons into abstract shapes. The mood is conspiratorial, sophisticated, and deeply atmospheric. A futuristic humanoid male with eyes closed, illuminated by glowing turquoise bio-energy lines flowing across his face, hair, and upper body. Ultra-detailed anatomical light patterns resembling neural circuits and energy veins. Soft volumetric rim-lighting, dark sci-fi background, ethereal glow, hyper-realistic skin texture, holographic aura. High-definition digital art, surreal yet serene expression, sleek hair highlighted by luminous strands. Cinematic lighting, 8K resolution, ultra-sharp, moody and atmospheric composition.