新AI程式編碼挑戰賽首輪成績出爐,但結果令人失望
一個全新的AI程式編碼挑戰賽近日公布了首輪結果,結果顯示AI軟件工程師的表現遠未達標。
非牟利組織Laude Institute於美國西岸時間周三下午五時,宣布了由Databricks及Perplexity聯合創辦人Andy Konwinski發起的多輪AI編碼挑戰賽「K Prize」首位得主。這位得主是來自巴西的提示工程師Eduardo Rocha de Andrade,獲得獎金五萬美元。不過更令人驚訝的是,他在測試中只答對了7.5%的問題,卻能奪冠。
Konwinski表示:「我們很高興能建立一個真正有難度的基準測試,因為只有難的基準測試才有意義。」他補充說:「如果大實驗室用他們最大的模型參賽,分數會不一樣。但這正是重點。K Prize採用離線限算力的方式,偏向較小型及開源模型,我很喜歡這樣,因為它創造了公平競爭的環境。」
Konwinski更承諾,若有開源模型能在此測試中取得90%以上分數,將獲得一百萬美元獎金。
K Prize的測試方式與著名的SWE-Bench系統相似,都是用GitHub上標記的問題來檢驗模型解決真實程式編碼難題的能力。但SWE-Bench基於固定的問題集,模型可進行針對性訓練;而K Prize則設計為「無污染版本的SWE-Bench」,採用定時提交制度防止針對測試的特定訓練。首輪比賽模型必須於3月12日前提交,測試問題全來自該日期之後在GitHub出現的問題。
7.5%的最高分數與SWE-Bench目前75%(簡易版)及34%(進階版)的成績形成鮮明對比。Konwinski仍不確定這是因為SWE-Bench存在數據污染,還是因為從GitHub新收集的問題更具挑戰性,但他相信K Prize將很快揭示答案。
他向TechCrunch表示:「隨著比賽進行多輪,我們會更清楚情況,因為參賽者會逐漸適應這個每隔幾個月舉辦一次的挑戰。」
不少評論認為,儘管目前市面已有多種AI編碼工具,但現有基準測試過於簡單,難以真實反映AI能力,K Prize是解決AI評估問題的重要一步。
普林斯頓大學研究員Sayash Kapoor亦贊同:「建立新測試來挑戰既有基準很重要,否則我們無法分辨SWE-Bench的高分究竟是因為數據污染,還是人為在榜單上做手腳。」
Konwinski強調,K Prize不僅是更嚴格的基準,更是對整個AI行業的公開挑戰。他說:「如果你相信市場炒作,應該早就有AI醫生、AI律師、AI軟件工程師了,但事實並非如此。如果在無污染的SWE-Bench上連10%分數都拿不到,這就是現實的警醒。」
—
評論與啟示
這個K Prize的結果為AI軟件工程領域敲響了警鐘。儘管AI技術近年大幅進步,尤其是在自然語言處理和生成方面取得突破,但在應對真實且複雜的程式編碼問題上,AI模型的能力仍遠遠不足。這凸顯了當前AI技術過於依賴數據集的「記憶」與「模仿」,而非真正理解和創造解決方案的局限。
此外,K Prize的設計理念——限制算力、避免數據污染、強調公平競爭——為AI評估帶來了新的思路。過去許多基準測試因為模型能「作弊」式地訓練於測試數據而失去參考價值,這種嚴格的測試環境有助於揭露AI真實的能力水平。
對香港及全球科技界而言,這提醒我們在推廣AI應用時要保持理性,避免過度炒作,要更注重技術的穩健性和實際效用。同時,開源社群和中小型研發團隊有機會透過這類公平競爭的平台,展示和推動創新,打破大型科技公司對AI研發的壟斷。
最後,這也鼓勵我們重新思考AI如何與人類工程師協作,而非完全取代。或許未來的方向,是打造「人機協作」的混合模式,結合人類的創造力與AI的效率,才能真正提升軟件開發的質與量。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。
