OpenAI的o3基準爭議似乎正變成一個Theranos式的事件
OpenAI最近在EpochAI的FrontierMath基準上宣稱其o3模型達到了創紀錄的表現,但這一切的背後卻涉及到該公司早前對數據集的接觸,這引發了質疑。Epoch AI的副主任Tamay Besiroglu承認,他們在合約上受到限制,無法透露OpenAI的參與,而六位參與該基準的數學家則表示對此獨家訪問一無所知。
Besiroglu表示:「我們在透明度方面犯了一個錯誤。」他透露,該公司在o3模型推出前被禁止披露與OpenAI的合作關係。「我們的合約明確禁止我們披露資金來源以及OpenAI對大部分數據集的訪問情況。我們承認這個錯誤,並致力於未來做得更好。」
Besiroglu還承認,OpenAI對FrontierMath的一大部分問題和解決方案有接觸。然而,一組未被OpenAI看到的“保留集”幫助驗證了該模型的能力。
Stanford的博士候選人Carina Hong在X平台上透露:「六位對FrontierMath基準做出重大貢獻的數學家確認了這一點——他們不知道OpenAI會擁有這一基準的獨家訪問權(而其他人則不會)。大多數人表示,如果知道的話,他們不確定會否參與。」
AI專家Gary Marcus質疑OpenAI的聲明的合法性,並將此情況直接與Theranos進行比較。
去年12月,當OpenAI宣布其新的o3模型系列時,該公司聲稱o3在EpochAI Frontier Math基準上達到了25%的準確率,這是對之前其他強大模型僅有2%高分的巨大飛躍。該基準旨在讓大型語言模型(LLMs)解決前所未有難度的數學問題。
早前在與AIM的專訪中,Besiroglu透露,Epoch AI通過在基準中生成新問題,顯著減少了數據污染的問題。他還表示,「這些基準數據是私有的,因此不會用於訓練。」
在LessWrong上,一名用戶發現最新版本的FrontierMath研究論文中包含了一個註腳,表示「我們感謝OpenAI對創建該基準的支持。」
AI治理與安全研究所的執行董事Mikhail Samin在X上表示,「OpenAI有誤導行為的歷史——從欺騙自己的董事會到前員工必須簽署的秘密不貶低協議——所以我想這也不應該太令人驚訝。」
OpenAI還聲稱,o3模型在ARC-AGI基準上得分接近90%,超越了人類的表現。該基準被稱為「唯一測量通用智能進展的AI基準」。然而,ARC-AGI基準的創始人François Chollet表示:「我不相信這是AGI——仍然有一些簡單的ARC-AGI-1任務是o3無法解決的。」
自從模型推出以來,Marcus一直對結果持懷疑態度。早前,他表示「在OpenAI之外,沒有任何人評估o3在不同類型問題上的穩健性。」
在基準爭議之中,OpenAI的首席執行官Sam Altman似乎對即將推出的o3 mini感到非常興奮。
評論
這一事件不僅僅是關於OpenAI的聲譽,更是關於整個AI行業的信任問題。當前的AI技術正處於快速發展的階段,透明度和誠信將是未來獲得公眾和用戶信任的關鍵。OpenAI面臨的挑戰不僅是技術上的突破,更是如何在競爭中保持誠信,這對於整個行業的健康發展至關重要。這一事件提醒我們,當新技術進入市場時,業界應該加強監管和自我約束,以防止重蹈覆轍,並確保技術的發展是建立在誠實和透明的基礎上。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。