OpenAI o3 爆醜聞：數據造假疑雲，似足Theranos翻版？

zero comment

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

OpenAI的o3基準爭議似乎正變成一個Theranos式的事件

OpenAI最近在EpochAI的FrontierMath基準上宣稱其o3模型達到了創紀錄的表現，但這一切的背後卻涉及到該公司早前對數據集的接觸，這引發了質疑。Epoch AI的副主任Tamay Besiroglu承認，他們在合約上受到限制，無法透露OpenAI的參與，而六位參與該基準的數學家則表示對此獨家訪問一無所知。

Besiroglu表示：「我們在透明度方面犯了一個錯誤。」他透露，該公司在o3模型推出前被禁止披露與OpenAI的合作關係。「我們的合約明確禁止我們披露資金來源以及OpenAI對大部分數據集的訪問情況。我們承認這個錯誤，並致力於未來做得更好。」

Besiroglu還承認，OpenAI對FrontierMath的一大部分問題和解決方案有接觸。然而，一組未被OpenAI看到的“保留集”幫助驗證了該模型的能力。

Stanford的博士候選人Carina Hong在X平台上透露：「六位對FrontierMath基準做出重大貢獻的數學家確認了這一點——他們不知道OpenAI會擁有這一基準的獨家訪問權（而其他人則不會）。大多數人表示，如果知道的話，他們不確定會否參與。」

AI專家Gary Marcus質疑OpenAI的聲明的合法性，並將此情況直接與Theranos進行比較。

去年12月，當OpenAI宣布其新的o3模型系列時，該公司聲稱o3在EpochAI Frontier Math基準上達到了25%的準確率，這是對之前其他強大模型僅有2%高分的巨大飛躍。該基準旨在讓大型語言模型（LLMs）解決前所未有難度的數學問題。

早前在與AIM的專訪中，Besiroglu透露，Epoch AI通過在基準中生成新問題，顯著減少了數據污染的問題。他還表示，「這些基準數據是私有的，因此不會用於訓練。」

在LessWrong上，一名用戶發現最新版本的FrontierMath研究論文中包含了一個註腳，表示「我們感謝OpenAI對創建該基準的支持。」

AI治理與安全研究所的執行董事Mikhail Samin在X上表示，「OpenAI有誤導行為的歷史——從欺騙自己的董事會到前員工必須簽署的秘密不貶低協議——所以我想這也不應該太令人驚訝。」

OpenAI還聲稱，o3模型在ARC-AGI基準上得分接近90%，超越了人類的表現。該基準被稱為「唯一測量通用智能進展的AI基準」。然而，ARC-AGI基準的創始人François Chollet表示：「我不相信這是AGI——仍然有一些簡單的ARC-AGI-1任務是o3無法解決的。」

自從模型推出以來，Marcus一直對結果持懷疑態度。早前，他表示「在OpenAI之外，沒有任何人評估o3在不同類型問題上的穩健性。」

在基準爭議之中，OpenAI的首席執行官Sam Altman似乎對即將推出的o3 mini感到非常興奮。

評論

這一事件不僅僅是關於OpenAI的聲譽，更是關於整個AI行業的信任問題。當前的AI技術正處於快速發展的階段，透明度和誠信將是未來獲得公眾和用戶信任的關鍵。OpenAI面臨的挑戰不僅是技術上的突破，更是如何在競爭中保持誠信，這對於整個行業的健康發展至關重要。這一事件提醒我們，當新技術進入市場時，業界應該加強監管和自我約束，以防止重蹈覆轍，並確保技術的發展是建立在誠實和透明的基礎上。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

OpenAI o3 爆醜聞：數據造假疑雲，似足Theranos翻版？

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

chatgpt

Related Articles

MIT創新PaTH Attention提升大型語言模型長文理解力

Google CC晨早郵件助理 助你輕鬆掌控一日行程

Google Stitch AI：幾分鐘搞掂專業App設計！

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

Google CC晨早郵件助理助你輕鬆掌控一日行程