AI數據「頂峰」已到？DeepMind 研發新招突破樽頸！

zero comment

AI 行業面臨的「數據峰值」問題

OpenAI 的聯合創始人 Ilya Sutskever 最近在一次會議上表示，AI 行業已經達到了「數據峰值」。根據 DeepMind 研究人員的觀察，新推出的「推理」模型的輸出可以成為新的 AI 訓練數據來源。他們提出了一種名為「測試時計算」的新技術，預計將於 2025 年進行實驗。

在 12 月的年度 Neurips 會議上，Sutskever 的發言引發了業界的震驚。他指出，互聯網上所有有用的數據已經被用來訓練 AI 模型，這一過程稱為預訓練，促成了包括 ChatGPT 在內的多個近期生成 AI 的進步。然而，隨著進步的放緩，Sutskever 認為這一時代「無疑會結束」。

這一前景令人不安，因為數兆美元的股市價值和 AI 投資都依賴於模型的持續改進。然而，大多數 AI 專家似乎並不擔心，原因何在？

推理時計算的潛力

或許存在一種方法可以繞過這一數據壁壘。這與一種相對較新的技術有關，該技術幫助 AI 模型在處理具有挑戰性的任務時「思考」更長時間。這種稱為測試時或推理時計算的方法，將查詢分解為更小的任務，將每個任務轉化為新的提示，讓模型逐一解決。每一步都需要運行新的請求，即 AI 中所謂的推理階段。

這樣生成的推理鏈中，每個問題部分都會被逐一解決。模型不會進入下一階段，直到每個部分都正確，最終給出更好的最終回應。OpenAI 在 9 月發布了一個名為 o1 的模型，利用了推理時計算。隨後，谷歌和中國的 AI 實驗室 DeepSeek 也推出了類似的「推理」模型。

迭代自我改進循環

對這些新模型進行的基準測試顯示，它們通常比之前的頂尖 AI 模型生成更好的輸出，特別是在數學問題和其他有明確最終答案的任務上。這裡的問題變得有趣：如果這些高質量的輸出被用作新的訓練數據呢？這堆新的信息可以反饋到其他 AI 模型的訓練過程中，以產生更好的結果。

谷歌 DeepMind 的研究人員在 8 月發表了有關推理時計算的研究，並提出這種技術可能是使大型語言模型在數據峰值牆中持續改進的潛在方法。他們寫道：「在未來，我們設想將應用額外推理時計算的輸出重新提煉回基礎 LLM，實現一個迭代自我改進循環。」

研究人員的見解

這篇論文的作者包括 Charlie Snell、Jaehoon Lee、Kelvin Xu 和 Aviral Kumar。Snell 在谷歌 DeepMind 實習時共同撰寫了這篇論文，目前他在加州大學伯克利分校。當我聯繫他時，他談到促使他進行這項研究的動機。他表示：「我受到一些因素的啟發，這些因素妨礙了預訓練的持續擴展，尤其是有限的數據供應。」

他補充道：「如果能讓 AI 模型利用額外的推理時計算並改善其輸出，那將成為生成更好合成數據的方式。」這顯然成為了一個有用的新訓練數據來源，似乎是一種有前途的方式來繞過這些預訓練數據的瓶頸。

未來的展望

在最近的一個視頻播客中，微軟 CEO Satya Nadella 在被問及 AI 模型改進的放緩及缺乏新質量訓練數據時，似乎不以為然，甚至感到振奮。他將推理時計算描述為「另一種擴展法則」。他解釋說：「你有預訓練，然後有效地是這種測試時採樣，然後生成的標記可以回到預訓練中，創造出更強大的模型，這些模型在推理時運行。」

Sutskever 也在他 12 月的 Neurips 演講中提到推理時計算是解決數據峰值問題的潛在方案。2025 年，這一方法將進行實驗，雖然 Snell 對此持樂觀態度，但他認為這並不是一個必然成功的方案。

Snell 認為，這一技術在可檢查的問題上表現良好，例如數學挑戰，但許多需要推理的問題並不容易檢查，例如寫作文章，對其優劣的判斷往往沒有明確的標準。

儘管如此，Snell 認為，這些推理 AI 模型的輸出已經開始被用來訓練新模型。他舉例說，如果 OpenAI 的 o1 模型的輸出比 GPT-4 更好，那麼這些新輸出理論上可以用於未來的 AI 模型訓練。

這一切都表明，AI 行業在面對數據瓶頸時，可能會利用推理時計算技術來創造新的機會，進一步推動技術的進步。這不僅是技術上的挑戰，更是對行業創新思維的考驗。AI 的未來發展仍然充滿變數，如何在「數據峰值」的困境中找到出路，將是業內專家持續探索的重要課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。