馬斯克認同：AI訓練數據已耗盡，未來靠合成數據？

zero comment

Elon Musk同意我們已經耗盡AI訓練數據

Elon Musk同其他AI專家一致認為，現時幾乎沒有真實世界的數據可用於訓練AI模型。

“我們現在基本上已經耗盡了人類知識的累積總和……用於AI訓練。”Musk在與Stagwell主席Mark Penn的直播對話中表示，這段對話於周三晚在X平台上進行。“這一切基本上是在去年發生的。”

擁有AI公司xAI的Musk，重申了前OpenAI首席科學家Ilya Sutskever在去年12月於機器學習會議NeurIPS上的觀點。Sutskever提到，AI行業已經達到他所稱的“數據巔峰”，並預測缺乏訓練數據將迫使模型開發方式發生轉變。

的確，Musk提出，合成數據——即由AI模型本身生成的數據——是未來的發展方向。“補充[真實世界數據]的唯一方法就是使用合成數據，讓AI創造[訓練數據]，”他說。“通過合成數據……[AI]會自我評分，並經歷自我學習的過程。”

其他公司，包括微軟、Meta、OpenAI和Anthropic等科技巨頭，已經開始使用合成數據來訓練其主要AI模型。Gartner估計，2024年用於AI和分析項目的數據中，有60%是合成生成的。

微軟的Phi-4於周三早上開源，並同時使用了合成數據和真實世界數據進行訓練。谷歌的Gemma模型也是如此。Anthropic使用了一些合成數據來開發其表現最佳的系統之一Claude 3.5 Sonnet。而Meta則利用AI生成的數據來微調其最新的Llama系列模型。

使用合成數據進行訓練還有其他優勢，例如成本節省。AI初創公司Writer聲稱，其幾乎完全基於合成來源開發的Palmyra X 004模型，開發成本僅為70萬美元，而一個同等規模的OpenAI模型開發成本估計為460萬美元。

不過，這樣做也有缺點。一些研究表明，合成數據可能導致模型崩潰，讓模型的創造力下降，並在輸出中產生更多的偏見，最終嚴重損害其功能。由於模型生成合成數據，如果用於訓練這些模型的數據存在偏見和局限性，那麼它們的輸出也會受到影響。

—

在這篇文章中，Musk的觀點引發了對當前AI發展狀況的深入思考。他提到的“數據巔峰”概念，可能暗示著AI訓練方法的重大轉變，尤其是在合成數據的使用上。這不僅挑戰了傳統的數據收集方式，還涉及如何平衡數據的質量與數量。雖然合成數據在成本和效率上有其優勢，但我們也必須警惕其可能帶來的偏見和功能損害。未來的AI發展，將需要在創新和道德之間找到平衡，這對整個行業來說都是一個重要的課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。