Elon Musk同意我們已經耗盡AI訓練數據
Elon Musk同其他AI專家一致認為,現時幾乎沒有真實世界的數據可用於訓練AI模型。
“我們現在基本上已經耗盡了人類知識的累積總和……用於AI訓練。”Musk在與Stagwell主席Mark Penn的直播對話中表示,這段對話於周三晚在X平台上進行。“這一切基本上是在去年發生的。”
擁有AI公司xAI的Musk,重申了前OpenAI首席科學家Ilya Sutskever在去年12月於機器學習會議NeurIPS上的觀點。Sutskever提到,AI行業已經達到他所稱的“數據巔峰”,並預測缺乏訓練數據將迫使模型開發方式發生轉變。
的確,Musk提出,合成數據——即由AI模型本身生成的數據——是未來的發展方向。“補充[真實世界數據]的唯一方法就是使用合成數據,讓AI創造[訓練數據],”他說。“通過合成數據……[AI]會自我評分,並經歷自我學習的過程。”
其他公司,包括微軟、Meta、OpenAI和Anthropic等科技巨頭,已經開始使用合成數據來訓練其主要AI模型。Gartner估計,2024年用於AI和分析項目的數據中,有60%是合成生成的。
微軟的Phi-4於周三早上開源,並同時使用了合成數據和真實世界數據進行訓練。谷歌的Gemma模型也是如此。Anthropic使用了一些合成數據來開發其表現最佳的系統之一Claude 3.5 Sonnet。而Meta則利用AI生成的數據來微調其最新的Llama系列模型。
使用合成數據進行訓練還有其他優勢,例如成本節省。AI初創公司Writer聲稱,其幾乎完全基於合成來源開發的Palmyra X 004模型,開發成本僅為70萬美元,而一個同等規模的OpenAI模型開發成本估計為460萬美元。
不過,這樣做也有缺點。一些研究表明,合成數據可能導致模型崩潰,讓模型的創造力下降,並在輸出中產生更多的偏見,最終嚴重損害其功能。由於模型生成合成數據,如果用於訓練這些模型的數據存在偏見和局限性,那麼它們的輸出也會受到影響。
—
在這篇文章中,Musk的觀點引發了對當前AI發展狀況的深入思考。他提到的“數據巔峰”概念,可能暗示著AI訓練方法的重大轉變,尤其是在合成數據的使用上。這不僅挑戰了傳統的數據收集方式,還涉及如何平衡數據的質量與數量。雖然合成數據在成本和效率上有其優勢,但我們也必須警惕其可能帶來的偏見和功能損害。未來的AI發展,將需要在創新和道德之間找到平衡,這對整個行業來說都是一個重要的課題。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。