Google AI出招！新時代挑戰OpenAI數據霸權？

zero comment

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

谷歌開創AI戰爭的新篇章

最近，一篇由谷歌AI研究員David Silver和加拿大計算機科學家Rich Sutton共同撰寫的研究論文引起了科技界的熱烈討論，提出了一個激進的新AI時代——“體驗時代”。這一概念旨在通過讓AI代理生成自己的數據來解決訓練數據短缺的問題，這似乎在暗示著對OpenAI及其以人類數據訓練AI模型的當前方法的挑釁。

在當今這個充斥著AI研究論文的時代，要讓自己的研究脫穎而出並不容易。然而，這篇論文卻在最近幾天引發了大量討論。初創公司創始人Suhail Doshi在社交媒體上表示：“這是我在過去兩年中讀過的最具啟發性的AI內容。”而Anthropic的共同創始人Jack Clark則在其廣受業界研究者關注的《Import AI》通訊中介紹了這篇論文。

Silver和Sutton在論文中清楚地指出，當前的AI發展可分為兩個主要時代。第一個時代是“模擬時代”，以谷歌的AlphaGo為代表，該AI模型在2015年學會了比人類更好地玩圍棋。第二個時代是我們目前所處的“人類數據時代”，以OpenAI的ChatGPT為標誌。

模擬時代

根據作者的說法，第一個時代是“模擬時代”。在這段時間，大約是2010年代中期，研究人員利用數字模擬讓AI模型反覆進行遊戲，學習如何表現得像人類。這個過程涉及數以百萬計的遊戲，如象棋、撲克、Atari遊戲和《Gran Turismo》，通過不斷的遊玩和獎勵來教導機器什麼是好結果，從而激勵它們追求更好的策略。

這種強化學習的方法催生了谷歌的AlphaGo，也幫助創造了另一個模型AlphaZero，後者發現了象棋和圍棋的新策略，改變了人類的遊戲方式。然而，這種方法的問題在於，這樣訓練出來的機器雖然在具體的問題上表現良好，但對於更為廣泛和開放的問題卻無法應對，這使得它們並不算真正的全能AI。

人類數據時代

接下來的時代是由2017年谷歌的一篇研究論文《注意力是你所需要的一切》所引發的。這篇論文提出，AI模型應該在大量人類創造的網絡數據上進行訓練，通過讓機器“注意”這些信息，它們將學會像人類一樣行為，並在各種任務中表現得與人類相當。

這是我們當前所處的時代，已經催生了ChatGPT和許多其他強大的生成AI模型和工具，這些工具越來越多地被用來自動化如平面設計、內容創作和軟件編寫等任務。這一時代的關鍵在於收集大量高質量的人類生成數據，並在計算密集型的訓練過程中使用這些數據，從而使AI模型對世界有更深入的理解。

雖然谷歌的研究人員開創了這一人類數據時代，但許多人已經離開公司，創建了自己的公司。許多人轉投OpenAI，參與了最終產生ChatGPT的技術開發，而其他人則創立了Anthropic，這是一家領先的生成AI初創公司，運行著強大的聊天機器人和AI代理Claude。

谷歌的挑戰？

許多AI行業專家以及一些華爾街的投資者和分析師認為，谷歌在這方面可能失去了主導地位。雖然它開創了這一AI方法，但OpenAI和ChatGPT卻獲得了大部分的市場份額。

不過，對於這種情況，Silver和Sutton似乎在某種程度上對人類數據時代提出了質疑。他們在論文中寫道：“可以說，這種範式轉變使得我們丟掉了某些重要的東西。”他們指出，人類中心的強化學習雖然促進了前所未有的行為範疇，但也給代理的表現設置了新的上限：代理無法超越現有的人類知識。

這一點在某種程度上是正確的，因為高質量人類數據的供應已經無法滿足AI實驗室和大型科技公司對新內容的需求。正如我去年所寫的，現在在AI前沿取得重大突破變得越來越困難和昂貴。

體驗時代的到來

作者為此提出了一個激進的解決方案，這也是他們在論文中所稱的新“體驗時代”的核心。他們建議模型和代理應該走出來，通過與現實世界的互動來創造自己的新數據。

他們認為，這將解決數據供應的問題，同時幫助該領域實現AGI（人工通用智能），即機器在大多數有用活動中超越人類的技術聖杯。Silver和Sutton寫道：“最終，體驗數據將超越人類生成數據的規模和質量。”

這一提議可以被視作對現代父母的啟示：告訴孩子們不要長時間待在沙發上玩手機，而是應該到外面去和朋友們一起玩耍，因為外面的世界有更豐富且有價值的經驗可以學習。

Clark對這一提議的果敢表示讚賞，認為這篇論文體現了AI行業的信心，並指出“給予這些代理足夠的獨立性和自由度，讓它們能夠與世界互動並生成自己的數據”。

未來的可能性

作者還提出了一些理論示例，說明這將如何在新“體驗時代”中運作。例如，一個AI健康助手可以根據個人的健康目標，利用休息心率、睡眠時間和活動水平的組合信號來建立獎勵。而一個教育助手則可以根據用戶的語言學習情況提供獎勵。

這在某種程度上可以被視為對過去“模擬時代”的回歸，只不過這一次，AI模型和代理是從現實世界學習和收集數據，而不是存在於視頻遊戲或其他數字領域。關鍵在於，與人類數據時代不同，這一新階段的AI發展或許將沒有信息生成和收集的上限。

Silver和Sutton指出，在當前的人類數據時代中，某些能力是喪失的：代理自我發現知識的能力。“沒有這種基礎，無論代理多麼複雜，都將成為現有人類知識的回聲室。”這一點似乎在有意無意中對OpenAI提出了批評。

這篇論文的提出不僅是對AI未來發展的一次深刻思考，也可能成為谷歌在AI戰爭中重新獲得主導地位的契機。隨著體驗時代的到來，我們或許能看到AI技術的全新突破。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Google AI出招！新時代挑戰OpenAI數據霸權？

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年！

chatgpt

Related Articles

初創必讀！Vibe Coding安全風險全面解析

MIT新算法高效處理對稱數據學習

Elon Musk Grok推「辣味」AI短片生成器

🎬 YouTube Premium 家庭 Plan成員一位只需
HK$148/年！