OpenAI及其競爭對手尋求更聰明的AI新途徑,因現有方法面臨局限
(路透社)— 像OpenAI這樣的人工智能公司正試圖克服在追求越來越大型的語言模型過程中出現的意外延遲和挑戰,並開發出更類似人類思考方式的訓練技術。
多位AI科學家、研究人員和投資者告訴路透社,他們相信這些技術,正是OpenAI最近發布的o1模型背後的關鍵,可能會重塑AI競爭格局,並影響AI公司對各種資源的需求,從能源到芯片類型。
OpenAI拒絕對此報導發表評論。在兩年前推出受歡迎的ChatGPT聊天機器人後,許多科技公司因AI熱潮而獲得了巨大的估值提升,並公開聲稱“擴大規模”當前模型,通過增加數據和計算能力,將持續改善AI模型。
然而,現在一些著名的AI科學家開始質疑這種“越大越好”的理念的局限性。
AI實驗室Safe Superintelligence(SSI)和OpenAI的聯合創始人Ilya Sutskever最近告訴路透社,擴大預訓練的結果已經達到平臺期,預訓練是AI模型訓練的階段,使用大量未標記數據來理解語言模式和結構。Sutskever被廣泛認為是通過使用更多數據和計算能力來實現生成AI重大進展的早期倡導者,這一方法最終促成了ChatGPT的誕生。今年早些時候,他離開OpenAI創立了SSI。
Sutskever表示:“2010年代是擴大的時代,而現在我們又回到了探索和發現的時代。每個人都在尋找下一個突破。”他強調,選擇正確的擴大方向比以往任何時候都重要。
儘管Sutskever不願透露他的團隊如何解決這一問題,但他表示SSI正在研究一種替代的擴大預訓練的方法。
在幕後,主要AI實驗室的研究人員在爭取推出超越OpenAI近兩年前推出的GPT-4模型的大型語言模型的過程中,遇到了延遲和令人失望的結果。這些大型模型的“訓練過程”可能耗資數千萬美元,因為需要同時運行數百個芯片。由於系統的複雜性,這些過程更容易出現硬件故障;研究人員可能要等到訓練結束後幾個月才能了解模型的最終性能。
另一個問題是,大型語言模型需要大量數據,而AI模型已經耗盡了世界上所有易於獲取的數據。電力短缺也限制了訓練過程,因為這一過程需要巨大的能源。
為了克服這些挑戰,研究人員正在探索“測試時計算”技術,這是一種在模型被使用時增強現有AI模型的技術。例如,模型可以在即時生成和評估多個可能性,最終選擇最佳路徑,而不是立即選擇單一答案。
這種方法使得模型能夠將更多的處理能力分配給如數學或編程問題等挑戰性任務,或需要人類般推理和決策的複雜操作。
OpenAI在其新發布的o1模型中採用了這一技術,該模型以前被稱為Q*和Strawberry。o1模型能夠以多步驟的方式“思考”問題,類似於人類推理。它還涉及來自博士和行業專家的數據和反饋。o1系列的秘密在於在“基礎”模型如GPT-4之上進行的另一組訓練,該公司表示計劃對更大和更多的基礎模型應用這一技術。
同時,來自Anthropic、xAI和谷歌DeepMind等其他頂尖AI實驗室的研究人員也在努力開發他們自己的版本的這一技術。
OpenAI首席產品官Kevin Weil在十月的一次科技會議上表示:“我們看到很多容易獲得的資源,可以迅速改善這些模型。”他強調:“在其他人追上來之前,我們將努力保持三步領先。”
這一變化可能會改變AI硬件的競爭格局,目前該領域主要由對Nvidia AI芯片的巨大需求主導。來自Sequoia和Andreessen Horowitz等知名風險資本投資者已經注意到這一轉變,並在考慮對他們在多個AI實驗室(包括OpenAI和xAI)的高額投資的影響。
Sequoia Capital的合夥人Sonya Huang告訴路透社:“這一轉變將使我們從一個依賴於大型預訓練集群的世界轉向推理雲,即分佈式、基於雲的推理伺服器。”
對Nvidia的AI芯片的需求促使其成為世界上最有價值的公司,並在十月超越了蘋果。與訓練芯片不同,Nvidia在推理市場可能會面臨更多競爭。
當被問及可能對其產品需求的影響時,Nvidia指出了最近公司對o1模型背後技術的重要性的介紹。其首席執行官Jensen Huang在印度的一次會議上談到了對其芯片在推理中需求的增長。
Huang上個月在會議上表示:“我們現在發現了第二條擴大法則,這是推理時的擴大法則……所有這些因素使得對Blackwell的需求極高。”
這些變化不僅影響技術本身,還可能對整個AI生態系統的運作和未來發展方向帶來深遠影響。隨著AI技術的演進,如何有效利用資源和優化模型的思維方式將成為決定競爭優勢的關鍵。這些新技術的出現,使得AI的應用不再僅僅是規模的擴張,而是質的飛躍,這將是未來AI發展的重要趨勢。
以上文章由特價GPT API根據網上資料所翻譯及撰寫,過程中沒有任何人類參與 🙂