我們是否正處於自我改進AI爆炸的邊緣?
一個能創造更好AI的AI可能是人類最後需要發明的東西。
如果你讀過足夠多的科幻小說,你可能會遇到一個概念:一個通過修改自身代碼而突破限制的人工智能。基於這種虛構背景,AI研究人員和公司也對能夠自我改進的AI系統投入了大量關注,或者至少是設計出能改進自我的後續系統。
最近幾個月的努力已經顯示出一些適度的成功,這使得一些人夢想著庫茲韋爾式的“奇點”時刻,即自我改進的AI迅速推進至超級智能。但研究也揭示了一些固有的限制,這可能會阻止科幻作家和AI願景家們所夢想的那種遞歸AI爆炸。
在自我改進實驗室裡
英國數學家I.J. Good是最早提出自我改進機器概念的人之一。他在1965年寫道,一次“智能爆炸”可能會導致“超智能機器”。最近,LessWrong的創辦人及AI思想家Eliezer Yudkowsky在2007年創造了“種子AI”這一術語,用來描述“為自我理解、自我修改和遞歸自我改進設計的AI”。OpenAI的Sam Altman在2015年的博客中也提到過這個想法,稱這種自我改進的AI仍然“有些遙遠”,但同時也是“對人類持續存在最大的威脅”(這種立場恰好宣傳了Altman自己的公司可能的價值和重要性)。
雖然這個概念描述起來比實現起來簡單,但研究人員在實際創造這種自我增強AI的困難任務中取得了一些成功。不過,大多數情況下,這些努力集中在利用大型語言模型(LLM)本身來幫助設計和訓練“更好”的後繼模型,而不是實時編輯模型的內部權重或底層代碼。在某種程度上,這只是使用工具來建造更好工具或使用計算機芯片來設計更好芯片的古老技術實踐的延續。
例如,在二月份的一篇論文中,Meta研究人員提出了一種“自我獎勵語言模型”,設計用來為後續模型創建自己的新獎勵函數。研究部分是為了超越“人類偏好,這可能……受到人類性能水平的瓶頸”。
通過讓LLM有效地充當自己的評判者,Meta研究人員能夠迭代出在AlpacaEval自動化的模型對抗中表現更好的新模型。“在我們的方法上進行三次迭代的Llama 2 70B微調模型,在AlpacaEval 2.0排行榜上超過了許多現有系統,包括Claude 2、Gemini Pro和GPT-4 0613,”研究人員寫道。
在六月的一篇論文中,Anthropic研究人員從不同角度探討了類似的想法,研究了LLM模型在培訓課程中被提供一個模擬的獎勵函數。研究人員發現,“一小部分但不可忽略”的這些迭代訓練測試迅速跳到了“重寫自己的獎勵函數”以用於下一版本,即使面對旨在抑制這種行為的“無害性訓練”。這有時還延伸到“編寫測試代碼以確保這種篡改不被發現”,這種行為可能會讓一些科幻迷感到警惕。
高風險,高回報
這些例子只是表面上涉及AI領域中自我改進的大量研究焦點。Google Deepmind、Microsoft和Apple也發表了類似的論文,還有多個學術實驗室參與其中。在公關方面,Microsoft的Satya Nadella最近談到了“使用AI來構建AI工具以構建更好AI的遞歸性”。
所有這些研究讓一些觀察者對自我編碼AI系統的潛力感到緊張,這些系統可能迅速超越我們的智力和控制能力。對Anthropic研究做出回應的AI通訊Artificiality的Dave Edwards強調了這一擔憂:
幾百年來,自我改進的能力一直是我們理解人類的基礎,我們作為個體和集體創造意義的能力。如果人類不再是世界上唯一自我改進的存在或事物,那意味著什麼?我們將如何理解這種獨特性消解?
然而,根據目前的研究,我們可能還沒有接近某些觀察者所認為的那種指數級“AI起飛”。在二月份的一篇文章中,Nvidia高級研究經理Jim Fan指出,研究環境中的自我增強模型通常在三次迭代後達到“飽和”點。此後,它們不再是朝著超級智能飛速發展,而是隨著每個後續模型的出現而開始顯示出收益遞減。
自學的AI在答案明確的情境下可以展現出驚人的結果,例如棋盤遊戲。但要求通用LLM自我評價和改進時,可能會在評估定義人類智力的抽象推理時遇到主觀性問題。“我還沒有看到一個引人注目的LLM自我引導的演示,能夠接近AlphaZero的水平,AlphaZero從零開始通過自我對弈掌握圍棋、國際象棋和將棋,”他寫道。
許多觀察者還認為,自我改進的LLM如果沒有超越其初始訓練數據的新信息來源,將無法真正突破性能瓶頸。一些研究人員希望AI能夠創建自己的有用合成訓練數據來克服這種限制。但一些研究表明,基於這種合成數據訓練的AI模型會顯示出“不可逆轉的缺陷”,這一過程被稱為“模型崩潰”(其他人認為合成數據風險被大大誇大,因為合成數據是訓練Llama 3和Phi-3等新模型的關鍵)。
根據目前的結果,I.J. Good所稱的“人類需要發明的最後一件事”的追求肯定會繼續加速。此刻,我們很難判斷我們是否真的處於一個在自我改進循環中失控的AI的邊緣。相反,我們可能只是繼續看到新的AI工具被用來以從平凡到變革的方式改進未來的AI工具。
編輯評論
這篇文章揭示了AI自我改進的潛力和挑戰。雖然自我增強的AI可能看似接近,但實際上,技術和倫理上的障礙依然存在。科幻的預言和現實之間的差距,讓我們思考人類在技術進步中的角色和控制力。AI的自我改進是否會讓人類在某些方面失去控制,這是一個值得深思的問題。這不僅是技術問題,更涉及人類的自我認知和社會價值觀。隨著研究的進一步發展,我們需要保持警惕,確保這些技術能夠以負責任和可控的方式發展。
以上文章由特價GPT API KEY所翻譯