MIT研究:AI喺乾淨環境學嘢,反而表現更勁!

Ai

新訓練方法有助於人工智能代理在不確定條件下表現更佳

有時候,將機器人訓練於不同於其將要部署的環境,可能會更有效。麻省理工學院的研究人員發現,儘管傳統觀念認為訓練環境應與實際部署環境相似,但在某些情況下,在完全不同的環境中進行訓練能夠產生性能更佳的人工智能代理。

這些研究結果顯示,當模擬的人工智能代理在一個較少不確定性或“噪音”的世界中進行訓練時,能夠比在同樣的噪音世界中訓練的競爭代理表現得更好。研究人員將這一意外現象稱為室內訓練效應。

麻省理工學院媒體實驗室的研究助理Serena Bono解釋道:「如果我們在一個沒有噪音的室內環境學習打網球,我們可能會更容易掌握各種擊球技巧。然後,如果我們轉到一個有風的網球場,我們可能更有可能打得好,因為我們不是在一開始就學習於這個有風的環境。」

研究團隊通過訓練人工智能代理玩經過修改的Atari遊戲來研究這一現象,他們意外地發現室內訓練效應在各種Atari遊戲和遊戲變體中持續出現。他們希望這些結果能促進進一步的研究,發展出更好的人工智能代理訓練方法。

共同作者Spandan Madan補充道:「這是一個全新的思考方向。我們可能能夠構建模擬環境,使得人工智能代理學習得更好,而不是單純地匹配訓練和測試環境。」

訓練困境

研究人員希望探索為什麼強化學習代理在測試與其訓練空間不同的環境時,表現往往不如預期。強化學習是一種試錯法,代理在訓練空間中探索並學習採取能最大化獎勵的行動。

團隊開發了一種技術,明確地向強化學習問題的轉移函數中添加一定量的噪音。轉移函數定義了代理根據其選擇的行動從一個狀態移動到另一個狀態的概率。

例如,當代理在玩吃豆人時,轉移函數可能定義了遊戲板上鬼魂向上、下、左或右移動的概率。在標準的強化學習中,人工智能將使用相同的轉移函數進行訓練和測試。

研究人員在這一傳統方法中向轉移函數添加噪音,結果如預期般對代理的吃豆人表現造成了負面影響。但當他們在一個沒有噪音的吃豆人遊戲中訓練代理,然後在一個加入噪音的環境中進行測試時,代理的表現反而優於在噪音遊戲中訓練的代理。

Madan表示:「一般的建議是,您應該盡可能捕捉部署條件的轉移函數,以獲得最大的效益。我們真的徹底測試了這一見解,因為我們自己也不敢相信。」

透過向轉移函數注入不同量的噪音,研究人員能夠測試多種環境,但這並未創造出現實的遊戲。隨著噪音的增加,鬼魂隨機傳送到不同方格的可能性也增高。

為了檢查室內訓練效應是否出現在正常的吃豆人遊戲中,他們調整了基本概率,使鬼魂正常移動,但更可能向上和向下移動,而不是向左和向右。在這些現實遊戲中,訓練於無噪音環境的人工智能代理仍然表現更佳。

Bono表示:「這不僅僅是我們添加噪音以創造臨時環境的方式。這似乎是強化學習問題的一個特性。看到這一點更讓人驚訝。」

探索解釋

當研究人員深入尋找解釋時,他們發現人工智能代理在訓練空間中的探索方式存在某些相關性。

當兩個人工智能代理主要探索相同區域時,在無噪音環境中訓練的代理表現更佳,這可能是因為它在沒有噪音干擾的情況下更容易學習遊戲規則。如果它們的探索模式不同,則在噪音環境中訓練的代理通常會表現更好。這可能是因為該代理需要理解在無噪音環境中無法學習的模式。

Bono解釋道:「如果我在無噪音環境中只學會使用正手打網球,而在有噪音的環境中我還需要使用反手,那麼我在無噪音環境中的表現就不會那麼好。」

未來,研究人員希望探索室內訓練效應如何在更複雜的強化學習環境中發生,或使用計算機視覺和自然語言處理等其他技術。他們還希望構建設計以利用室內訓練效應的訓練環境,這可以幫助人工智能代理在不確定環境中表現更佳。

這項研究不僅挑戰了傳統的人工智能訓練觀念,同時也為未來的研究方向提供了新的視角。隨著技術的發展,我們或許能看到更高效的人工智能系統在各種複雜環境中的應用,這將對未來的科技進步產生深遠影響。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Chat Icon