
新訓練方法可幫助AI代理在不確定環境中表現更佳
有時候,訓練機器人於與其實際部署環境不同的環境中,可能會更有效。麻省理工學院(MIT)的研究人員發現,雖然傳統觀念認為應該盡可能地將模擬訓練環境與實際環境匹配,但在某些情況下,於完全不同的環境中訓練人工智能(AI)代理,卻能讓其表現更佳。
這項研究的結果顯示,在某些情況下,將模擬AI代理訓練於一個不太不確定或“噪音”較少的世界中,可以使其表現優於在同一噪音環境中訓練的競爭AI代理。研究人員將這一意外現象稱為“室內訓練效應”。
MIT媒體實驗室的研究助理Serena Bono解釋道:“如果我們在一個沒有噪音的室內環境中學習打網球,我們可能更容易掌握不同的擊球技巧。然後,如果我們轉到一個噪音較大的環境,如有風的網球場,我們打得好的機率可能會高於如果我們一開始就在有風的環境中學習。”
研究人員通過訓練AI代理玩經過修改的Atari遊戲來研究這一現象。他們驚訝地發現,室內訓練效應在不同的Atari遊戲和遊戲變體中持續出現。他們希望這些結果能激發更多研究,以發展更好的AI代理訓練方法。
共同作者、哈佛大學的研究生Spandan Madan表示:“這是一個全新的思考方向。我們可能能夠構建模擬環境,讓AI代理學習得更好,而不僅僅是試圖匹配訓練和測試環境。”
訓練挑戰
研究人員旨在探討為何強化學習代理在測試與其訓練空間不同的環境時,表現往往不佳。強化學習是一種試錯方法,代理在訓練空間中探索,學習採取能最大化獎勵的行動。
團隊開發了一種技術,明確地向強化學習問題中的一個元素——轉移函數添加了一定量的噪音。轉移函數定義了代理根據其選擇的行動從一個狀態移動到另一個狀態的概率。
研究人員首次將噪音添加到轉移函數中,結果顯示這影響了代理在Pac-Man遊戲中的表現。但當他們將代理在無噪音的Pac-Man遊戲中訓練後,再在注入噪音的環境中進行測試時,該代理的表現卻優於在噪音遊戲中訓練的代理。
Madan表示:“一般的經驗法則是,應該盡可能準確捕捉部署條件的轉移函數,以獲得最佳效果。我們對這一見解進行了深入測試,因為我們自己也不敢相信。”
研究人員對轉移函數注入不同程度的噪音,讓他們測試多種環境,但這並未創造出現實的遊戲。隨著噪音的增加,幽靈隨機傳送到不同方格的可能性也增加。
為了檢查室內訓練效應是否在正常的Pac-Man遊戲中發生,他們調整了基本概率,使幽靈的移動更為正常,但更有可能向上和向下移動,而不是左右。訓練於無噪音環境的AI代理在這些現實遊戲中仍然表現更佳。
Bono表示:“這不僅僅是因為我們添加噪音的方式所造成的。這似乎是強化學習問題的一種特性。看到這一點更讓人驚訝。”
探索解釋
當研究人員進一步探討解釋時,他們發現AI代理在訓練空間中的探索方式存在一些相關性。當兩個AI代理主要探索相同區域時,在無噪音環境中訓練的代理表現更佳,這可能是因為在沒有噪音干擾的情況下,這個代理更容易學習遊戲的規則。
如果他們的探索模式不同,則在噪音環境中訓練的代理往往表現更佳。這可能是因為代理需要理解在無噪音環境中無法學習的模式。
Bono解釋說:“如果我在無噪音環境中僅學會用我的正手打網球,但在噪音環境中我還必須用反手打,那麼我在無噪音環境中的表現將不會那麼好。”
研究人員希望未來能探討室內訓練效應在更複雜的強化學習環境中如何發生,或使用其他技術如計算機視覺和自然語言處理。他們還希望建立設計用來利用室內訓練效應的訓練環境,這將有助於AI代理在不確定的環境中表現更佳。
這項研究不僅挑戰了我們對AI訓練的傳統觀念,也為未來在不確定環境中提升機器學習效果提供了新的視角。隨著技術的不斷進步,我們可能會看到更多突破性的發現,從而使AI能更好地適應和應對現實世界的挑戰。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。