麻省理工學院研究人員開發出高效訓練更可靠的AI代理的方法
這項技術能夠使AI系統在處理涉及變異的複雜任務時表現得更好。
來自麻省理工學院的研究人員正在努力訓練AI系統,以便在各種領域做出有意義的決策,這些領域包括機器人技術、醫學和政治科學。例如,利用AI系統智能控制擁堵城市的交通,能幫助駕駛者更快到達目的地,同時提高安全性或可持續性。
然而,教導AI系統做出良好決策並非易事。
支撐這些AI決策系統的強化學習模型,面對即使是小的任務變化時,仍然經常會失敗。在交通控制的情況下,模型可能會在處理具有不同限速、車道數量或交通模式的交叉口時遇到困難。
為了提高強化學習模型在處理具有變異的複雜任務時的可靠性,麻省理工學院的研究人員提出了一種更高效的訓練算法。
這個算法能夠戰略性地選擇最佳的任務來訓練AI代理,使其能夠有效地執行所有相關任務中的每一個。以交通信號控制為例,每個任務可以是城市中一個交叉口的任務。
通過專注於少數幾個對算法整體有效性貢獻最大的交叉口,這種方法在保持低訓練成本的同時,最大化了性能。
研究人員發現,他們的技術在一系列模擬任務中,比標準方法高效五到五十倍。這種效率的提升幫助算法更快地學習到更好的解決方案,最終改善了AI代理的性能。
“我們能夠看到驚人的性能提升,這得益於一個非常簡單的算法,因為我們打破了傳統思維。這個不太複雜的算法更有可能被社區接受,因為它更容易實施,也更容易讓其他人理解,”資深作者Cathy Wu表示,她是土木與環境工程(CEE)和數據、系統與社會研究所(IDSS)的職業發展副教授,並且是信息與決策系統實驗室(LIDS)的成員。
她的合著者包括首席作者Jung-Hoon Cho(CEE研究生)、Vindula Jayawardana(電機工程與計算機科學系研究生)和Sirui Li(IDSS研究生)。這項研究將在神經信息處理系統會議上發表。
尋找折衷方案
在城市的多個交叉口訓練算法以控制交通信號燈時,工程師通常會在兩種主要方法之間選擇。她可以為每個交叉口獨立訓練一個算法,只使用該交叉口的數據,或者使用所有交叉口的數據訓練一個更大的算法,然後將其應用到每個交叉口上。
但是,每種方法都有其缺點。為每個任務(例如給定的交叉口)訓練一個獨立的算法是一個耗時的過程,需要大量的數據和計算,而為所有任務訓練一個算法則往往導致性能不佳。
Wu和她的合作者試圖在這兩種方法之間找到一個平衡點。
在他們的方法中,他們選擇一組任務,並為每個任務獨立訓練一個算法。重要的是,他們戰略性地選擇最有可能提高算法在所有任務上的整體性能的個別任務。
他們利用了強化學習領域中的一個常見技巧,叫做零樣本轉移學習,該技術允許已訓練的模型應用到新任務上,而無需進一步訓練。通過轉移學習,模型通常能在新鄰近任務上表現得非常好。
“我們知道最理想的情況是對所有任務進行訓練,但我們想知道是否可以僅對這些任務的子集進行訓練,將結果應用於所有任務,並仍然看到性能的提升,”Wu說。
為了確定應選擇哪些任務以最大化預期性能,研究人員開發了一種名為模型基轉移學習(MBTL)的算法。
MBTL算法有兩個部分。一方面,它建模每個算法如果獨立訓練於一個任務的性能。然後,它建模每個算法的性能在轉移到其他任務時的下降程度,這一概念稱為泛化性能。
通過明確建模泛化性能,MBTL能夠估算在新任務上進行訓練的價值。
MBTL以序列方式運作,首先選擇能帶來最高性能增益的任務,然後選擇提供最大後續邊際性能提升的其他任務。
由於MBTL只專注於最有前景的任務,它能夠大幅提高訓練過程的效率。
降低訓練成本
當研究人員在模擬任務上測試這項技術時,包括控制交通信號、管理實時速度建議和執行幾個經典控制任務,其效率是其他方法的五到五十倍。
這意味著他們能夠以更少的數據達到相同的解決方案。例如,通過50倍的效率提升,MBTL算法只需訓練兩個任務,就能達到使用100個任務數據的標準方法的同等性能。
“從這兩種主要方法的角度來看,這意味著來自其他98個任務的數據不是必需的,或者訓練所有100個任務對算法來說是混淆的,因此性能最終不如我們的好,”Wu說。
通過MBTL,增加即使是少量的額外訓練時間也能導致性能的大幅提升。
未來,研究人員計劃設計可以擴展到更複雜問題的MBTL算法,例如高維任務空間。他們還有興趣將這種方法應用於現實世界的問題,特別是在下一代移動系統中。
這項研究部分由美國國家科學基金會的CAREER獎、Kwanjeong教育基金會的博士獎學金計劃以及亞馬遜機器人博士獎學金資助。
—
這項研究的意義不僅在於提高了AI系統的效率,更在於為複雜系統的決策過程帶來了新的思路。傳統上,AI訓練往往需要大量數據和計算資源,而MBTL的出現則意味著我們可以在資源有限的情況下,依然能夠獲得優異的性能,這對於資源緊張的環境尤其重要。此外,這種方法的簡單性也使得其在實際應用中的普及潛力更大,未來或許能在交通管理、醫療決策等多個領域發揮重要作用。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。