AI界嘅諾貝爾獎：兩大科學家點樣教機械「自我增值」？

zero comment

人工智能先驅獲頒計算機科學最高榮譽

由於近年在人工智能領域的重大貢獻，兩位強化學習的先驅——安德魯·巴托（Andrew Barto）和理查德·薩頓（Richard Sutton）獲得了今年的A.M.圖靈獎，這被視為科技界的諾貝爾獎。

巴托和薩頓的研究始於1970年代末，為過去十年中的一些人工智能突破奠定了基礎。他們的研究重點是所謂的“享樂主義”機器，這些機器能夠根據正向信號不斷調整其行為。強化學習技術使谷歌的計算機程序在2016年和2017年擊敗世界最佳的圍棋人類玩家，並在提升流行的AI工具如ChatGPT、優化金融交易，以及幫助機器手解決魔方方面發揮了關鍵作用。

巴托在接受《美聯社》訪問時表示，當他和他的博士生薩頓開始研究理論和算法時，這一領域並不受重視。他形容當時的情況為“在荒野中摸索”，因此獲得這一獎項讓他感到格外欣慰，“這一領域的價值如今得到認可，讓我感到非常高興。”

這一獎項由計算機協會頒發，獎金為100萬美元。巴托目前已從麻省大學退休，而薩頓則是加拿大阿爾伯塔大學的長期教授。他們的研究直接回應了艾倫·圖靈在1947年呼籲的“能夠從經驗中學習的機器”的需求，薩頓形容這是“強化學習的核心思想”。

他們的理論借鑒了心理學和神經科學中關於快樂尋求神經元如何對獎勵或懲罰做出反應的觀點。在1980年代初發表的一篇重要論文中，巴托和薩頓將他們的新方法應用於一個模擬世界中的特定任務：在移動的手推車上平衡一根桿子，以防止其倒下。兩位計算機科學家隨後共同撰寫了一本廣泛使用的強化學習教科書。

谷歌的首席科學家傑夫·迪恩在一份書面聲明中指出，“他們所開發的工具仍然是AI繁榮的核心支柱，促成了重大進展，吸引了大量年輕研究者，並驅動了數十億美元的投資。”

在與《美聯社》的聯合訪問中，巴托與薩頓對持續尋求自我改善的AI代理的風險評估意見不一。巴托強調必須認識到潛在的意外後果，而薩頓則對AI對人類的威脅表示輕視，認為這是過度反應。

薩頓預測未來將有比當前人類更智慧的存在，這一觀點有時被稱為後人類主義。他表示，“人類是機器，他們是驚人的、奇妙的機器，但他們也不是‘最終產品’，還可以更好地運作。”

這一領域的發展不僅讓人們對AI的潛力有了更深的認識，也引發了對未來可能出現的道德和倫理問題的反思。隨著技術的進步，我們必須考慮如何安全地引導這些“智能機器”的發展，以確保它們能夠為人類社會的進步做出貢獻，而不是成為潛在的威脅。

這一獎項不僅是對巴托和薩頓的肯定，也是對整個強化學習領域的重要認可，顯示出在人工智能快速發展的今天，基礎研究仍然是創新和進步的關鍵。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。