AI智商高,但世界理解差?

Ai

麻省理工學院與哈佛大學研究揭示生成式人工智能的世界理解缺陷,儘管其任務表現優異

根據麻省理工學院(MIT)和哈佛大學的最新研究,生成式人工智能雖然能夠完成複雜任務,例如在紐約市街頭導航或生成電腦代碼,但它對世界的理解卻存在顯著缺陷。這項研究由MIT新聞報導,研究團隊發現,儘管這些人工智能模型——特別是基於變壓器架構的大型語言模型(LLMs)——看似智能,但其內部的世界模型實際上可能相當不準確。

這項由博士後研究員Keyon Vafa、MIT的Ashesh Rambachan及其他合作者主導的調查顯示,當面臨環境變化(例如某些街道封閉)時,人工智能的導航準確性會急劇下降。這一發現挑戰了大型語言模型即將學習一般真理的觀念。Rambachan在接受MIT新聞採訪時表示:“我們的希望是,因為大型語言模型能在語言方面完成這些驚人的任務,我們也許可以將這些工具應用於科學的其他領域。但如果我們希望利用這些技術進行新的發現,是否大型語言模型能學習到一致的世界模型就變得非常重要。”

針對這些發現,研究團隊提出了新的度量標準來測試人工智能的世界模型的一致性,專注於確定性有限自動機(DFAs),將複雜的現實簡化為一系列狀態和規則。例如,他們評估了人工智能在紐約的路徑尋找和進行奧賽(Othello)遊戲的能力,並開發了序列區分和序列壓縮等度量標準。這些度量旨在評估人工智能是否能夠識別和區分或壓縮序列,從而評估其可能形成的內部世界模型的一致性。

結果令人驚訝。基於隨機性作出“選擇”的變壓器模型,往往比那些基於策略數據訓練的模型構建出更準確的世界模型,後者可能受到訓練數據限制的影響。Vafa表示:“當我們加入繞行路線時,性能驟然下降,這讓我感到驚訝。如果我們僅僅封閉1%的街道,準確率會從幾乎100%立即降至67%。”這些實驗中的繞行路線導致了嚴重的失敗,顯示出變壓器在良好表現的能力與理解任務規則之間並不等同。

這項研究的啟示提出了對於在現實場景中部署大型語言模型的重大質疑,尤其是在準確描述世界至關重要的領域。研究團隊在神經信息處理系統會議上展示了他們的工作,並計劃將其方法擴展到其他各種問題,包括科學領域中僅部分已知規則的情況。這些努力對於提高生成式人工智能模型的可信度和可靠性至關重要,特別是隨著它們與日常應用的日益交織。

在當今世界,生成式人工智能的應用越來越普遍,但其內部運作的理解仍然是我們需要深入探討的課題。這項研究不僅讓我們重新思考人工智能的能力,也提醒我們在使用這些技術時必須謹慎,尤其是在涉及人類生活的各個方面。未來,如何提高這些模型的準確性和理解能力將是推動科技進步的重要課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *