MIT博士生推動AI更安全更快思維

zero comment

規劃人工智能未來：從更安全的答案到更快的思考

麻省理工學院（MIT）五位博士生，透過參與MIT-IBM Watson AI實驗室暑期實習計劃，致力推動人工智能（AI）工具變得更靈活、高效及更貼近真實。他們利用最先進的資源，解決AI現有的痛點，並創造出新功能和應用，從學習何時信任模型的預測準確度，到更有效地運用知識庫進行推理。這些學生和導師的努力，形成一條貫穿始終的技術研究線索，讓AI模型在各領域都能更可靠、更有價值。

打造探針、路由器、新型注意力機制、合成數據集及程序合成管道，學生們的研究涵蓋了安全性、推理效率、多模態數據及基於知識的推理。他們的技術強調擴展性和整合性，並始終注重實際應用的影響。

學習信任與判斷時機

MIT數學研究生Andrey Bryutkin專注於模型的可信度。他尋找問題內部的結構，如系統的方程和守恆定律，利用這些結構來提高解決方案的可靠性和穩健性。與實驗室合作，他開發出一種方法，探究大型語言模型（LLM）行為的本質。與IBM研究的Veronika Thost及MIT電機工程與計算機科學系（EECS）副教授Marzyeh Ghassemi合作，他們研究了LLM的不確定性本身的不確定性。

傳統上，稱為探針（probes）的淺層小型神經網絡會與LLM一起訓練，用以標記模型可能不可信的回答，但這些分類器可能產生誤判，且只提供點估計，無法充分揭示LLM失效的情況。MIT-IBM團隊通過分析安全與不安全的提示及問答任務，利用提示標籤對、隱藏狀態（如激活向量和最後的詞元）來衡量梯度分數、對提示的敏感度及對分佈外數據的反應，以評估探針的可靠性，並識別難以預測的數據區域及標籤噪聲。這對確保AI系統的可信度至關重要，因為AI的信任度完全依賴於其訓練數據的質量和準確性。對於如IBM Granite Guardian系列這類關鍵數據應用，準確且一致的探針尤其重要。

另一種確保LLM回答可信的方法，是利用外部的可信知識庫來避免「幻覺」現象。對於結構化數據，如社交媒體關係、金融交易或企業數據庫，知識圖譜（KG）是理想的工具，但現有的LLM與KG之間多為固定的多代理管道，計算效率低且成本高。為此，物理學研究生Jinyeop Song與IBM研究的Yada Zhu及EECS副教授Julian Shun合作，創建了一個單代理、多輪的強化學習框架，簡化該過程。該系統設計了一個API伺服器，承載Freebase和Wikidata這些通用知識圖譜，LLM代理則發出針對性的檢索行動，從伺服器獲取相關信息，並通過反覆互動將資料加到上下文中，回應查詢。系統通過強化學習自我訓練，平衡答案的準確性與完整性。這種框架結合API伺服器與單一強化學習代理，促成基於數據的推理，提升準確度、透明度、效率及可轉移性。

明智使用計算資源

模型回應的時效性與完整性與準確度同樣重要，尤其當處理長文本或主題隨時間演變的內容時。EECS研究生Songlin Yang專注於重新設計模型推理階段的處理能力。針對LLM中常見的transformer架構限制，MIT-IBM團隊與IBM研究的Rameswar Panda及EECS教授Yoon Kim合作，開發了超越transformer的新一代語言模型架構。

transformer面臨兩大挑戰：一是softmax注意力機制在長序列建模中的計算複雜度高，隨輸入長度加倍，計算成本呈四次方增加；二是RoPE（旋轉位置編碼）表達能力有限，只能捕捉訓練中見過的序列長度及順序，無法良好理解隨時間變化的內部狀態如變量值。

為此，MIT-IBM團隊探索理論基礎紮實且硬件高效的演算法，採用線性注意力替代softmax注意力，將計算複雜度由二次方降至線性，並嘗試混合軟硬注意力架構，平衡效能與效率。為提升表達力，他們用基於Householder變換的動態反射位置編碼取代RoPE，增強位置交互能力，深入理解序列訊息，且保持計算快速高效。這些創新使transformer能減少分解問題步驟，處理更複雜的子問題，提升推理速度。

視覺新視野

視覺數據蘊含豐富資訊，人腦能迅速解析、內化並模仿。兩位研究生嘗試用視覺-語言模型（VLMs）透過程式碼來達成類似能力。

EECS的Jovana Kondic在過去兩個暑假，在MIT-IBM Watson AI Lab主任Aude Oliva及IBM研究的Rogerio Feris、Dan Gutfreund與Leonid Karlinsky指導下，研究視覺文件理解，特別是圖表。圖表包含數據點、圖例和軸標籤，需結合光學字符識別和數字推理，模型表現仍不理想。為提升此類任務的表現，Kondic團隊開發一套從程式碼生成大型開源合成圖表數據集的流程。

他們的原型ChartGen，先將種子圖表影像輸入VLM，模型受提示讀取圖表並生成可能用於製作該圖表的Python程式碼。接著LLM組件反覆優化這些程式碼，最終產出超過20萬對獨特的圖表與其程式碼，涵蓋近30種圖表類型，並附帶描述及問答標註。團隊持續擴充數據集，助力企業應用如金融、科學報告與博客的多模態數據視覺化理解。

另一位EECS研究生Leonardo Hernandez Cano則專注於數碼設計，尤其是CAD應用的視覺紋理生成，目標是尋找VLM高效實現此功能的方法。與MIT Schwarzman計算學院Armando Solar-Lezama教授及IBM研究的Nathan Fulton團隊合作，Hernandez Cano創建了一套能自我優化程式碼的程序合成系統。系統從用戶提供的圖像紋理描述開始，生成初始Python程式，產生視覺紋理，並反覆改進程式碼，目標是找到能生成符合目標描述的紋理程式，系統通過自身產生的數據學習搜尋新程式。經過優化後，該程式能創造出具有所需亮度、色彩、光澤等特性的視覺效果，模擬真實材料。

整體來看，這些項目和背後的研究者正齊心協力推動AI向更穩健、實用的方向發展。他們解決了可靠性、效率和多模態推理的核心挑戰，為打造更強大、更可信且具成本效益的AI系統鋪路，迎合現實企業和科學應用的需求。

—

評論與啟示

MIT-IBM Watson AI Lab暑期實習生的研究成果，展示了當代AI發展的幾個關鍵趨勢：首先是對AI系統「可信度」的深刻關注。在AI應用日益廣泛的今天，模型不僅要準確，還必須能讓用戶明白何時可信賴其答案，這對醫療、金融等高風險領域尤為重要。Bryutkin等人的「不確定性的不確定性」研究，為AI誠實地表達自身信心水平提供了理論和技術支持，是提升AI透明度的關鍵步驟。

其次，將LLM與知識圖譜結合，並用強化學習優化查詢過程，則是解決LLM「幻覺」問題的有效策略。這種融合方式既提升了回答的正確性，也降低了計算成本，體現了AI系統設計中對效率與準確性的雙重追求。

在架構層面，突破transformer的計算瓶頸和表達限制，意味著未來AI將能處理更長、更複雜的文本，提升推理深度和速度，這對於實時應用和大規模語言理解至關重要。

視覺領域的研究則揭示了AI向多模態智能邁進的實際路徑。無論是圖表數據的生成與理解，還是紋理視覺化的自動化生成，都表明AI正從單一語言模型逐步擴展至整合視覺與語言的複合任務，為未來智能助理、數據分析及設計創新奠定基礎。

總結來說，這批MIT博士生的研究不僅技術先進，更具備明確的應用視野。他們的工作是AI從理論走向實踐的縮影，彰顯了跨學科合作的重要性。對香港及全球的科技界而言，這種結合深度技術探索與實際需求的研究模式，值得借鑑，尤其是在推動AI產業化和落地應用方面。未來，如何在確保AI安全可靠的同時，提升其效率和多模態理解能力，將是AI發展的關鍵課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。