MIT博士生推動AI更安全更快思維

Ai




規劃人工智能未來:從更安全的答案到更快的思考

麻省理工學院(MIT)五位博士生,透過參與MIT-IBM Watson AI實驗室暑期實習計劃,致力推動人工智能(AI)工具變得更靈活、高效及更貼近真實。他們利用最先進的資源,解決AI現有的痛點,並創造出新功能和應用,從學習何時信任模型的預測準確度,到更有效地運用知識庫進行推理。這些學生和導師的努力,形成一條貫穿始終的技術研究線索,讓AI模型在各領域都能更可靠、更有價值。

打造探針、路由器、新型注意力機制、合成數據集及程序合成管道,學生們的研究涵蓋了安全性、推理效率、多模態數據及基於知識的推理。他們的技術強調擴展性和整合性,並始終注重實際應用的影響。

學習信任與判斷時機

MIT數學研究生Andrey Bryutkin專注於模型的可信度。他尋找問題內部的結構,如系統的方程和守恆定律,利用這些結構來提高解決方案的可靠性和穩健性。與實驗室合作,他開發出一種方法,探究大型語言模型(LLM)行為的本質。與IBM研究的Veronika Thost及MIT電機工程與計算機科學系(EECS)副教授Marzyeh Ghassemi合作,他們研究了LLM的不確定性本身的不確定性。

傳統上,稱為探針(probes)的淺層小型神經網絡會與LLM一起訓練,用以標記模型可能不可信的回答,但這些分類器可能產生誤判,且只提供點估計,無法充分揭示LLM失效的情況。MIT-IBM團隊通過分析安全與不安全的提示及問答任務,利用提示標籤對、隱藏狀態(如激活向量和最後的詞元)來衡量梯度分數、對提示的敏感度及對分佈外數據的反應,以評估探針的可靠性,並識別難以預測的數據區域及標籤噪聲。這對確保AI系統的可信度至關重要,因為AI的信任度完全依賴於其訓練數據的質量和準確性。對於如IBM Granite Guardian系列這類關鍵數據應用,準確且一致的探針尤其重要。

另一種確保LLM回答可信的方法,是利用外部的可信知識庫來避免「幻覺」現象。對於結構化數據,如社交媒體關係、金融交易或企業數據庫,知識圖譜(KG)是理想的工具,但現有的LLM與KG之間多為固定的多代理管道,計算效率低且成本高。為此,物理學研究生Jinyeop Song與IBM研究的Yada Zhu及EECS副教授Julian Shun合作,創建了一個單代理、多輪的強化學習框架,簡化該過程。該系統設計了一個API伺服器,承載Freebase和Wikidata這些通用知識圖譜,LLM代理則發出針對性的檢索行動,從伺服器獲取相關信息,並通過反覆互動將資料加到上下文中,回應查詢。系統通過強化學習自我訓練,平衡答案的準確性與完整性。這種框架結合API伺服器與單一強化學習代理,促成基於數據的推理,提升準確度、透明度、效率及可轉移性。

明智使用計算資源

模型回應的時效性與完整性與準確度同樣重要,尤其當處理長文本或主題隨時間演變的內容時。EECS研究生Songlin Yang專注於重新設計模型推理階段的處理能力。針對LLM中常見的transformer架構限制,MIT-IBM團隊與IBM研究的Rameswar Panda及EECS教授Yoon Kim合作,開發了超越transformer的新一代語言模型架構。

transformer面臨兩大挑戰:一是softmax注意力機制在長序列建模中的計算複雜度高,隨輸入長度加倍,計算成本呈四次方增加;二是RoPE(旋轉位置編碼)表達能力有限,只能捕捉訓練中見過的序列長度及順序,無法良好理解隨時間變化的內部狀態如變量值。

為此,MIT-IBM團隊探索理論基礎紮實且硬件高效的演算法,採用線性注意力替代softmax注意力,將計算複雜度由二次方降至線性,並嘗試混合軟硬注意力架構,平衡效能與效率。為提升表達力,他們用基於Householder變換的動態反射位置編碼取代RoPE,增強位置交互能力,深入理解序列訊息,且保持計算快速高效。這些創新使transformer能減少分解問題步驟,處理更複雜的子問題,提升推理速度。

視覺新視野

視覺數據蘊含豐富資訊,人腦能迅速解析、內化並模仿。兩位研究生嘗試用視覺-語言模型(VLMs)透過程式碼來達成類似能力。

EECS的Jovana Kondic在過去兩個暑假,在MIT-IBM Watson AI Lab主任Aude Oliva及IBM研究的Rogerio Feris、Dan Gutfreund與Leonid Karlinsky指導下,研究視覺文件理解,特別是圖表。圖表包含數據點、圖例和軸標籤,需結合光學字符識別和數字推理,模型表現仍不理想。為提升此類任務的表現,Kondic團隊開發一套從程式碼生成大型開源合成圖表數據集的流程。

他們的原型ChartGen,先將種子圖表影像輸入VLM,模型受提示讀取圖表並生成可能用於製作該圖表的Python程式碼。接著LLM組件反覆優化這些程式碼,最終產出超過20萬對獨特的圖表與其程式碼,涵蓋近30種圖表類型,並附帶描述及問答標註。團隊持續擴充數據集,助力企業應用如金融、科學報告與博客的多模態數據視覺化理解。

另一位EECS研究生Leonardo Hernandez Cano則專注於數碼設計,尤其是CAD應用的視覺紋理生成,目標是尋找VLM高效實現此功能的方法。與MIT Schwarzman計算學院Armando Solar-Lezama教授及IBM研究的Nathan Fulton團隊合作,Hernandez Cano創建了一套能自我優化程式碼的程序合成系統。系統從用戶提供的圖像紋理描述開始,生成初始Python程式,產生視覺紋理,並反覆改進程式碼,目標是找到能生成符合目標描述的紋理程式,系統通過自身產生的數據學習搜尋新程式。經過優化後,該程式能創造出具有所需亮度、色彩、光澤等特性的視覺效果,模擬真實材料。

整體來看,這些項目和背後的研究者正齊心協力推動AI向更穩健、實用的方向發展。他們解決了可靠性、效率和多模態推理的核心挑戰,為打造更強大、更可信且具成本效益的AI系統鋪路,迎合現實企業和科學應用的需求。

評論與啟示

MIT-IBM Watson AI Lab暑期實習生的研究成果,展示了當代AI發展的幾個關鍵趨勢:首先是對AI系統「可信度」的深刻關注。在AI應用日益廣泛的今天,模型不僅要準確,還必須能讓用戶明白何時可信賴其答案,這對醫療、金融等高風險領域尤為重要。Bryutkin等人的「不確定性的不確定性」研究,為AI誠實地表達自身信心水平提供了理論和技術支持,是提升AI透明度的關鍵步驟。

其次,將LLM與知識圖譜結合,並用強化學習優化查詢過程,則是解決LLM「幻覺」問題的有效策略。這種融合方式既提升了回答的正確性,也降低了計算成本,體現了AI系統設計中對效率與準確性的雙重追求。

在架構層面,突破transformer的計算瓶頸和表達限制,意味著未來AI將能處理更長、更複雜的文本,提升推理深度和速度,這對於實時應用和大規模語言理解至關重要。

視覺領域的研究則揭示了AI向多模態智能邁進的實際路徑。無論是圖表數據的生成與理解,還是紋理視覺化的自動化生成,都表明AI正從單一語言模型逐步擴展至整合視覺與語言的複合任務,為未來智能助理、數據分析及設計創新奠定基礎。

總結來說,這批MIT博士生的研究不僅技術先進,更具備明確的應用視野。他們的工作是AI從理論走向實踐的縮影,彰顯了跨學科合作的重要性。對香港及全球的科技界而言,這種結合深度技術探索與實際需求的研究模式,值得借鑑,尤其是在推動AI產業化和落地應用方面。未來,如何在確保AI安全可靠的同時,提升其效率和多模態理解能力,將是AI發展的關鍵課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

🧠 AI 根據統計數據即時生成分析

💬 只要留言,AI就會即刻覆你心水組合

🎁 完!全!免!費!快啲嚟玩!

IG 貼文示意圖 AI 即時回覆示意圖

下期頭獎號碼

📲 去 Instagram 即刻留言

滴滴出行優惠 👉 新用戶香港 Call 車首程免費(最高減 HK$88)— 按此領取優惠!