MIT博士生推動AI更安全更快思維

Ai




規劃人工智能未來:從更安全的答案到更快的思考

麻省理工學院(MIT)五位博士生,透過參與MIT-IBM Watson AI實驗室暑期實習計劃,致力推動人工智能(AI)工具變得更靈活、高效及更貼近真實。他們利用最先進的資源,解決AI現有的痛點,並創造出新功能和應用,從學習何時信任模型的預測準確度,到更有效地運用知識庫進行推理。這些學生和導師的努力,形成一條貫穿始終的技術研究線索,讓AI模型在各領域都能更可靠、更有價值。

打造探針、路由器、新型注意力機制、合成數據集及程序合成管道,學生們的研究涵蓋了安全性、推理效率、多模態數據及基於知識的推理。他們的技術強調擴展性和整合性,並始終注重實際應用的影響。

學習信任與判斷時機

MIT數學研究生Andrey Bryutkin專注於模型的可信度。他尋找問題內部的結構,如系統的方程和守恆定律,利用這些結構來提高解決方案的可靠性和穩健性。與實驗室合作,他開發出一種方法,探究大型語言模型(LLM)行為的本質。與IBM研究的Veronika Thost及MIT電機工程與計算機科學系(EECS)副教授Marzyeh Ghassemi合作,他們研究了LLM的不確定性本身的不確定性。

傳統上,稱為探針(probes)的淺層小型神經網絡會與LLM一起訓練,用以標記模型可能不可信的回答,但這些分類器可能產生誤判,且只提供點估計,無法充分揭示LLM失效的情況。MIT-IBM團隊通過分析安全與不安全的提示及問答任務,利用提示標籤對、隱藏狀態(如激活向量和最後的詞元)來衡量梯度分數、對提示的敏感度及對分佈外數據的反應,以評估探針的可靠性,並識別難以預測的數據區域及標籤噪聲。這對確保AI系統的可信度至關重要,因為AI的信任度完全依賴於其訓練數據的質量和準確性。對於如IBM Granite Guardian系列這類關鍵數據應用,準確且一致的探針尤其重要。

另一種確保LLM回答可信的方法,是利用外部的可信知識庫來避免「幻覺」現象。對於結構化數據,如社交媒體關係、金融交易或企業數據庫,知識圖譜(KG)是理想的工具,但現有的LLM與KG之間多為固定的多代理管道,計算效率低且成本高。為此,物理學研究生Jinyeop Song與IBM研究的Yada Zhu及EECS副教授Julian Shun合作,創建了一個單代理、多輪的強化學習框架,簡化該過程。該系統設計了一個API伺服器,承載Freebase和Wikidata這些通用知識圖譜,LLM代理則發出針對性的檢索行動,從伺服器獲取相關信息,並通過反覆互動將資料加到上下文中,回應查詢。系統通過強化學習自我訓練,平衡答案的準確性與完整性。這種框架結合API伺服器與單一強化學習代理,促成基於數據的推理,提升準確度、透明度、效率及可轉移性。

明智使用計算資源

模型回應的時效性與完整性與準確度同樣重要,尤其當處理長文本或主題隨時間演變的內容時。EECS研究生Songlin Yang專注於重新設計模型推理階段的處理能力。針對LLM中常見的transformer架構限制,MIT-IBM團隊與IBM研究的Rameswar Panda及EECS教授Yoon Kim合作,開發了超越transformer的新一代語言模型架構。

transformer面臨兩大挑戰:一是softmax注意力機制在長序列建模中的計算複雜度高,隨輸入長度加倍,計算成本呈四次方增加;二是RoPE(旋轉位置編碼)表達能力有限,只能捕捉訓練中見過的序列長度及順序,無法良好理解隨時間變化的內部狀態如變量值。

為此,MIT-IBM團隊探索理論基礎紮實且硬件高效的演算法,採用線性注意力替代softmax注意力,將計算複雜度由二次方降至線性,並嘗試混合軟硬注意力架構,平衡效能與效率。為提升表達力,他們用基於Householder變換的動態反射位置編碼取代RoPE,增強位置交互能力,深入理解序列訊息,且保持計算快速高效。這些創新使transformer能減少分解問題步驟,處理更複雜的子問題,提升推理速度。

視覺新視野

視覺數據蘊含豐富資訊,人腦能迅速解析、內化並模仿。兩位研究生嘗試用視覺-語言模型(VLMs)透過程式碼來達成類似能力。

EECS的Jovana Kondic在過去兩個暑假,在MIT-IBM Watson AI Lab主任Aude Oliva及IBM研究的Rogerio Feris、Dan Gutfreund與Leonid Karlinsky指導下,研究視覺文件理解,特別是圖表。圖表包含數據點、圖例和軸標籤,需結合光學字符識別和數字推理,模型表現仍不理想。為提升此類任務的表現,Kondic團隊開發一套從程式碼生成大型開源合成圖表數據集的流程。

他們的原型ChartGen,先將種子圖表影像輸入VLM,模型受提示讀取圖表並生成可能用於製作該圖表的Python程式碼。接著LLM組件反覆優化這些程式碼,最終產出超過20萬對獨特的圖表與其程式碼,涵蓋近30種圖表類型,並附帶描述及問答標註。團隊持續擴充數據集,助力企業應用如金融、科學報告與博客的多模態數據視覺化理解。

另一位EECS研究生Leonardo Hernandez Cano則專注於數碼設計,尤其是CAD應用的視覺紋理生成,目標是尋找VLM高效實現此功能的方法。與MIT Schwarzman計算學院Armando Solar-Lezama教授及IBM研究的Nathan Fulton團隊合作,Hernandez Cano創建了一套能自我優化程式碼的程序合成系統。系統從用戶提供的圖像紋理描述開始,生成初始Python程式,產生視覺紋理,並反覆改進程式碼,目標是找到能生成符合目標描述的紋理程式,系統通過自身產生的數據學習搜尋新程式。經過優化後,該程式能創造出具有所需亮度、色彩、光澤等特性的視覺效果,模擬真實材料。

整體來看,這些項目和背後的研究者正齊心協力推動AI向更穩健、實用的方向發展。他們解決了可靠性、效率和多模態推理的核心挑戰,為打造更強大、更可信且具成本效益的AI系統鋪路,迎合現實企業和科學應用的需求。

評論與啟示

MIT-IBM Watson AI Lab暑期實習生的研究成果,展示了當代AI發展的幾個關鍵趨勢:首先是對AI系統「可信度」的深刻關注。在AI應用日益廣泛的今天,模型不僅要準確,還必須能讓用戶明白何時可信賴其答案,這對醫療、金融等高風險領域尤為重要。Bryutkin等人的「不確定性的不確定性」研究,為AI誠實地表達自身信心水平提供了理論和技術支持,是提升AI透明度的關鍵步驟。

其次,將LLM與知識圖譜結合,並用強化學習優化查詢過程,則是解決LLM「幻覺」問題的有效策略。這種融合方式既提升了回答的正確性,也降低了計算成本,體現了AI系統設計中對效率與準確性的雙重追求。

在架構層面,突破transformer的計算瓶頸和表達限制,意味著未來AI將能處理更長、更複雜的文本,提升推理深度和速度,這對於實時應用和大規模語言理解至關重要。

視覺領域的研究則揭示了AI向多模態智能邁進的實際路徑。無論是圖表數據的生成與理解,還是紋理視覺化的自動化生成,都表明AI正從單一語言模型逐步擴展至整合視覺與語言的複合任務,為未來智能助理、數據分析及設計創新奠定基礎。

總結來說,這批MIT博士生的研究不僅技術先進,更具備明確的應用視野。他們的工作是AI從理論走向實踐的縮影,彰顯了跨學科合作的重要性。對香港及全球的科技界而言,這種結合深度技術探索與實際需求的研究模式,值得借鑑,尤其是在推動AI產業化和落地應用方面。未來,如何在確保AI安全可靠的同時,提升其效率和多模態理解能力,將是AI發展的關鍵課題。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
A whimsical, artistic scene set in a classic Hong Kong cha chaan teng (茶餐廳): A charming cat sits comfortably at a small table, elegantly sipping a traditional Hong Kong-style milk tea from a delicate glass. The cat's fur is soft and expressive, and its posture is relaxed yet attentive, suggesting it is a regular at the tea shop. The restaurant interior is bustling yet cozy, adorned with retro posters, old ceiling fans, patterned floor tiles, and Formica tables reflecting the local culture. Sunlight streams through the window, casting warm highlights on the cat and creating a vivid play of shadows. Details include steaming milk tea cups, egg tarts and pineapple buns on the table, and waiters in classic uniforms moving in the background. The overall color palette is rich and atmospheric, blending nostalgia with the lively charm of Hong Kong. 一張年輕東方女性站在戶外木棧道上的全身人像照片。
人物與穿著:
這位女性擁有修長的身材和淺棕色的長直髮,留著齊劉海。
她面帶微笑,表情甜美。頭上戴著一對動物耳朵的髮飾。
上半身穿著一件白色的短版 T 恤/緊身衣(Crop Top),領口較低。
下半身是一條淺藍色的牛仔短裙,裙襬帶有蕾絲邊緣。繫著一條淺棕色的皮帶
腳上穿著一雙露趾的裸色高跟涼鞋。
背景與環境:
她站在一條戶外的深色木質棧道上,左手輕輕扶著旁邊的深色木質欄杆。
背景呈現柔和的散景(景深很淺),可以看到綠色的植物和一些被處理成偏冷藍色調的樹枝或樹葉,營造出一種清新且夢幻的氛圍。
總體而言,這張照片風格清新、甜美,光線柔和,突出了人物的時尚穿搭和外貌。 一位年輕亞洲美女,長直黑髮輕微笑,精緻五官,穿白色露肩毛衣和輕薄長裙,赤腳坐在明亮室內地板上,地上一束玫瑰花束,柔和自然光線從窗戶灑入,溫暖氛圍,高清寫實肖像攝影。

✨🎱 Instagram留言 →

AI即回覆下期六合彩預測

🧠 AI 根據統計數據即時生成分析

💬 只要留言,AI就會即刻覆你心水組合

🎁 完!全!免!費!快啲嚟玩!

IG 貼文示意圖 AI 即時回覆示意圖

下期頭獎號碼

📲 去 Instagram 即刻留言