MIT創新機械人實時繪製大型3D地圖技術

zero comment

教機械人繪製大型環境地圖的新方法

麻省理工學院（MIT）開發出一種新技術，有助於搜索救援機械人在不可預測的環境中，快速生成準確的周邊地圖，提升導航能力。

當一部機械人要在部分坍塌的礦井中搜尋受困工人時，它必須迅速繪製出現場的地圖，並同時判斷自己在地圖中的位置，才能安全地穿越險峻地形。

近年來，研究人員嘗試利用機械人裝載的攝影機影像，透過強大的機器學習模型來完成這項複雜任務，但即使是最先進的模型，也只能一次處理少量影像。在災難現場，每一秒都非常寶貴，機械人需要迅速覆蓋大面積區域，處理成千上萬的影像才能完成任務。

為了突破這個限制，MIT的研究團隊結合最新的人工智能視覺模型與經典的電腦視覺技術，研發出一套能處理任意數量影像的新系統。這套系統能在短短數秒內，精確地生成如擁擠辦公走廊這類複雜場景的3D地圖。

這個人工智能驅動系統會逐步建立並對齊多個較小的子地圖，然後將它們拼接起來，重建出完整的三維場景，同時實時估算機械人的位置。

與其他方法不同，這套技術不需要預先校準的攝影機，亦無需專家調校複雜的系統設定。它結構簡單，但能快速且高質量地完成3D重建，有利於在真實場景中大規模應用。

除了協助救援機械人導航外，這種方法還可用於擴增實境（AR）或虛擬實境（VR）頭戴裝置，提升穿戴式設備的空間感知；亦能幫助工業機械人在倉庫內快速定位與搬運貨物。

「為了讓機械人完成越來越複雜的任務，我們需要更複雜的世界地圖，但同時也不想增加實作的難度。我們展示了如何用一個開箱即用的工具，在幾秒鐘內生成準確的3D重建。」MIT研究生、多米尼克·馬吉奧（Dominic Maggio）說。

馬吉奧與博士後林亨泰（Hyungtae Lim）及資深作者盧卡·卡隆（Luca Carlone）合作完成這項研究。卡隆是MIT航空航天系副教授，也是信息與決策系統實驗室（LIDS）及SPARK實驗室的負責人。該研究成果將在神經信息處理系統會議（NeurIPS）發表。

繪製地圖的挑戰與解決方案

機械人導航中一項核心技術是「同步定位與地圖構建」（SLAM），即機械人一邊探索環境，一邊建立地圖並定位自身。

傳統優化方法在複雜環境下容易失效，且需事先校準攝影機。為避免這些問題，研究人員訓練機器學習模型從數據中學習此任務。

雖然實作較簡單，但目前最優秀的模型一次只能處理約60張影像，對於需要快速穿越多變環境、處理成千影像的任務來說，仍不切實際。

MIT團隊設計出一套系統，先生成場景的多個較小子地圖，再將它們「粘合」成完整的3D重建。模型本身仍是一次處理少量影像，但透過拼接子地圖，能更快重建大範圍場景。

「這看似簡單的解決方案，起初我試過後卻發現效果不理想。」馬吉奧說。

深入研究1980至1990年代的經典電腦視覺文獻後，他發現機器學習模型處理影像時產生的誤差，使子地圖對齊變得更複雜。

傳統方法對齊子地圖時，只需旋轉和平移讓它們對齊。但新模型產生的子地圖可能會有彎曲或拉伸等變形，單純旋轉和平移無法對齊。

「我們必須確保所有子地圖的變形是一致的，才能準確對齊。」卡隆解釋。

更靈活的數學方法

研究團隊借鑒經典電腦視覺的數學方法，開發出一種能表達子地圖所有變形的靈活技術。透過對每個子地圖施加特定數學變換，系統能有效解決對齊歧義。

系統根據輸入影像輸出場景的3D重建，並估算攝影機位置，讓機械人能即時定位。

「當多米尼克想到將學習方法與傳統優化技術結合，實作就順利多了。」卡隆說，「這種簡單又高效的解決方案，未來有很多潛在應用。」

該系統的運算速度快，重建誤差低，且無需特殊攝影機或輔助工具。研究團隊用手機拍攝短片，即時生成MIT教堂內部等複雜場景的3D地圖，平均誤差低於5厘米。

未來他們計劃提升系統在極複雜場景的穩定性，並嘗試在真實機械人上應用。

「了解傳統幾何學非常重要。深入理解模型運作，才能取得更佳成果，並推動技術規模化。」卡隆強調。

這項研究部分由美國國家科學基金會、海軍研究辦公室及韓國國家研究基金會支持。卡隆目前為Amazon學者，該成果於加入Amazon前完成。

—

編輯評論：

MIT這項突破性的研究，成功結合了現代機器學習與經典電腦視覺技術，解決了機械人在大範圍環境中即時定位與地圖構建的難題。其核心創新在於將大環境拆分成多個小子地圖，並以更靈活的數學工具對齊拼接，克服了傳統方法無法處理的形變問題。

這種「分而治之」的策略不僅提升了處理速度，更大幅降低對硬件的依賴，讓技術更容易商業化與實地應用。尤其是在救援、工業自動化和擴增實境等領域，都有巨大潛力。

未來若能結合更多感測器數據（如雷達、深度攝影機）及強化機械人自主決策能力，將進一步提升系統的魯棒性與實用性。這也啟示我們，人工智能的發展不應孤立於數據驅動的深度學習，傳統數學和物理知識依然是不可或缺的基石。

整體而言，這項研究是人工智能融合經典理論的典範，提醒業界在追求新技術時，勿忘回顧與融合過去的智慧，才能設計出既高效又穩健的系統。這對香港乃至全球的智能機械人發展，都有重要啟示和借鑒價值。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

Download TXT

🖼️ AI 圖庫｜抄咒語學玩法

想睇吓人哋點玩 AI 畫圖？圖庫集合大量 Flux / Gemini 作品，可以一 click 複製咒語，直入生成器再改做自己版本。

chatgpt

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖

想畫人像、產品圖、插畫？SSFuture 圖像生成器支援 Flux 同 Gemini Nano Banana Pro 改圖 / 合成，打廣東話都得，仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩，不用登入

🤖 登入後解鎖 Gemini 改圖

📷 支援上載參考圖再生成

⚡ 每天免費額度任你玩

✨ 即刻玩 AI 畫圖

MIT創新機械人實時繪製大型3D地圖技術

🖼️ AI 圖庫｜抄咒語學玩法

chatgpt

Related Articles

$100打造舒適又時尚新年大碼衣櫥秘訣！

揭露AI濫用遊戲開發：守護未來遊戲樂趣

Nvidia聯手SK hynix打造10倍快AI專用SSD

🎨 Nano Banana Pro 圖像生成器｜打幾句說話就出圖