MIT新技術靠鏡頭教機械人自我認知

Ai




機械人,認識自己:MIT新視覺系統教機械人了解自身結構

麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)的研究團隊開發出一種名為「神經雅可比場」(Neural Jacobian Fields,簡稱NJF)的新系統,令機械人只需透過單一攝影機,便能理解和控制自己的身體,無需依賴其它感應器。

在MIT CSAIL的一間辦公室內,一隻軟性機械手透過彎曲手指成功抓握一個小物件。令人驚奇的是,這隻機械手並沒有內置任何感應器,它的運作完全依賴一個攝影機捕捉其動作,並利用這些視覺數據來控制本身的行為。

這套由CSAIL科學家研發的新系統,顛覆了傳統的機械人控制方式。過往機械人控制多依賴手工設計的模型或複雜的感應器陣列,而NJF則讓機械人純粹透過視覺學習如何對控制指令作出反應,賦予機械人一種「身體自覺」能力。該研究成果於2025年6月25日發表在《Nature》期刊。

MIT電機工程與計算機科學系博士生、該研究的首席研究員李思哲表示:「這項研究標誌著機械人從傳統的程式編寫,轉向以教學方式學習。現時許多機械人任務需要大量工程和程式編碼,我們期望未來只需向機械人展示目標,它便能自主學習如何完成任務。」

傳統機械人多為剛性且配備豐富感應器,以便建立精確的數學模型(數字雙胞胎)用於控制。然而,當機械人結構柔軟、可變形或形狀不規則時,這種控制模式便難以應用。NJF正好打破這種限制,讓機械人從觀察中自主學習內部模型,無需強迫它們符合預設模型。

用視覺學習控制

這種將建模與硬件設計解耦的方式,大大擴展了機械人設計的可能性。以往軟性及仿生機械人設計時,設計師往往需要在機械結構中嵌入感應器或加強特定部位來方便建模,而NJF則解除這些限制。設計師可以更自由地嘗試非傳統、無拘束的機械人形態,而無需擔心後續控制的難題。

李思哲形象地比喻:「想像你學習控制手指的過程:你會擺動手指,觀察反應,然後調整動作。我們的系統就是這樣,透過隨機動作實驗,了解哪些控制指令能驅動機械人的哪些部位。」

團隊已在多種機械人上測試NJF,包括一隻能捏拿的氣動軟性手、一隻剛性Allegro機械手、一隻3D打印機械臂,以及一個無感應器的旋轉平台。每次系統都能透過視覺和隨機動作學習機械人的形狀與控制反應。

研究人員認為,NJF未來可廣泛應用於農業、建築工地及動態環境中,實現厘米級定位,無需複雜感應器陣列,突破傳統方法的限制。

NJF的核心是一個神經網絡,能捕捉機械人的三維幾何結構及其對控制輸入的敏感度。它基於神經輻射場(NeRF)技術,這種技術通過將空間座標映射至顏色和密度值,重建三維場景。NJF不僅學習機械人形狀,更學習一個雅可比場函數,預測機械人體上任意點如何響應馬達指令移動。

訓練時,機械人隨機移動,並由多個攝影機記錄結果。系統不需要人工監督或先驗結構知識,只靠觀察推斷控制信號與動作的關係。

訓練完成後,機械人只需單一單目攝影機即可進行約12赫茲的實時閉環控制,持續自我觀察、規劃及反應。這種速度比許多計算密集的物理模擬更適合實時應用。

在早期模擬中,甚至簡單2D手指和滑塊都能透過少量樣本學習映射關係。NJF透過建模特定點如何隨動作變形,建立了密集的可控性地圖,令其即使面對噪聲或不完整數據,也能對整體動作進行泛化。

李思哲指出:「最有趣的是,系統能自動發現哪些馬達控制機械人哪些部位,這並非預先編程,而是學習中自然產生的,猶如人類發現新裝置的按鈕功能。」

柔軟機械人的未來

過去數十年,機械人多以剛性、易建模的機械臂為主,因其特性簡化控制。但近年來,機械人研究正轉向軟性、仿生設計,讓機械人更靈活適應真實世界,代價是控制難度增加。

MIT助理教授、場景表示組負責人Vincent Sitzmann表示:「現時的機械人往往因昂貴感應器和複雜程式令入門門檻高。我們的NJF旨在降低這個門檻,讓機械人更平價、適應力強且普及。視覺是一種穩定可靠的感應器,能助機械人在農場、建築工地等混亂無序環境中運作,無需昂貴設施。」

CSAIL主任、電機及計算機科學教授Daniela Rus補充:「視覺本身已足夠提供定位和控制線索,省卻GPS、外部追蹤系統或複雜感應器需求。這讓機械人能在無結構環境下展現強健適應行為,無論是無地圖的室內無人機、混亂環境的移動操作機械人,甚至是崎嶇地形的多足機械人。透過視覺反饋學習,系統能建立自身運動和動態的內部模型,實現靈活且自我監督的操作。」

雖然現階段NJF訓練需多攝影機且須針對每個機械人重做,但研究團隊已構想更普及的版本。未來業餘愛好者可用手機錄製機械人隨機動作,就像租車前拍攝影片一樣,無需先驗知識或特別設備,即可建立控制模型。

目前系統尚未能跨機械人通用,也缺乏力覺或觸覺感應,限制了接觸豐富任務的效能。團隊正積極探索改進方法,包括提升泛化能力、處理遮擋及延伸模型在更長時空範圍的推理能力。

李思哲總結:「如同人類對自身動作和反應的直覺理解,NJF讓機械人透過視覺單獨獲得這種身體自覺。這種理解是實現靈活操作和控制的基礎。我們的工作反映了機械人領域的一個大趨勢:由手動編程詳盡模型,轉向通過觀察和互動教導機械人。」

這篇論文結合了Sitzmann實驗室的計算機視覺與自監督學習技術,以及Rus實驗室在軟機械人方面的專長。李思哲、Sitzmann與Rus與CSAIL成員張安南、陳博遠、機械工程本科生Hanna Matusik及MIT感知城市實驗室博士後劉超共同撰寫。研究由MIT研究支持委員會的Solomon Buchsbaum研究基金、MIT總統獎學金、美國國家科學基金會及光州科學技術院資助。

編輯評論與啟示

MIT這項突破性的NJF技術,真正挑戰了機械人控制的傳統思維。過往機械人設計與控制常被剛性結構和感應器限制,導致成本高昂且靈活性不足。NJF透過純視覺學習,讓機械人自主認識自己,猶如人類嬰兒學習身體動作般自然,這不僅降低了硬件依賴,更大幅擴寬了機械人設計的自由度。

對香港及全球機械人產業而言,這種技術有潛力推動軟性機械人、仿生機械人及更普及化的機械人應用,尤其是在農業、物流及建築等多變且複雜的環境。想像未來農夫用手機輕鬆「教」農機人如何操作,或工地上機械人不需昂貴感應器即可完成複雜任務,將大幅減低入門門檻和成本。

當然,目前NJF仍有不足,如缺乏觸覺及力覺感應,限制了與環境的深度交互,但這些挑戰正是未來研究的方向。更長遠看,若能結合多模態感知(視覺、觸覺、力覺)及強化學習,機械人將更接近真正的「自主體」,具備適應多變環境的能力。

從社會角度,NJF反映人工智能與機械人技術正逐步由封閉專業領域,走向更開放、民主化的趨勢。這為教育、創客文化及中小企業帶來新的契機,但同時也提醒我們須同步思考倫理、安全及就業影響。

總括而言,MIT的NJF技術不僅是機械人控制的技術革新,更代表了機械人智能化與普及化的一大步,值得業界及學界密切關注與投入。

以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
Use the original face exactly as it is, without changing a details. A striking, high-fashion editorial portrait of a white -skinned model, captured outdoors with a bright, sunny, slightly hazy ambiance reminiscent of the late 1980s or early 1990s.
Model and Styling
• Model: A female model with elegant features and dark, curly hair, posed looking over her shoulder towards the camera. Her expression is confident and alluring.
• Outfit: She is wearing a two-piece outfit (or a playsuit/romper) entirely covered in black and white polka dots.
• Top: A loose, long-sleeved shirt, worn off one shoulder, showcasing the neckline. The polka dots on the shirt appear slightly smaller and more uniform.
• Bottom: Matching shorts or a skirt with a tight, fitted silhouette, emphasizing her figure. The polka dots here appear slightly denser.
• Hat: A defining accessory—a dramatically oversized sun hat with a wide, floppy brim. The crown is white, and the large, voluminous brim is patterned with large black and white polka dots, cascading down. A black fabric tie/ribbon is visible around the crown.
• Accessories: Large, circular or crescent-shaped gold earrings dangle from her ears.
Lighting and Setting
• Lighting: Natural, bright, direct sunlight creating a warm, sun-kissed, and slightly nostalgic aesthetic. The overall color palette leans towards desaturated pastels and warm creamy whites.
• Setting: She is positioned on a rooftop, terrace, or balcony, with a hazy, mountainous or coastal landscape visible in the blurred background. The background is predominantly soft blues and pale purples, suggesting a distant view over a city or ocean.
• Composition: A vertical, full-body to three-quarter shot. The model is the central focus, framed against the soft background.
Keywords/Style
• Style: High Fashion, Editorial, Retro, 90s Fashion, Resort Wear, Glamorous, Iconic.
• Vibe: Sophisticated, Sunny, Vacation Chic, Bold Pattern. Replace the words in the bottom by ‘tantamount Deco’ 一隻在香港茶餐廳喝奶茶的貓

🎬 YouTube Premium 家庭 Plan成員一位 只需 HK$148/年

不用提供密碼、不用VPN、無需轉區
直接升級你的香港帳號 ➜ 即享 YouTube + YouTube Music 無廣告播放

立即升級 🔗