MIT創新技術:用陰影重建3D場景

Ai




研究人員利用陰影來建模3D場景,包括被遮擋的物體

這項技術有望提升自動駕駛車輛的安全性、更高效的AR/VR頭戴設備或更快速的倉庫機器人。

亞當·澤威 | MIT新聞
發布日期:2024年6月18日

想像一下,當你駕駛自動駕駛車輛通過隧道時,前方突然發生了一場車禍,導致交通堵塞。通常,你需要依賴前車來告知你應該開始減速,但如果你的車輛能夠看到前車之外的情況並提前剎車,會怎樣呢?

來自麻省理工學院(MIT)和Meta的研究人員開發了一種計算機視覺技術,有朝一日可以讓自動駕駛車輛達到這樣的效果。

他們提出了一種方法,利用來自單個攝像機位置的圖像來創建整個場景的物理準確的3D模型,包括被遮擋的區域。他們的技術使用陰影來確定場景中被遮擋部分的情況。

他們將這種方法稱為PlatoNeRF,這是基於柏拉圖的洞穴寓言,這段寓言來自這位希臘哲學家的《理想國》,講述了被鎖鏈困在洞穴中的囚犯根據投射在洞穴牆上的陰影來辨識外界現實。

通過將激光雷達(光檢測和測距技術)與機器學習相結合,PlatoNeRF可以比現有的一些人工智能技術生成更準確的3D幾何重建。此外,PlatoNeRF在陰影難以看清的場景中,例如具有高環境光或暗背景的場景中,也能更平滑地重建場景。

除了提高自動駕駛車輛的安全性,PlatoNeRF還可以通過讓用戶在不需要四處測量的情況下建模房間的幾何形狀,使AR/VR頭戴設備更加高效。它還可以幫助倉庫機器人更快地在雜亂的環境中找到物品。

“我們的關鍵想法是將這兩種在不同學科中已有的技術結合起來——多次反彈激光雷達和機器學習。事實證明,當你將這兩者結合起來時,會找到許多新的探索機會,並獲得兩者的最佳效果,”MIT媒體藝術與科學研究生、MIT媒體實驗室攝影機文化小組的研究助理、PlatoNeRF論文的首席作者Tzofi Klinghoffer說。

Klinghoffer與他的導師Ramesh Raskar(MIT媒體藝術與科學副教授兼攝影機文化小組負責人)、Meta Reality Labs人工智能研究主管兼論文主作者Rakesh Ranjan,以及攝影機文化小組的研究助理Siddharth Somasundaram和Meta的Xiaoyu Xiang、Yuchen Fan和Christian Richardt共同撰寫了這篇論文。這項研究將在計算機視覺與模式識別會議上展示。

從一個攝像機視角重建完整的3D場景是一個複雜的問題。

一些機器學習方法使用生成式AI模型來猜測被遮擋區域中的物體,但這些模型可能會出現幻覺,生成實際上不存在的物體。其他方法則試圖使用彩色圖像中陰影來推斷隱藏物體的形狀,但當陰影難以看清時,這些方法會遇到困難。

對於PlatoNeRF,MIT的研究人員基於這些方法,使用了一種新型傳感技術,稱為單光子激光雷達。激光雷達通過發射光脈衝並測量光返回到傳感器的時間來繪製3D場景。由於單光子激光雷達可以檢測到單個光子,它們提供了更高分辨率的數據。

研究人員使用單光子激光雷達來照亮場景中的目標點。部分光線從該點反射並直接返回傳感器。然而,大部分光線會散射並在返回傳感器之前反射到其他物體上。PlatoNeRF依賴於這些次級反射光。

通過計算光線兩次反射並返回激光雷達傳感器所需的時間,PlatoNeRF捕捉了場景的額外信息,包括深度。次級反射光還包含了關於陰影的信息。

該系統追踪次級光線——那些從目標點反射到場景其他點的光線——以確定哪些點處於陰影中(由於光的缺失)。根據這些陰影的位置,PlatoNeRF可以推斷隱藏物體的幾何形狀。

激光雷達依次照亮16個點,捕捉多個圖像,這些圖像用於重建整個3D場景。

“每次我們照亮場景中的一個點時,我們都在創造新的陰影。由於我們有這麼多不同的照明源,我們有很多光線在場景中射來射去,因此我們正在雕刻出被遮擋且超出可見眼睛範圍的區域,”Klinghoffer說。

成功的組合

PlatoNeRF的關鍵在於將多次反彈激光雷達與一種特殊的機器學習模型——神經輻射場(NeRF)結合起來。NeRF將場景的幾何形狀編碼到神經網絡的權重中,這給模型帶來了強大的插值能力,即估算場景的新視圖的能力。

這種插值能力結合多次反彈激光雷達,導致場景重建的高度準確性,Klinghoffer說。

“最大的挑戰是如何將這兩者結合起來。我們真的需要考慮光線在多次反彈激光雷達中的傳輸物理學,並如何用機器學習來建模這一點,”他說。

他們將PlatoNeRF與兩種常見的替代方法進行了比較,一種僅使用激光雷達,另一種僅使用彩色圖像的NeRF。

他們發現,特別是在激光雷達傳感器分辨率較低的情況下,他們的方法能夠超越這兩種技術。這使得他們的方法更實際地應用於現實世界中,因為低分辨率傳感器在商用設備中很常見。

“大約15年前,我們小組發明了第一台可以‘看’到拐角處的攝像機,它通過利用光的多次反彈或‘光的回聲’來工作。這些技術使用了特殊的激光器和傳感器,並使用了三次光反彈。自那以來,激光雷達技術變得更加主流,這促使我們研究能夠透過霧氣看到的攝像機。這項新工作僅使用了兩次光反彈,這意味著信噪比非常高,3D重建質量令人印象深刻,”Raskar說。

未來,研究人員希望嘗試追踪超過兩次光反彈,以查看這將如何改進場景重建。此外,他們對應用更多的深度學習技術並將PlatoNeRF與彩色圖像測量結合起來以捕捉紋理信息感興趣。

“雖然陰影的攝像機圖像長期以來一直被研究用於3D重建,但這項工作在激光雷達的背景下重新審視了這個問題,顯示了隱藏幾何結構重建精度的顯著改進。這項工作展示了當與普通傳感器結合時,聰明的算法如何能夠實現非凡的能力——包括許多人現在隨身攜帶的激光雷達系統,”多倫多大學計算機科學系助理教授David Lindell說,他並未參與這項工作。

編者評論:

這篇文章展示了MIT和Meta的研究人員如何運用創新技術,將激光雷達和機器學習結合起來,實現了3D場景的重建。這項研究的意義非凡,因為它不僅僅是技術上的突破,更是對未來自動駕駛、AR/VR和倉庫機器人等多個領域帶來潛在的變革。

首先,這項技術對於自動駕駛車輛的安全性提升具有重大意義。能夠提前探測到前方被遮擋的物體,無疑可以大幅減少交通事故的發生,提高道路安全。此外,這項技術也可以應用在AR/VR設備上,使其更加高效和實用,用戶無需四處測量即可建模房間的幾何形狀,這對於虛擬現實的沉浸感提升具有重要作用。

其次,這項研究展示了多學科交叉的重要性。通過將激光雷達和機器學習這兩種不同領域的技術結合,研究人員發現了新的探索機會,這啟發我們在其他領域也可以嘗試類似的跨學科合作,尋找新的突破點。

然而,這項技術在實際應用中仍然面臨一些挑戰。例如,如何進一步提高系統的分辨率和精度,以及如何在不同光照條件下保持穩定的性能,這些都是需要解決的問題。未來,研究人員可以考慮追踪更多次的光反彈,進一步改進場景重建的精度,同時結合更多的深度學習技術,捕捉更豐富的紋理信息。

總的來說,這項研究為我們展示了一個令人興奮的未來,通過創新技術的應用,我們可以更好地理解和重建我們周圍的世界,並將其應用於多個領域,帶來實際的社會和經濟效益。

以上文章由特價GPT API KEY所翻譯

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

🎨 Nano Banana Pro 圖像生成器|打幾句說話就出圖

想畫人像、產品圖、插畫?SSFuture 圖像生成器支援 Flux Gemini Nano Banana Pro 改圖 / 合成, 打廣東話都得,仲可以沿用上一張圖繼續微調。

🆓 Flux 模型即玩,不用登入
🤖 登入後解鎖 Gemini 改圖
📷 支援上載參考圖再生成
⚡ 每天免費額度任你玩
✨ 即刻玩 AI 畫圖
The person from the reference photo ( keep the face of the person 100% accurate from the reference image ) relaxing on a fluffy, glowing cloud high above the sky, surrounded by soft golden sunlight and vast layers of clouds stretching to the horizon. the person is lying back comfortably with a pillow, wearing a dark long-sleeve shirt, olive green pants, holding a book in one hand and a coffee cup in the other. the lighting is cinematic and warm, capturing the golden hour ambiance with radiant highlights and gentle shadows across the clouds. captured with a wide-angle lens at medium depth of field, balancing focus between the subject and the surrounding dreamy sky. the overall atmosphere is surreal and serene, blending realism with fantasy in a peaceful, imaginative setting. Edit the uploaded photo (face based on the reference photo). Ensure the face remains consistent with the person in the uploaded image, without changing facial structure, skin tone . Create a Create an 8K ultra-realistic image of a jpyful woman dancing and celebrating in the rain outdoors. She has a big smile on her face, eyes closed with happiness. She is wearing a floral sleeveless dress with a fitted waist and a short, flowy skirt. She has a simple gold necklace and her dark hair is tied back. Her arms are raised, one hand higher than the other, and she is barefoot, standing on wet ground with her toes touching the surface. The background is blurred with dark green trees, emphasizing her joyful expression and movement. The rain is falling steadily around her, creating a lively and vibrant atmosphere. Using a Canon EOS R camera with a 50mm f/1.8 lens, f/2.2 aperture, shutter speed 1/200s, ISO 100 and natural light, Full Body, Hyper Realistic Photography, Cinematic, Cinema, Hyper detail, Ultra hd, Color Correction, ultra hd, hdr , color grading, 8k. 上身近鏡