StereoAnything:一個高度實用的AI解決方案,用於穩健的立體匹配
隨著基礎模型在物體識別、圖像分割和單眼深度估計等領域的發展,計算機視覺正在經歷一場革命。這些模型在各種下游任務中展現出強大的零樣本和少樣本性能。立體匹配對於機器人、自動駕駛汽車和增強現實等領域至關重要,因為它有助於感知深度和創建場景的3D視圖。然而,由於獲取準確的視差真實數據(GT數據)的困難,基礎模型在立體匹配中的探索仍然有限。雖然存在許多立體數據集,但有效使用這些數據集進行訓練卻很困難。此外,即使將這些標註數據集結合在一起,也無法訓練出理想的基礎模型。
目前,“從單眼圖像生成立體圖像”是主要的研究方向,專注於直接從單幅圖像生成立體圖像對和視差圖,以應對這些挑戰。然而,這種方法僅生成了50萬個數據樣本,這與訓練穩健基礎模型所需的規模相比相對較低。儘管這項工作代表了減少對昂貴立體數據收集依賴的重要一步,但生成的數據集仍不足以構建能夠在多樣的現實條件下良好概括的大型模型。早期的立體匹配方法主要依賴手工製作的特徵,但隨後轉向基於CNN的模型,如GCNet和PSMNet,通過3D成本聚合等技術提高了準確性。視頻立體匹配利用時間數據以維持一致性,但在概括方面遇到困難。跨域方法通過使用無監督適應和對比學習等技術學習域不變特徵來解決此問題,如RAFT–Stereo和FormerStereo模型所示。
來自武漢大學計算機科學學院、西安交通大學人工智能與機器人研究所、Waytous、博洛尼亞大學、Rock Universe、中國科學院自動化研究所和加州大學伯克利分校的研究團隊進行了詳細研究,以克服這些問題,並提出了StereoAnything,這是一個專為立體匹配而開發的基礎模型,旨在為任何配對的立體圖像生成高質量的視差估計,無論場景多麼複雜或環境條件多麼具有挑戰性。它旨在使用大規模混合數據訓練穩健的立體網絡,主要由四個組件組成:特徵提取、成本構建、成本聚合和視差回歸。
為了改善概括能力,使用了無深度歸一化的監督立體數據,因為立體匹配依賴於尺度信息。訓練始於單一數據集,並結合了排名靠前的數據集以提高穩健性。對於單幅圖像學習,單眼深度模型預測的深度轉換為視差圖,通過前向扭曲生成逼真的立體圖像對。遮擋和空隙則通過從數據集中其他圖像中提取的紋理進行填充。
實驗顯示,使用OpenStereo和NMRF-Stereo基準進行StereoAnything框架的評估,並使用Swin Transformer進行特徵提取。訓練使用AdamW優化器、OneCycleLR調度,並在標註的混合和偽標註數據集上進行微調,並進行數據增強。對KITTI、Middlebury、ETH3D和DrivingStereo的測試顯示,StereoAnything顯著減少了誤差,其中NMRF-Stereo-SwinT將平均誤差從18.11降低到5.01。對StereoCarla進行微調後,在更多樣化的數據集上達到了最佳的平均指標8.52%。這顯示了數據集多樣性對立體匹配性能的重要性。
在結果方面,StereoAnything在室內和室外場景中展現出強大的穩健性。這種方法持續提供的視差圖比NMRF-Stereo-SwinT模式更為準確。因此,這種方法展示了強大的概括能力,並在多個視覺和環境差異的領域中表現更佳。
可以安全地得出結論,StereoAnything為穩健的立體匹配提供了一個非常有用的解決方案。新的人工數據集StereoCarla被用來更好地在不同場景中進行概括並提高性能。此外,還研究了使用單眼深度估計模型生成的標註立體數據集和偽立體數據集的有效性。在性能方面,StereoAnything在各種基準和現實場景中實現了競爭性的表現。這些結果顯示了混合訓練策略的潛力,包括利用多樣數據來源來增強立體模型的穩健性,並可作為未來改進和研究的基線!
這篇文章反映了在人工智慧領域的持續創新,特別是在立體匹配技術的發展上。隨著研究人員不斷探索和克服目前的挑戰,未來可能會出現更多的應用場景,這將對自動駕駛、增強現實等技術的發展產生深遠影響。值得注意的是,如何平衡數據集的多樣性與模型的訓練效率將是未來研究的重要方向之一。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。