Copyright 2018-2025 汽車星 版權所有 京ICP備2019162790號
Meta開源DepthLM,首證視覺語言模型無需改架構即可媲美純視覺模型的3D理解能力。通過視覺提示、稀疏標注等創新策略,DepthLM精準完成像素級深度估計等任務,解鎖VLM多任務處理潛力,為自動駕駛、機器人等領域帶來巨大前景。
在當前多模態AI發展浪潮中,視覺語言模型(Vision Language Models, VLMs)因其能通過「看圖 + 文字交互」處理多樣任務而備受關注。
然而,盡管在語義理解、視覺問答、圖像指令等任務上表現優異,它們在從 2D 圖像理解 3D 空間結構方面仍顯薄弱。相比之下,純視覺模型(pure vision models)在 絕對深度估計(metric depth estimation) 等三維理解任務上,憑借專門設計的網絡結構與損失函數,早已達到了超越人類的精度。
這就帶來了一個核心問題:「視覺語言模型是否有可能不更改其標準架構及訓練loss,實現與純視覺模型同等級別的3D理解能力?」
Meta開源了一項突破性研究工作DepthLM,首次證明了該問題的答案是肯定的!
DepthLM首次證明了語言模型也能準確理解三維空間,并且比專家視覺模型具有更好的靈活性及泛化性。
DepthLM證明了,在無需改動架構的前提下,就能讓視覺語言模型(VLM) 在像素級「絕對深度估計」等三維視覺任務上達到與純視覺模型相媲美的水平。
在此之前,即便是最先進的VLM如GPT-5和Gemini2.5-Pro等,在絕對深度估計上均遠遠落后于純視覺模型。