點(diǎn)圖驅(qū)動(dòng)的自監(jiān)督3D場(chǎng)景理解模型POMA-3D:打通2D先驗(yàn)與3D幾何的高效路徑
摘要:3D 場(chǎng)景理解是 AR、具身智能的核心,但現(xiàn)有方法面臨數(shù)據(jù)稀缺、2D 到 3D 知識(shí)遷移困難、多視圖特征不一致等問題。POMA-3D 以點(diǎn)圖為中間模態(tài),既保留 3D 幾何信息,又兼容 2D 基礎(chǔ)模型輸入格式,通過創(chuàng)新訓(xùn)練目標(biāo)實(shí)現(xiàn)高效自監(jiān)督學(xué)習(xí),為 3D 場(chǎng)景理解提供了新范式。
參照原著:《POMA-3D: The Point Map Way to 3D Scene Understanding》
