VLM驅動的零樣本抓取檢測框架VLAD-Grasp:無需訓練數據,Cornell數據集成功率達91.43%,適配未知物體與真實場景。
摘要:美國作戰能力發展司令部&普渡大學聯合研發的一種無需任務特定訓練與標注數據的零樣本抓取檢測框架VLAD-Grasp《VLAD-Grasp: Zero-shot Grasp Detection via Vision-Language Models》:通過引導視覺語言模型(VLM)生成 “桿貫穿物體” 的目標圖像,將抓取意圖編碼為對極抓取軸,再經 3D 點云對齊與抓取投影,從單張 RGB-D 圖像中恢復可執行的 6DoF 抓取姿態。該框架在 Cornell 數據集上達成 91.43% 成功率,超 SOTA 監督模型 5%,在 Jacquard 數據集上達 85.43%,且成功部署于 Franka 機器人實現真實世界未知物體抓取,徹底解決傳統方法依賴標注、泛化能力差的痛點。
