視覺-語言模型中的空間智能抽象3D感知框架SandboxVLM:零樣本提升8.3%,突破2D-3D模態鴻溝
SandboxVLM 抽象 3D 感知框架:零樣本提升 VLM 空間推理 8.3%,適配 GPT-4o/Gemini,具身智能 / 機器人場景適用。
物體中心槽位記憶驅動的機器人操作框架Embodied-SlotSSM:LIBERO-Mem 基準突破非馬爾可夫場景,成功率提升20%+
Embodied-SlotSSM 機器人操作框架:LIBERO-Mem 非馬爾可夫基準,物體中心槽位記憶,成功率提升 20%+,適配工業 / 家庭服務場景。
首個聚焦多無人機協同具身感知與推理的綜合基準AirCopBench:14.6k問題覆蓋四大維度,40個MLLM評估揭示24.38%性能差距
AirCopBench 多無人機協同基準:14.6k 問題覆蓋 4 大維度,評估 40 個 MLLM,揭示 24.38% 人類差距,支持模擬到真實遷移。
具身視覺查詢定位框架EAGLE:外觀感知元學習記憶AMM+幾何感知定位記憶GLM雙驅動,2D-3D統一定位,性能超同類
EAGLE 視覺查詢定位框架:外觀 - 幾何雙記憶,2D-3D 統一定位,Ego4D-VQ 基準 tAP25 達 0.47,超 SOTA 性能。
零樣本物體導航框架:鏈式思維+動態動作歷史記憶+頂視地圖解析
零樣本物體導航框架:VLM 鏈式思維 + 動作記憶,HM3D 成功率 54.3%,超 SOTA,適配智能家居 / 工業巡檢。
具身視覺導航框架SCOPE:語義認知+勢能探索,零樣本場景準確率提升4.6%,長程規劃魯棒性顯著增強
SCOPE 具身視覺導航框架:零樣本場景準確率提升 4.6%,語義認知 + 勢能探索,適配智能家居 / 災害響應 / 深空探索。
測試驅動強化學習框架TdRL:告別手動獎勵設計,多目標連續控制性能提升超13%
TdRL 測試驅動強化學習框架:替代獎勵函數,多目標連續控制達標率提升 13%+,適配機器人 / 自動駕駛,DeepMind 基準性能超傳統 RL。
軌跡優化驅動的硬約束流匹配采樣框架HardFlow:無訓練引導,約束滿足率100%,多領域誤差降52.8%
HardFlow :軌跡優化 + MPC 分解,約束滿足率 100%,無訓練引導,適配機器人 / 圖像編輯 / PDE 控制。
可微分高斯渲染驅動的多視角3D人體姿態估計框架SkelSplat:無3D標注,抗遮擋MPJPE34.8mm,跨數據集誤差降47.8%
SkelSplat 多視角 3D 人體姿態估計:可微分高斯渲染 + 單熱編碼,無 3D 標注,抗遮擋 MPJPE 34.8mm,跨數據集誤差降 47.8%。
跨平臺慣性里程計框架X-IONet:雙階段注意力+專家選擇,人類/四足機器人定位誤差降低14.3%-52.8%
X-IONet 跨平臺慣性里程計:雙階段注意力 + 專家選擇 + EKF 融合,人類 / 四足機器人 ATE 降低 14.3%-52.8%,單 IMU 實時定位。
拓撲對齊圖驅動的機器人配置估計框架RoboTAG:2D+3D雙分支融合,無標注訓練,平均AUC76.9% 超基線1.2%
RoboTAG 機器人配置估計框架:2D-3D 拓撲對齊圖 + 閉環監督,無標注訓練,平均 AUC 76.9%,推理 35ms,適配多機器人類型。
無動作標簽視頻驅動的機器人控制框架ViPRA:潛行動作+流匹配,高頻控制達22Hz,仿真/真實任務性能提升13%-16%
ViPRA 無動作標簽機器人控制框架:潛行動作 + 流匹配,22Hz 高頻控制,仿真 / 真實任務提升 13%-16%,適配單 / 雙臂操縱。
Physical AI基礎理論:六大核心原則構建具身智能新范式,從物理交互到道德責任,賦能機器人/康復/工業場景
Physical AI 六大核心原則:具身性 / 感知 / 運動 / 學習 / 自主 / 情境敏感性,構建具身智能閉環,仿真能量損失降 52%,賦能康復 / 工業 / 護理場景。
記憶增強的視覺-語言-動作模型MAP-VLA:長程機器人操縱成功率提升25%,仿真超基線7.0%
MAP-VLA 記憶增強 VLA 模型:長程機器人操縱成功率提升 25%,仿真 83.4% 超基線 7.0%,輕量插件、抗干擾、少樣本泛化。
語義+幾何雙驅動的功能型抓取生成框架IFG:VLM 指導+力閉合優化,雜亂場景成功率32.23%
IFG 功能型抓取生成框架:VLM 語義指導 + 力閉合優化,無手動數據,雜亂場景成功率 32.23%,適配機器人靈巧抓取 / 雜亂環境 / 日常物體操作。
物理驅動的靈巧重定向框架SPIDER:退火采樣+接觸引導,人類運動轉機器人軌跡成功率提升18%
SPIDER 物理重定向框架:退火采樣 + 虛擬接觸引導,人類運動轉機器人軌跡成功率提升 18%,快 10 倍,適配靈巧操作 / 人形機器人 / RL 訓練。
人機協作HRC核心技術綜述:直觀編程+自適應規劃+動態角色分配,構建雙向協同新范式
人機協作(HRC)、直觀編程、自適應任務規劃、動態角色分配、多模態交互、雙向信息流動
SE (3) 流形上的類別級鉸接物體姿態跟蹤框架PPF-Tracker:加權PPF+運動學約束,旋轉誤差降低60%
PPF-Tracker 類別級鉸接物體姿態跟蹤框架:SE (3) 流形 + 加權 PPF + 運動學約束,旋轉誤差降低 60%,推理 0.07s / 幀,適配機器人 / AR/VR。
3D人體姿態融合的穩健動作識別框架GroundActRec:跨注意力機制賦能,高遮擋場景準確率提升6.79%
動作識別框架GroundActRec:3D 人體姿態 + 視覺上下文融合,跨注意力機制,InHARD 準確率 83.47%,高遮擋場景提升 6.79%,適配工業機器人 / 輔助技術。
VLM 閉環符號規劃器:控制理論視角的機器人應用優化,熱啟動提升28.2%,閉環目標達成率超開環21.7%
VLM 機器人閉環符號規劃優化:控制理論視角,熱啟動提升 28.2%,閉環目標達成率超開環 21.7%,適配長程操縱 / 服務機器人 / 工業裝配。
大規模視覺推理鏈蒸餾框架Long Grounded Thoughts:1M+數據驅動,跨模態遷移提升超4%,VLM視覺推理超 SOTA
摘要:英偉達&多倫多大學&滑鐵盧大學&加州大學圣地亞哥分校聯合研發的大規模視覺推理鏈蒸餾框架Long Grounded Thoughts(LGT)《Long G
專為長程機器人操縱設計的統一學習的具身視覺-語言規劃框架EVLP:動態預訓練+強化監督微調,長程任務成功率79.4%,單步生成超高效,適配服務機器人/工業制造。
EVLP 具身視覺 - 語言規劃框架:動態預訓練 + 強化監督微調,長程任務成功率 79.4%,單步生成超高效,適配服務機器人 / 工業制造。
VLM驅動的零樣本抓取檢測框架VLAD-Grasp:無需訓練數據,Cornell數據集成功率達91.43%,適配未知物體與真實場景。
零樣本抓取檢測框架VLAD-Grasp:VLM生成+3D點云對齊,Cornell成功率91.43%,無需訓練數據,適配未知物體與真實場景。
開放詞匯移動操作的零樣本基座放置框架:功能引導粗到細探索,跨模態語義-幾何融合,任務成功率85%,適配開柜子/物品放置等零樣本場景
開放詞匯移動操作基座放置框架:功能引導粗到細探索,跨模態語義 - 幾何融合,任務成功率 85%,適配開柜子 / 物品放置等零樣本場景。
在CPU受限的邊緣機器人上進行高效視覺-語言-動作控制的框架Lite VLA:4位NF4量化+LoRA微調,實現無GPU依賴的本地端到端推理與控制
LiteVLA 邊緣機器人 VLA 框架:4 位 NF4 量化 + LoRA 微調,樹莓派 4 無 GPU 推理延遲 2 分鐘,內存占用降 75%,適配服務機器人 / 災后救援。
推動視覺-語言-動作VLA模型未來的10大開放挑戰與新興趨勢:賦能具身智能落地
本文深入解析視覺 - 語言 - 動作(VLA)模型的 10 大開放挑戰與新興技術趨勢,涵蓋多模態感知、跨機器人泛化、安全保障等核心方向,為具身 AI 落地提供關鍵研究指引,助力機器人技術突破應用瓶頸。
用于未知鉸接關節物體跟蹤與操縱的視覺-觸覺融合框架ArtReg:跟蹤誤差<1.5cm,復雜場景操作成功率穩達90%+
視覺-觸覺鉸接物體操縱框架ArtReg:SE (3) 李群 UKF 跟蹤,未知旋轉 / 移動關節檢測,跟蹤誤差 < 1.5cm,復雜場景操縱誤差 < 4cm,基準精度超 SOTA 60%
VLA高效繼承VLM先驗的關鍵方案:GrinningFace診斷基準+協同訓練,避免災難性遺忘,適配通用的機器人控制。
VLA繼承VLM先驗方案:GrinningFace診斷基準+協同訓練,表情符號識別率提升140%,真實機器人識別率86.7%,避免災難性遺忘,適配通用機器人控制。
半分布式跨模態空地相對定位框架:厘米級定位精度、低帶寬需求與異構適配能力,賦能GPS受限環境下的空地協同
半分布式跨模態空地相對定位框架:解耦式 SLAM + 雙階段優化,通信帶寬≤0.3Mbps,平移誤差 0.004m,支持異構傳感器,初始無公共視場也能穩定工作,適配 GPS 受限協同場景。
全球首個語言指令機器人規劃的保形感知微調框架CoFineLLM:解決語言指令機器人規劃中LLM過度自信、預測集過大的痛點,大幅降低人類干預率
CoFineLLM 語言指令機器人規劃框架:LLM 保形微調 + 雙目標損失函數,幫助率降低 23.67%,OOD 場景干預率降 48.67%,覆蓋度穩達 95%,適配自主規劃任務。
軟體機器人控制的快速學習策略框架:DISMECH隱式時間步長+Delta曲率控制,訓練速度提升22倍且精度無損
軟體機器人控制的快速學習策略框架:DISMECH 隱式模擬器 + Delta 自然曲率控制,訓練速度提升 22 倍,接觸場景并行步長提速 40 倍,sim-to-sim 精度無損,適配柔性操作 / 障礙物規避。
機器人操作框架PhysWorld:首次實現生成視頻到機器人動作的物理落地,真實場景成功率82%
PhysWorld 機器人操作框架:視頻生成 + 物理世界建模 + 目標中心殘差 RL,零樣本泛化,真實場景成功率 82%,適配擦白板 / 澆花 / 物品投放等任務。
工業零件抓取新方案:SAGRNet點云補全+骨架引導,遮擋場景成功率達78%
工業零件抓取方法:SAGRNet 對稱感知點云補全 + 骨架引導姿態生成,遮擋場景抓取成功率 78%,點云補全 CD 降低 22.4%,適配管道零件 / 堆疊場景,工業自動化專用。
5G+AI驅動多機器人混合決策框架:Faster-RCNN-Pose統一感知, latency-aware協調實現高效協作
多機器人混合決策框架:Faster-RCNN-Pose 統一檢測與 6-DoF 姿態估計,5G-MQTT 低延遲通信,latency-aware 協調,動態環境任務完成率 95%+,適配搜救 / 工業 / 農業場景。
無地圖非平整地形機器人路徑規劃算法A3D:SS-Map驅動+穩定性約束,導航魯棒性與效率雙突破
無地圖非平整地形機器人路徑規劃算法Agoraphilic-3D(A3D):基于 SS-Map 方形扇區圖、DBSCAN 遮擋濾波、穩定性約束評估,路徑長度比傳統算法短 15%-20%,目標可達率 100%,適配搜救 / 農業 / 探索場景,實時性與魯棒性雙優。
工業非視距場景定位突破:PosGNN多模態圖神經網絡融合架構的高精度實現與驗證
該架構為智能工廠 AGV 調度、工業機器人協同等場景提供了工程化的定位技術支撐,尤其在障礙物密集、錨點配置受限的復雜工業環境中,展現出顯著的性能優勢與應用價值。隨著模型輕量化與跨模態融合的持續優化,其有望成為工業室內定位的標準化技術方案。
多臂機器人調度框架ScheduleStream:GPU加速并行規劃,并行操作讓任務完成時間減半,真實場景成功率99%
多臂機器人調度框架ScheduleStream:GPU 加速并行規劃,并行操作讓任務完成時間減半,真實場景成功率99%,支持工業裝配/服務機器人多場景。
6軸機械臂低成本開源VLA方案EveryDayVLA
6軸機械臂低成本VLA方案EveryDayVLA:6-DOF機械臂$300,in-distribution成功率提升49%,OOD泛化超34%,實時響應108Hz,開源數據集支持快速微調
多模態擴散框架MDF:統一機器人策略/規劃/異常檢測,讓機器人多模態操作更穩、更靈活,完美適配接觸豐富的工業與服務機器人場景
多模態擴散框架MDF:統一機器人策略/規劃/異常檢測,模擬任務成功率達100%,真實場景超DP3 26%,噪聲下魯棒性領先70%。
跨模態機器人學習框架X-Diffusion:人類演示數據直接訓練機器人擴散策略,5大任務成功率提升16%,無需手動篩選數據
跨模態機器人學習框架X-Diffusion:人類演示直接訓練擴散策略,帶噪動作分類器避免動作不可行,5任務成功率提升16%,無需手動篩選數據。
用于神經形態邊緣人工智能應用的開源憶阻器接口和計算板OpenMENA:能耗低、部署易,機器人避障RMSE僅8.7
開源憶阻器接口和計算板OpenMENA:全棧開源、VIPI 權重編程、芯片在環微調,邊緣 AI 能耗低,機器人避障 RMSE 8.7,數字分類準確率提升 19%。
輕量化VLA模型Evo-1:0.77B參數碾壓3.5B模型!無機器人預訓練也能SOTA,實時部署僅需2.3GB顯存
輕量化VLA模型Evo-1:0.77B參數,無機器人預訓練,Meta-World 80.6% SOTA,真實世界成功率78%,16.4Hz推理僅需2.3GB顯存。
軟物體交互仿真技術研究:高斯濺射+PhysTwin虛實轉換框架,策略評估相關性r>0.9,真實世界預測 100% 靠譜
高斯濺射虛實轉換機器人策略評估框架:PhysTwin軟物體數字孿生+雙對齊技術,仿真與真實成功率相關性r>0.9,覆蓋玩具打包/繩子路由任務,軟物體動力學1:1還原,成本降低80%。
用于具身大語言模型的多智能體協作框架研究DR.WELL:基于符號世界模型的動態推理與學習,任務完成率100%,步驟減少30%
用于具身大語言模型的多智能體協作框架DR.WELL:兩階段協商+動態符號世界模型,任務完成率100%,執行步驟減少30%,適配自動駕駛、機器人協作。
3D高斯指代分割R3DGS多視圖不跑偏的框架研究CaRF:相機感知+雙視圖監督,mIoU最高提升16.8%, artifacts減少50%
增強多視角一致性的3D高斯指代分割框架CaRF:相機感知編碼+雙視圖監督,多視圖一致性提升50%,Ref-LERF mIoU提升16.8%,適配具身智能和AR/VR。
人機交互中多用戶偏好沖突解決框架MUP-QBAF:利用定量雙極論證框架讓機器人“公平仲裁”,動態適配偏好不跑偏
多用戶偏好沖突解決框架MUP-QBAF:量化雙極論證 + 動態適應,老年人體弱評估場景決策準確率 96.7%,透明可解釋,適配 HRI 多用戶沖突。
協作機器人進行紙張包裝的統一控制策略START:讓紙張包裝成功率97%,不撕紙、無折皺
START 機器人紙張包裝框架:LLM 任務規劃 + 殘差 RL 力控,97.3% 成功率,PIS 0.96,適配倉儲零售包裝,解決變形物體操作難題。
受限環境中多目標順序和引導操作的重排規劃框架MO-SeGMan:動作少50%,14任務成功率100%,雜亂場景秒適配
受限環境中多目標順序和引導操作的重排規劃框架MO-SeGMan:多目標優化+SGFS算法,約束環境中14 項任務成功率100%,動作減少50%,碾壓SeGMan等基線方法,雜亂場景秒適配。
