基于多視圖軌跡視頻的高一致性具身世界模型MTV-World: 賦能精準(zhǔn)機器人操縱預(yù)測
摘要:具身世界模型作為物理世界的預(yù)測模擬器,能夠基于當(dāng)前觀測與規(guī)劃動作預(yù)測未來結(jié)果,在機器人政策學(xué)習(xí)的數(shù)據(jù)生成與安全評估中發(fā)揮核心作用。然而,現(xiàn)有模型普遍面臨兩大關(guān)鍵局限:一是難以將低層級動作(如關(guān)節(jié)位置)精準(zhǔn)轉(zhuǎn)化為機器人運動,導(dǎo)致預(yù)測幀中軌跡不穩(wěn)定;二是運動預(yù)測的不精確進(jìn)一步引發(fā)機器人與對象的交互偏差,與真實物理動力學(xué)規(guī)律存在不一致。
