CFG-Bench:面向具身智能體的細(xì)粒度動作認(rèn)知評估基準(zhǔn)
摘要:本文提出 CFG-Bench 基準(zhǔn),基于物理交互、時序因果、意圖理解、評估判斷四層認(rèn)知框架,構(gòu)建含 1368 個視頻、19562 組問答的數(shù)據(jù)集;評測主流 MLLM 發(fā)現(xiàn)其細(xì)粒度動作推理短板,且基于該基準(zhǔn)微調(diào)可顯著提升具身操作與規(guī)劃性能。
摘要:本文提出 CFG-Bench 基準(zhǔn),基于物理交互、時序因果、意圖理解、評估判斷四層認(rèn)知框架,構(gòu)建含 1368 個視頻、19562 組問答的數(shù)據(jù)集;評測主流 MLLM 發(fā)現(xiàn)其細(xì)粒度動作推理短板,且基于該基準(zhǔn)微調(diào)可顯著提升具身操作與規(guī)劃性能。