結合長上下文Q-Former與多模態LLM的機器人確認生成與動作規劃
摘要:本文提出長上下文 Q-Former 與文本條件化方法,解決現有多模態模型僅處理短視頻片段、語言信息抽象化的問題;基于 YouCook2 烹飪數據集驗證,該方法有效整合視頻上下文與文本信息,顯著提升機器人動作確認生成和動作規劃的準確性。
一、引言
摘要:本文提出長上下文 Q-Former 與文本條件化方法,解決現有多模態模型僅處理短視頻片段、語言信息抽象化的問題;基于 YouCook2 烹飪數據集驗證,該方法有效整合視頻上下文與文本信息,顯著提升機器人動作確認生成和動作規劃的準確性。
一、引言