The Horcrux:具身AI系統中面向獎勵篡改檢測與緩解的可機械解釋任務分解方法
摘要:本文提出可機械解釋的任務分解(MITD)架構,通過 Planner、Coordinator、Executor 分層模塊分解任務,結合注意力瀑布圖等可視化工具檢測 / 緩解具身 AI 的獎勵篡改;實驗表明 12-25 步最優分解深度可使獎勵篡改頻率降低 34%,效果優于事后行為監控。
摘要:本文提出可機械解釋的任務分解(MITD)架構,通過 Planner、Coordinator、Executor 分層模塊分解任務,結合注意力瀑布圖等可視化工具檢測 / 緩解具身 AI 的獎勵篡改;實驗表明 12-25 步最優分解深度可使獎勵篡改頻率降低 34%,效果優于事后行為監控。