arXiv ID:
2606.04970
arXiv 提交日期: 2026-06-03
规划、观察、纠正:面向主动式程序性协助的基准测试与架构 / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance
1️⃣ 一句话总结
本文提出了一个名为EgoProactive的大规模穿戴式第一人称数据集,并整合多个现有基准测试构建了Pro²Bench统一评测框架,同时设计了一种将规划与交互分离的模型架构,使AI助手能够主动感知用户操作是否偏离预定步骤,并在适当时机提供纠正指导,实验表明该方案在主动协助任务上显著优于GPT、Claude等商用模型。