🤖 系统
10-20 11:54
📄 论文总结
UI-Simulator:基于LLM的数字世界模拟器用于合成UI轨迹训练数字代理 / UI-Simulator: LLM-based Digital World Simulator for Synthesizing UI Trajectories to Train Digital Agents
1️⃣ 一句话总结
UI-Simulator是一个基于大语言模型的数字世界模拟器,能够自动合成高质量UI交互轨迹来训练数字代理,在有限真实环境暴露下实现竞争性性能,并通过UI-Simulator-Grow扩展范式实现更高效的数据合成。
2️⃣ 论文创新点
1. UI-Simulator核心框架
- 创新点:基于LLM的数字世界模拟器,无需微调即可生成分层格式的UI状态,包含引导式探索过程
- 区别/改进:解决了真实UI环境部署的资源瓶颈,无需依赖下游任务环境的经验
- 意义:实现大规模、高质量的UI环境训练轨迹自动合成,支持数字代理的鲁棒训练
2. UI-Simulator-Grow目标扩展范式
- 创新点:基于教师强制损失信号选择高学习潜力任务,战略性扩展训练数据
- 区别/改进:使用更少轨迹实现更快性能增益,仅用原始训练轨迹的66%就在WebArena上实现更陡峭的性能提升
- 意义:提高数据合成效率,加速LLM代理改进
3. 混合状态转换方法
- 创新点:结合基于规则和基于模型的转换,LLM作为核心引擎生成现实多样的下一状态转换
- 区别/改进:通过多步骤流程指导世界模拟器预测结果、推断连贯多样的下一状态,并将其渲染为结构化格式
- 意义:能够产生有效且富有想象力的UI状态,弥合数字世界模拟与现实UI转换之间的差距
4. 检索增强模拟
- 创新点:在测试环境有限经验已知的场景下,基于测试目标环境的有限经验进行UI生成
- 区别/改进:相比仅依赖LLM世界模拟器的内部知识,能生成不仅类似目标领域还支持多样化任务的UI环境
- 意义:评估智能体在有限经验后快速适应新测试环境的能力
3️⃣ 主要结果与价值
结果亮点
- UI-Simulator-R在WebArena和AndroidWorld上的性能分别达到OS-Genesis的4倍和2.5倍,即使测试环境经验有限
- UI-Simulator-F未暴露于真实测试环境,仅在LLM模拟环境中训练也能显著提升基础模型性能,在AndroidWorld上成功率从0%提升至9%
- 多步模拟相比单步模拟在WebArena和AndroidWorld上分别带来约2.4%和3.8%的性能提升
实际价值
- 为高延迟或难以访问真实测试环境的情况提供了有前景的替代方案
- 突破了真实环境数据收集的瓶颈,为训练泛化能力强的智能体提供可扩展解决方案
- 展示了模拟驱动方法在快速适应测试环境方面的有效性
4️⃣ 术语表
- UI-Simulator:基于LLM的可扩展UI轨迹合成范式,包含数字世界模拟器,用于生成分层格式的UI状态和训练数字代理
- UI-Simulator-Grow:UI-Simulator驱动的目标扩展范式,通过迭代识别关键任务来战略性扩展训练数据,实现更快的代理改进
- UI-Simulator-R:检索增强模拟的UI-Simulator变体,在有限真实环境暴露下训练,表现出强泛化能力
- M_LLM:用于数字世界模拟器的LLM模型,作为生成现实多样下一状态转换的核心引擎
- 教师强制损失:以教师模型预测作为真实标签计算的学生模型交叉熵损失,用于评估任务难度
- 视口V_t:在时间步t定义的区域[x0,x1]×[y0,y1],用于确定当前观察中可见的UI元素
- 任务控制:教师智能体基于当前状态提出的高层次任务描述,用于引导探索方向