🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
《Adaptive Exploration Policy Optimization for GUI Grounding》
《面向GUI基础任务的自适应探索策略优化》
1️⃣ 一句话总结
本文提出了一种名为AEPO(自适应探索策略优化)的新框架,通过多答案生成和动态奖励机制(AER)解决GUI基础任务中的探索效率问题,显著提升了语义对齐能力,并在多个基准测试中达到SOTA性能。
2️⃣ 论文创新点
1. AEPO框架:结构化探索与动态奖励
- 创新点:结合多答案生成(单次生成N个候选动作)和自适应探索奖励(AER),动态平衡探索与利用。
- 改进:传统RLVR方法因“信心陷阱”忽视低概率正确动作,而AEPO通过效率公式(η = U/C)量化探索效用,失败时惩罚冗余探索(R = -1/N),成功时奖励高效(R = 1/√(N·k))。
- 意义:突破局部最优,提升对“难探索”样本(如低置信度正确答案)的发现能力。
2. 共线性惩罚机制
- 创新点:通过检测生成动作的几何共线性(三角形面积接近零),强制模型实现空间多样性探索。
- 改进:传统方法易陷入低效线性扫描,而共线性惩罚抑制“奖励黑客”行为(如重复生成相似动作)。
- 意义:确保探索质量,避免资源浪费。
3. 双维度解耦分析
- 创新点:将GUI基础任务明确分解为空间对齐(定位精度)和语义对齐(目标正确性),指出后者是关键瓶颈。
- 改进:现有工作(如RLVR)侧重空间对齐,而AEPO通过语义优先策略优化语义理解。
- 意义:为后续研究提供清晰的问题定义和优化方向。
4. RLOO算法与数据过滤
- 创新点:采用Leave-One-Out策略(RLOO)减少策略梯度方差,并过滤简单样本以专注挑战性实例。
- 改进:相比传统RLVR,无需额外训练critic模型,提升训练效率。
- 意义:降低计算成本,加速模型收敛。
3️⃣ 主要结果与价值
实验结果亮点
- 性能提升:InfiGUI-G1-7B模型在ScreenSpot-Pro等基准上相对基线(Naive RLVR)提升61.1%,尤其在“难样本”上表现突出。
- 探索效率:单次尝试成功率超过基线多轮尝试(见表7),验证AEPO的高效性。
- 轻量化优势:3B参数模型性能媲美更大规模专有模型,体现框架可扩展性。
实际应用价值
- GUI自动化:提升智能代理(如RPA、无障碍辅助工具)的界面理解与交互能力。
- 跨领域泛化:方法可迁移至其他需多模态探索的任务(如机器人操作、医疗影像分析)。
- 开源贡献:InfiGUI-G1系列模型为社区提供高效、可复现的基线。
4️⃣ 术语表
- AEPO(Adaptive Exploration Policy Optimization):核心框架,通过多答案生成和动态奖励优化探索策略。
- AER(Adaptive Exploration Reward):动态奖励函数,基于效率公式η = U/C调整探索行为。
- RLVR(Reinforcement Learning with Verifiable Rewards):基线方法,侧重空间对齐但探索效率低。
- MLLM(Multi-modal Large Language Model):生成动作策略的多模态模型(如Qwen2.5-VL)。
- RLOO(Leave-One-Out Reinforcement Learning):减少策略梯度方差的训练算法。
- 共线性惩罚(Collinear Penalty):抑制低质量线性探索的机制。
(总结基于跨chunk信息整合,去重并突出核心贡献,避免冗余。)