← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: agents

📄 论文总结

中英文论文题目：
《Adaptive Exploration Policy Optimization for GUI Grounding》
《面向GUI基础任务的自适应探索策略优化》

1️⃣ 一句话总结

本文提出了一种名为AEPO（自适应探索策略优化）的新框架，通过多答案生成和动态奖励机制（AER）解决GUI基础任务中的探索效率问题，显著提升了语义对齐能力，并在多个基准测试中达到SOTA性能。

2️⃣ 论文创新点

1. AEPO框架：结构化探索与动态奖励

创新点：结合多答案生成（单次生成N个候选动作）和自适应探索奖励（AER），动态平衡探索与利用。
改进：传统RLVR方法因“信心陷阱”忽视低概率正确动作，而AEPO通过效率公式（η = U/C）量化探索效用，失败时惩罚冗余探索（R = -1/N），成功时奖励高效（R = 1/√(N·k)）。
意义：突破局部最优，提升对“难探索”样本（如低置信度正确答案）的发现能力。

2. 共线性惩罚机制

创新点：通过检测生成动作的几何共线性（三角形面积接近零），强制模型实现空间多样性探索。
改进：传统方法易陷入低效线性扫描，而共线性惩罚抑制“奖励黑客”行为（如重复生成相似动作）。
意义：确保探索质量，避免资源浪费。

3. 双维度解耦分析

创新点：将GUI基础任务明确分解为空间对齐（定位精度）和语义对齐（目标正确性），指出后者是关键瓶颈。
改进：现有工作（如RLVR）侧重空间对齐，而AEPO通过语义优先策略优化语义理解。
意义：为后续研究提供清晰的问题定义和优化方向。

4. RLOO算法与数据过滤

创新点：采用Leave-One-Out策略（RLOO）减少策略梯度方差，并过滤简单样本以专注挑战性实例。
改进：相比传统RLVR，无需额外训练critic模型，提升训练效率。
意义：降低计算成本，加速模型收敛。

3️⃣ 主要结果与价值

实验结果亮点

性能提升：InfiGUI-G1-7B模型在ScreenSpot-Pro等基准上相对基线（Naive RLVR）提升61.1%，尤其在“难样本”上表现突出。
探索效率：单次尝试成功率超过基线多轮尝试（见表7），验证AEPO的高效性。
轻量化优势：3B参数模型性能媲美更大规模专有模型，体现框架可扩展性。

实际应用价值

GUI自动化：提升智能代理（如RPA、无障碍辅助工具）的界面理解与交互能力。
跨领域泛化：方法可迁移至其他需多模态探索的任务（如机器人操作、医疗影像分析）。
开源贡献：InfiGUI-G1系列模型为社区提供高效、可复现的基线。

4️⃣ 术语表

AEPO（Adaptive Exploration Policy Optimization）：核心框架，通过多答案生成和动态奖励优化探索策略。
AER（Adaptive Exploration Reward）：动态奖励函数，基于效率公式η = U/C调整探索行为。
RLVR（Reinforcement Learning with Verifiable Rewards）：基线方法，侧重空间对齐但探索效率低。
MLLM（Multi-modal Large Language Model）：生成动作策略的多模态模型（如Qwen2.5-VL）。
RLOO（Leave-One-Out Reinforcement Learning）：减少策略梯度方差的训练算法。
共线性惩罚（Collinear Penalty）：抑制低质量线性探索的机制。

（总结基于跨chunk信息整合，去重并突出核心贡献，避免冗余。）

📄 打开原文 PDF