📄 论文总结
深度研究竞技场:基于学术研讨会的任务首次检验大语言模型的研究能力 / DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
1️⃣ 一句话总结
这篇论文提出了一个名为DeepResearch Arena的新基准测试,它利用真实学术研讨会内容自动生成高质量研究任务,有效评估大语言模型在多学科研究中的综合能力,并发现当前先进模型仍面临显著挑战。
请先 登录 后再提交论文
深度研究竞技场:基于学术研讨会的任务首次检验大语言模型的研究能力 / DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
这篇论文提出了一个名为DeepResearch Arena的新基准测试,它利用真实学术研讨会内容自动生成高质量研究任务,有效评估大语言模型在多学科研究中的综合能力,并发现当前先进模型仍面临显著挑战。
Robix:一种用于机器人交互、推理与规划的统一模型 / Robix: A Unified Model for Robot Interaction, Reasoning and Planning
这篇论文提出了一个名为Robix的统一模型,它能让机器人像人一样思考、规划和对话,通过整合推理、任务规划和自然语言交互,使机器人能够执行复杂指令、处理突发情况并与人类流畅沟通,其性能甚至超越了GPT-4o等先进模型。
VerlTool:面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
这篇论文提出了一个名为VerlTool的统一模块化框架,解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题,通过标准化工具管理、异步执行加速和模块化设计,在多个任务领域实现了高效且可扩展的智能体训练。
FlashAdventure:一个用于评估GUI智能体在多样冒险游戏中完成完整故事线的基准 / FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games
这篇论文提出了一个名为FlashAdventure的新基准,包含34款Flash冒险游戏,用于测试AI智能体完成完整故事线的能力,并设计了一种利用长期线索记忆的智能体框架来提升任务解决效果,实验表明现有智能体仍与人类表现存在明显差距。
LLaVA-Critic-R1:你的评价模型其实是一个强大的策略模型 / LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
这篇论文挑战了传统观念,通过将评价模型的数据重新组织并用于强化学习训练,开发出一个既能评价又能生成内容的统一视觉语言模型,在多项视觉推理任务中表现优异,甚至超越了专门训练的策略模型。
通用深度研究:自带模型与策略 / Universal Deep Research: Bring Your Own Model and Strategy
这篇论文提出了一个名为UDR的通用智能研究系统,它允许用户自由选择语言模型并自定义研究策略,无需额外训练即可灵活开展不同类型的深度研究任务。
Morae:主动暂停UI代理以支持用户选择 / Morae: Proactively Pausing UI Agents for User Choices
这篇论文提出了一种名为Morae的UI代理,它能在执行任务时自动识别关键决策点并暂停,让用户参与选择,从而在提升自动化效率的同时保障用户自主权,尤其改善了视障用户的使用体验。
UItron:具备高级感知与规划能力的GUI基础智能体 / UItron: Foundational GUI Agent with Advanced Perception and Planning
这篇论文提出了一个名为UItron的开源GUI基础智能体,它通过系统化的数据工程和交互式训练框架,显著提升了在移动端和PC端图形界面上的感知、定位与任务规划能力,尤其在中文应用场景中表现出色。
在游戏中思考:通过大型语言模型与强化学习学习游戏中的推理 / Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
这篇论文提出了一种名为TiG的新方法,通过将强化学习与大型语言模型结合,让AI在游戏中学会动态决策并解释自己的每一步行动,从而高效地弥合了理论知识与应用能力之间的差距。
PVPO:基于预估值驱动的策略优化用于智能体推理 / PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
本文提出了一种名为PVPO的新型强化学习方法,通过预采样数据和引入优势参考锚点来减少计算成本并避免策略陷入局部最优,在多个任务和模型规模上均实现了领先性能。