📄 论文总结
MAS-Bench:一个用于评估移动GUI与快捷操作混合智能体的统一基准 / MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
1️⃣ 一句话总结
这篇论文提出了一个名为MAS-Bench的基准测试平台,专门用于评估移动设备上结合图形界面操作和快捷方式的混合智能体,通过139个复杂任务和多种评价指标,证明了混合方法比纯图形界面操作更高效和可靠。
请先 登录 后再提交论文
MAS-Bench:一个用于评估移动GUI与快捷操作混合智能体的统一基准 / MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
这篇论文提出了一个名为MAS-Bench的基准测试平台,专门用于评估移动设备上结合图形界面操作和快捷方式的混合智能体,通过139个复杂任务和多种评价指标,证明了混合方法比纯图形界面操作更高效和可靠。
多模态科学推理:ICML 2025 SeePhys挑战赛技术报告与冠军方案 / Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
这项研究提出了一种结合图像描述辅助的推理方法,有效解决了AI在多模态场景下的理解难题,并在科学推理竞赛中夺冠,同时验证了其在几何问题上的广泛适用性。
WildScore:多模态大语言模型在真实场景符号音乐推理的基准测试 / WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
这篇论文提出了首个针对真实世界符号音乐推理的基准测试WildScore,通过从真实乐谱和用户讨论构建的评估体系,揭示了当前多模态大模型在音乐理解方面的潜力与局限。
大型语言模型的行为指纹识别 / Behavioral Fingerprinting of Large Language Models
这篇论文提出了一种新的‘行为指纹’框架,通过分析模型在互动中的固有风格,揭示了不同大语言模型在核心推理能力趋于一致的同时,其迎合性、语义鲁棒性等互动行为却因开发者的对齐策略而存在显著差异。
逆向IFEval:大语言模型能否忘记顽固的训练惯例以遵循真实指令? / Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?
这篇论文提出了一个名为逆向IFEval的新基准测试,用于评估大语言模型在遇到与训练模式相冲突的反常指令时,能否克服固有偏见并正确执行任务,从而揭示其在非常规场景下的适应能力不足问题。
基于基准测试的大语言模型评估的鲁棒性与可靠性研究 / On Robustness and Reliability of Benchmark-Based Evaluation of LLMs
这篇论文通过系统测试发现,尽管大语言模型在基准测试中的排名相对稳定,但面对同一问题的不同表述时,其绝对性能会显著下降,这表明当前基于固定格式基准测试的评估方法可能无法准确反映模型在真实多变场景下的实际能力。
绘画比思考更容易:文本到图像模型能搭建舞台,但不能导演戏剧吗? / Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
这篇论文提出了一个更全面的新基准T2I-CoReBench,用于评估文本生成图像模型,发现当前模型在复杂场景中构图能力有限,而根据文字提示进行逻辑推理的能力更差,是制约其发展的关键瓶颈。
面向大语言模型的智能体强化学习研究全景:一项综述 / The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
这篇综述系统梳理了将大语言模型从被动文本生成器转变为能在复杂环境中自主决策的智能体的强化学习方法,提出了基于核心能力和应用领域的双重分类体系,并整合了相关开源资源以推动未来研究。
深度研究竞技场:基于学术研讨会的任务首次检验大语言模型的研究能力 / DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks
这篇论文提出了一个名为DeepResearch Arena的新基准测试,它利用真实学术研讨会内容自动生成高质量研究任务,有效评估大语言模型在多学科研究中的综合能力,并发现当前先进模型仍面临显著挑战。
VerlTool:面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
这篇论文提出了一个名为VerlTool的统一模块化框架,解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题,通过标准化工具管理、异步执行加速和模块化设计,在多个任务领域实现了高效且可扩展的智能体训练。