📄 论文总结
R-4B:通过双模式退火和强化学习激励多模态大语言模型中的通用自动思考能力 / R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
1️⃣ 一句话总结
这篇论文提出了R-4B模型,它能够根据问题难度自动选择是否启动思考过程,从而在保证高性能的同时显著降低计算成本,在多个基准测试中超越了同类先进模型。
请先 登录 后再提交论文
R-4B:通过双模式退火和强化学习激励多模态大语言模型中的通用自动思考能力 / R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
这篇论文提出了R-4B模型,它能够根据问题难度自动选择是否启动思考过程,从而在保证高性能的同时显著降低计算成本,在多个基准测试中超越了同类先进模型。
通用深度研究:自带模型与策略 / Universal Deep Research: Bring Your Own Model and Strategy
这篇论文提出了一个名为UDR的通用智能研究系统,它允许用户自由选择语言模型并自定义研究策略,无需额外训练即可灵活开展不同类型的深度研究任务。
在游戏中思考:通过大型语言模型与强化学习学习游戏中的推理 / Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
这篇论文提出了一种名为TiG的新方法,通过将强化学习与大型语言模型结合,让AI在游戏中学会动态决策并解释自己的每一步行动,从而高效地弥合了理论知识与应用能力之间的差距。
OnGoal:在多轮对话中追踪和可视化与大语言模型的对话目标 / OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models
这篇论文提出了一个名为OnGoal的智能对话系统,它通过实时追踪和可视化用户的对话目标,帮助用户更高效地完成复杂任务,减少时间和精力消耗,并提升与大语言模型交互的体验和效果。
输入重构如何提升复杂动态环境中工具使用的准确性?基于τ-bench的研究 / How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench
本研究提出了一种名为IRMA的多智能体框架,通过自动重构用户查询并加入相关领域规则和工具建议,显著提升了大型语言模型在复杂动态环境中使用工具的准确性和可靠性。
扭转咒语:通过一阶安全注入实现轻量级对齐增强 / Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
这篇论文提出了一种无需微调的白盒方法ROSI,通过简单修改模型权重来增强大语言模型的安全拒绝能力,同时保持其正常任务性能,为低成本提升AI安全性提供了新思路。
大型语言模型工具内学习的可证明优势 / Provable Benefits of In-Tool Learning for Large Language Models
这篇论文通过理论和实验证明,让语言模型使用外部工具来查找事实,比单纯依靠模型自身记忆更高效且扩展性更强,因为工具使用可以突破模型参数数量对记忆能力的限制。
MCP-Bench:通过MCP服务器对使用工具的LLM智能体在复杂现实任务中的基准测试 / MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
这篇论文提出了一个名为MCP-Bench的新基准测试,通过连接28个真实领域的工具服务器,评估大型语言模型在需要多步骤规划、工具协调和跨领域工作流的复杂现实任务中的表现,发现现有先进模型仍面临显著挑战。
rStar2-Agent:智能推理技术报告 / rStar2-Agent: Agentic Reasoning Technical Report
这篇论文介绍了一个名为rStar2-Agent的14B参数数学推理模型,它通过创新的智能强化学习方法,在有限计算资源下实现了前沿性能,不仅能像人类一样先思考再使用编程工具解决问题,还能根据反馈自主验证和优化步骤,并在数学、科学推理等多个领域表现出强大的泛化能力。
TCIA:一种面向任务的指令增强方法用于指令微调 / TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning
本文提出了一种名为TCIA的指令增强方法,它能在保持指令多样性的同时,专门针对特定任务场景生成相关指令,从而显著提升大型语言模型在现实任务中的性能,且不影响其通用指令遵循能力。