arXiv最新AI论文速览速学

🔍

标签: #test-time reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 98 最新: When the Majority Votes Wrong, the Intervention Timing for Test-Time Reinforcement Learning Hides in the Extinction Window 05-25

arXiv ID: 2605.19444

arXiv 提交日期: 2026-05-19

reinforcement learning model evaluation general test-time reinforcement learning majority voting reward scaling mathematical reasoning model correction

当多数投票出错时：测试时强化学习的干预时机隐藏在正确答案灭绝窗口中 / When the Majority Votes Wrong, the Intervention Timing for Test-Time Reinforcement Learning Hides in the Extinction Window

1️⃣ 一句话总结

本文发现，测试时强化学习（TTRL）通过多数投票提升模型性能的方法存在严重误导：多数看似进步实则源于巩固本来就正确的题目，而被“多数票”带偏的题目才是主流且不可逆；作者提出TTRL-Guard框架，通过监测“正确答案灭绝窗口”并采取动态奖励缩放、保留少数正确信号、暂停高风险更新等手段，在多个数学推理基准上显著提升了模型准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09667

arXiv 提交日期: 2026-01-14

llm agents model evaluation multi-agent systems test-time reinforcement learning reasoning credit assignment deliberation

用于推理的协作式多智能体测试时强化学习 / Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为MATTRL的新方法，它让多个AI专家在测试时通过讨论和分享经验来共同解决问题，从而显著提升了在医疗、数学等复杂任务上的推理准确率，且无需进行耗时的模型训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16969

arXiv 提交日期: 2025-12-18

llm benchmark model evaluation scientific general intelligence workflow evaluation benchmarking test-time reinforcement learning multimodal reasoning

利用科学家对齐的工作流程探究大语言模型的科学通用智能 / Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

1️⃣ 一句话总结

这篇论文提出了一个基于‘实践探究模型’的科学通用智能定义，并通过一个包含千余个跨学科样本的基准测试，系统评估了大语言模型在模拟科学家完整工作流程（如深度研究、实验设计等）中的能力，揭示了其在可行性、细节和推理方面的显著不足，并引入了一种无需参考答案即可提升假设新颖性的推理时强化学习方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19444

1️⃣ 一句话总结

arXiv ID: 2601.09667

1️⃣ 一句话总结

arXiv ID: 2512.16969

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09667 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16969 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19444

arXiv ID: 2601.09667

arXiv ID: 2512.16969