arXiv最新AI论文速览速学

🔍

标签: #reasoning benchmarks ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Looped Diffusion Language Models 05-26

arXiv ID: 2605.26106

arXiv 提交日期: 2026-05-25

llm model training masked diffusion models transformer architecture parameter efficiency compute scaling reasoning benchmarks

循环扩散语言模型 / Looped Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为LoopMDM的方法，通过在掩码扩散语言模型中有选择地循环使用早期到中期的Transformer层，在不增加参数的情况下实现了深度缩放效果，显著提升了训练效率（最高节省3.3倍计算量）和推理性能（在GSM8K等推理基准上提升高达8.5分），并且通过自适应调整循环次数进一步优化了计算效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18444

arXiv 提交日期: 2026-03-19

reinforcement learning llm model training reward estimation sample efficiency beta-bernoulli variance reduction reasoning benchmarks

基于折扣贝塔-伯努利奖励估计的样本高效强化学习与可验证奖励 / Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

这篇论文提出了一种新的奖励估计方法，通过利用历史奖励数据来稳定估计过程，显著提升了大型语言模型在强化学习训练中的样本效率和推理能力，且无需增加额外计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21814

arXiv 提交日期: 2026-02-25

llm natural language processing model evaluation prompt engineering reasoning benchmarks structured reasoning variable isolation constraint inference

提示词架构决定推理质量：关于洗车问题的变量隔离研究 / Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem

1️⃣ 一句话总结

这篇论文通过实验发现，在解决需要推断隐含物理约束的‘洗车问题’时，让AI使用STAR（情境-任务-行动-结果）这种结构化思考框架，比单纯给它更多背景信息更能大幅提升推理准确率，从0%提升到了85%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08499

arXiv 提交日期: 2026-02-09

reinforcement learning theory model training contextual bandits rollout scheduling sample efficiency regret analysis reasoning benchmarks

基于情境化滚动选择的强化学习与可验证奖励 / Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

这篇论文提出了一种智能调度方法，通过将强化学习训练过程中的历史反馈数据视为可选择的“选项”，并动态挑选出最有价值的反馈来优化模型，从而显著提升了大型语言模型在数学推理等任务上的训练效率和最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04496

arXiv 提交日期: 2026-02-04

llm agents model evaluation scientific reasoning agentic framework confidence control multi-agent reasoning reasoning benchmarks

ReThinker：通过引导反思与置信度控制进行科学推理 / ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

1️⃣ 一句话总结

这篇论文提出了一个名为ReThinker的智能推理框架，它能让大型语言模型像专家一样进行科学推理，核心创新在于通过动态评估自身回答的‘信心程度’来灵活调用工具和反思纠错，从而在多个高难度科学考试基准上取得了目前最好的成绩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14807

arXiv 提交日期: 2025-10-16

llm reinforcement learning model training policy optimization exploration-exploitation pass@k training dynamics reasoning benchmarks

SimKO：简单的Pass@K策略优化 / SimKO: Simple Pass@K Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为SimKO的新方法，通过非对称地调整模型在正确和错误答案上的概率分布，有效缓解了现有强化学习方法中过度关注单一答案而忽视其他可能性的问题，从而在数学和逻辑推理任务中显著提升了模型探索多种正确答案的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.12132

arXiv 提交日期: 2025-09-15

multi-modal model training agents visual reasoning vision-language models reinforcement learning visual reflection reasoning benchmarks

再看一眼，慢思考：增强视觉语言模型中的视觉反思能力 / Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Reflection-V的新视觉推理模型，通过构建视觉中心推理数据和设计基于视觉注意力的强化学习奖励机制，有效增强了模型在推理过程中持续关注和利用视觉信息的能力，从而显著提升了多个视觉推理任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.00375

arXiv 提交日期: 2025-08-30

llm model training data synthetic data generation reasoning benchmarks constraint satisfaction multi-step reasoning hierarchical reasoning

面向深度研究的开放数据合成 / Open Data Synthesis For Deep Research

1️⃣ 一句话总结

这篇论文提出了一个名为InfoSeek的框架，通过自动生成复杂的多步骤研究问题数据集，有效训练大语言模型进行深度推理，使小模型在复杂任务上能媲美甚至超越大模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.26106

1️⃣ 一句话总结

arXiv ID: 2603.18444

1️⃣ 一句话总结

arXiv ID: 2602.21814

1️⃣ 一句话总结

arXiv ID: 2602.08499

1️⃣ 一句话总结

arXiv ID: 2602.04496

1️⃣ 一句话总结

arXiv ID: 2510.14807

1️⃣ 一句话总结

arXiv ID: 2509.12132

1️⃣ 一句话总结

arXiv ID: 2509.00375

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.26106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08499 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04496 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14807 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.12132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.00375 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.26106

arXiv ID: 2603.18444

arXiv ID: 2602.21814

arXiv ID: 2602.08499

arXiv ID: 2602.04496

arXiv ID: 2510.14807

arXiv ID: 2509.12132

arXiv ID: 2509.00375