arXiv最新AI论文速览速学

🔍

标签: #reasoning models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following 06-09

arXiv ID: 2604.01652

arXiv 提交日期: 2026-04-02

llm model evaluation natural language processing claim verification reasoning models interpretability model fine-tuning fact-checking

ThinknCheck：基于紧凑、推理驱动且可解释模型的事实核查 / ThinknCheck: Grounded Claim Verification with Compact, Reasoning-Driven, and Interpretable Models

1️⃣ 一句话总结

这篇论文提出了一个名为ThinknCheck的小型AI模型，它通过先生成简短推理步骤再给出结论的方式，能够高效、准确地验证事实陈述，并且在性能和可解释性上超越了更大的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17368

arXiv 提交日期: 2026-03-18

llm model training model evaluation safety alignment chain-of-thought reasoning models safety degradation auxiliary supervision

通过促进链式思维生成前的安全决策构建更安全的大型推理模型 / Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过在大型推理模型启动复杂的链式思维推理之前，先强制其进行安全判断，从而在保持模型强大推理能力的同时，显著提升其应对有害内容的安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20117

arXiv 提交日期: 2026-02-23

llm model training agents reinforcement learning synthetic environments reasoning models verifier supervision task diversity

ReSyn：为推理模型自主扩展合成环境 / ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一个名为ReSyn的自动化系统，它能大规模生成多样化的推理任务环境，并利用这些环境来训练语言模型，显著提升了模型在数学和逻辑推理等复杂任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14763

arXiv 提交日期: 2026-02-16

llm natural language processing model evaluation machine translation reasoning models structured reasoning wmt benchmark post-training

解锁大语言模型在机器翻译中的推理能力 / Unlocking Reasoning Capability on Machine Translation in Large Language Models

1️⃣ 一句话总结

这篇论文研究发现，当前大语言模型通用的‘显式推理’方法（即写出中间思考步骤）会损害机器翻译质量，并提出了一种专为翻译任务设计的‘结构化推理’框架，通过多步骤草拟、优化和选择性修订，显著提升了翻译效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14917

arXiv 提交日期: 2026-02-16

llm model training agents reasoning models reinforcement learning best-first search overthinking answer conciseness

BFS-PO：针对大型推理模型的最佳优先搜索算法 / BFS-PO: Best-First Search for Large Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一种名为BFS-PO的新算法，它通过最佳优先搜索策略来训练大型推理模型，旨在解决模型因过度思考而产生的冗长回答和高计算成本问题，从而让模型在提高答案准确率的同时，生成更简洁的推理过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11096

arXiv 提交日期: 2026-02-11

llm model evaluation agents safety alignment jailbreak defense reasoning models inference-time intervention steering vectors

安全恢复离推理模型仅几步之遥：早期干预即可实现 / Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

1️⃣ 一句话总结

这篇论文提出了一种名为SafeThink的轻量级防御方法，它通过在推理过程中早期检测并注入简短的安全提示，就能有效降低大模型被恶意攻击的风险，同时不损害其原有的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10019

arXiv 提交日期: 2026-02-10

reinforcement learning model training agents advantage estimation policy optimization reasoning models credit assignment online rollout

ADORA：基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为ADORA的新方法，它通过动态评估训练样本的价值来改进强化学习中的策略优化，从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08214

arXiv 提交日期: 2026-02-09

llm model evaluation systems adversarial attack resource exhaustion reasoning models safety evaluation recursive entropy

RECUR：一种通过递归熵引导的反事实利用与反思实现的资源耗尽攻击 / RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection

1️⃣ 一句话总结

这篇论文提出了一种名为RECUR的攻击方法，它通过构造特殊问题来干扰大型推理模型的反思过程，使其陷入过度计算，从而显著消耗系统资源，揭示了模型推理机制本身存在的安全隐患。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03203

arXiv 提交日期: 2026-02-03

llm model training systems kv cache eviction policy reasoning models memory optimization reinforcement learning

ForesightKV：通过学习长期贡献优化推理模型的KV缓存淘汰机制 / ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution

1️⃣ 一句话总结

这篇论文提出了一个名为ForesightKV的智能缓存管理框架，它通过结合监督学习和强化学习来预测并淘汰推理过程中不重要的中间数据，从而在只使用一半缓存的情况下，显著提升大语言模型处理长文本时的效率和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10825

arXiv 提交日期: 2026-01-15

llm agents theory reasoning models multi-agent simulation collective intelligence mechanistic interpretability chain of thought

推理模型生成思想社会 / Reasoning Models Generate Societies of Thought

1️⃣ 一句话总结

这篇论文发现，像DeepSeek-R1这样的先进推理模型之所以能出色解决复杂问题，并非仅仅因为更长的思考链条，而是因为它们在内部模拟了一个由不同‘个性’和‘专长’的虚拟角色组成的‘思想社会’，通过角色间的辩论和协作来探索更优的解决方案，这类似于人类群体集思广益的智慧。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.01652

1️⃣ 一句话总结

arXiv ID: 2603.17368

1️⃣ 一句话总结

arXiv ID: 2602.20117

1️⃣ 一句话总结

arXiv ID: 2602.14763

1️⃣ 一句话总结

arXiv ID: 2602.14917

1️⃣ 一句话总结

arXiv ID: 2602.11096

1️⃣ 一句话总结

arXiv ID: 2602.10019

1️⃣ 一句话总结

arXiv ID: 2602.08214

1️⃣ 一句话总结

arXiv ID: 2602.03203

1️⃣ 一句话总结

arXiv ID: 2601.10825

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.01652 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17368 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08214 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10825 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.01652

arXiv ID: 2603.17368

arXiv ID: 2602.20117

arXiv ID: 2602.14763

arXiv ID: 2602.14917

arXiv ID: 2602.11096

arXiv ID: 2602.10019

arXiv ID: 2602.08214

arXiv ID: 2602.03203

arXiv ID: 2601.10825