arXiv最新AI论文速览速学

🔍

标签: #reasoning models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models 03-01

arXiv ID: 2602.20117

arXiv 提交日期: 2026-02-23

llm model training agents reinforcement learning synthetic environments reasoning models verifier supervision task diversity

ReSyn：为推理模型自主扩展合成环境 / ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一个名为ReSyn的自动化系统，它能大规模生成多样化的推理任务环境，并利用这些环境来训练语言模型，显著提升了模型在数学和逻辑推理等复杂任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14763

arXiv 提交日期: 2026-02-16

llm natural language processing model evaluation machine translation reasoning models structured reasoning wmt benchmark post-training

解锁大语言模型在机器翻译中的推理能力 / Unlocking Reasoning Capability on Machine Translation in Large Language Models

1️⃣ 一句话总结

这篇论文研究发现，当前大语言模型通用的‘显式推理’方法（即写出中间思考步骤）会损害机器翻译质量，并提出了一种专为翻译任务设计的‘结构化推理’框架，通过多步骤草拟、优化和选择性修订，显著提升了翻译效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14917

arXiv 提交日期: 2026-02-16

llm model training agents reasoning models reinforcement learning best-first search overthinking answer conciseness

BFS-PO：针对大型推理模型的最佳优先搜索算法 / BFS-PO: Best-First Search for Large Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一种名为BFS-PO的新算法，它通过最佳优先搜索策略来训练大型推理模型，旨在解决模型因过度思考而产生的冗长回答和高计算成本问题，从而让模型在提高答案准确率的同时，生成更简洁的推理过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11096

arXiv 提交日期: 2026-02-11

llm model evaluation agents safety alignment jailbreak defense reasoning models inference-time intervention steering vectors

安全恢复离推理模型仅几步之遥：早期干预即可实现 / Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away

1️⃣ 一句话总结

这篇论文提出了一种名为SafeThink的轻量级防御方法，它通过在推理过程中早期检测并注入简短的安全提示，就能有效降低大模型被恶意攻击的风险，同时不损害其原有的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10019

arXiv 提交日期: 2026-02-10

reinforcement learning model training agents advantage estimation policy optimization reasoning models credit assignment online rollout

ADORA：基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为ADORA的新方法，它通过动态评估训练样本的价值来改进强化学习中的策略优化，从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08214

arXiv 提交日期: 2026-02-09

llm model evaluation systems adversarial attack resource exhaustion reasoning models safety evaluation recursive entropy

RECUR：一种通过递归熵引导的反事实利用与反思实现的资源耗尽攻击 / RECUR: Resource Exhaustion Attack via Recursive-Entropy Guided Counterfactual Utilization and Reflection

1️⃣ 一句话总结

这篇论文提出了一种名为RECUR的攻击方法，它通过构造特殊问题来干扰大型推理模型的反思过程，使其陷入过度计算，从而显著消耗系统资源，揭示了模型推理机制本身存在的安全隐患。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03203

arXiv 提交日期: 2026-02-03

llm model training systems kv cache eviction policy reasoning models memory optimization reinforcement learning

ForesightKV：通过学习长期贡献优化推理模型的KV缓存淘汰机制 / ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution

1️⃣ 一句话总结

这篇论文提出了一个名为ForesightKV的智能缓存管理框架，它通过结合监督学习和强化学习来预测并淘汰推理过程中不重要的中间数据，从而在只使用一半缓存的情况下，显著提升大语言模型处理长文本时的效率和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10825

arXiv 提交日期: 2026-01-15

llm agents theory reasoning models multi-agent simulation collective intelligence mechanistic interpretability chain of thought

推理模型生成思想社会 / Reasoning Models Generate Societies of Thought

1️⃣ 一句话总结

这篇论文发现，像DeepSeek-R1这样的先进推理模型之所以能出色解决复杂问题，并非仅仅因为更长的思考链条，而是因为它们在内部模拟了一个由不同‘个性’和‘专长’的虚拟角色组成的‘思想社会’，通过角色间的辩论和协作来探索更优的解决方案，这类似于人类群体集思广益的智慧。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08584

arXiv 提交日期: 2026-01-13

llm model training natural language processing parameter-efficient models cascade distillation instruction tuning reasoning models multimodal language models

Ministral 3 / Ministral 3

1️⃣ 一句话总结

这篇论文介绍了一个名为Ministral 3的高效语言模型系列，它包含三种不同大小的模型，通过一种创新的‘级联蒸馏’技术训练而成，不仅支持文本和图像理解，还提供了基础版、指令微调版和推理版三种变体，旨在为计算和内存资源有限的应用场景提供强大且开源（Apache 2.0许可）的AI解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02346

arXiv 提交日期: 2026-01-05

llm model training model evaluation reasoning models parameter efficiency test-time scaling chain-of-thought hybrid architecture

Falcon-H1R：利用混合模型推动推理前沿，实现高效测试时扩展 / Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

1️⃣ 一句话总结

这篇论文提出了一个名为Falcon-H1R的7B参数小型语言模型，它通过精心设计的数据、训练策略和混合并行架构，证明了小模型也能在复杂推理任务上达到甚至超越大模型的性能，同时实现更快的推理速度和更低的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.20117

1️⃣ 一句话总结

arXiv ID: 2602.14763

1️⃣ 一句话总结

arXiv ID: 2602.14917

1️⃣ 一句话总结

arXiv ID: 2602.11096

1️⃣ 一句话总结

arXiv ID: 2602.10019

1️⃣ 一句话总结

arXiv ID: 2602.08214

1️⃣ 一句话总结

arXiv ID: 2602.03203

1️⃣ 一句话总结

arXiv ID: 2601.10825

1️⃣ 一句话总结

arXiv ID: 2601.08584

1️⃣ 一句话总结

arXiv ID: 2601.02346

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.20117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08214 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10825 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08584 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02346 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.20117

arXiv ID: 2602.14763

arXiv ID: 2602.14917

arXiv ID: 2602.11096

arXiv ID: 2602.10019

arXiv ID: 2602.08214

arXiv ID: 2602.03203

arXiv ID: 2601.10825

arXiv ID: 2601.08584

arXiv ID: 2601.02346