arXiv最新AI论文速览速学

🔍

标签: #reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: LLMs as ASP Programmers: Self-Correction Enables Task-Agnostic Nonmonotonic Reasoning 05-01

arXiv ID: 2602.04118

arXiv 提交日期: 2026-02-04

llm model training theory parameter efficiency reinforcement learning reasoning low-rank adaptation model scaling

用13个参数学习推理 / Learning to Reason in 13 Parameters

1️⃣ 一句话总结

这篇论文提出了一种名为TinyLoRA的新方法，它通过强化学习，仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理，性能接近使用成千上万参数的传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04380

arXiv 提交日期: 2026-02-04

llm model training theory policy optimization bregman divergence reasoning mirror descent regularization

超越KL散度：利用灵活的布雷格曼散度进行大语言模型推理的策略优化 / Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GBMPO的新框架，通过引入更灵活的布雷格曼散度（如概率空间的L2距离或可学习的神经网络映射）来代替传统的KL散度进行策略正则化，从而显著提升了大语言模型在数学推理和代码生成任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04265

arXiv 提交日期: 2026-02-04

llm reinforcement learning model training reward shaping reasoning exploration mathematical reasoning rlvr

从“增厚”到“减薄”：基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为T2T的动态奖励框架，它模仿人类学习过程，在模型推理错误时鼓励探索更长的解题路径以拓宽思路，在推理正确时则奖励简洁表达以提升效率，从而显著提升大语言模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03635

arXiv 提交日期: 2026-02-03

llm reinforcement learning model training trust region entropy regularization exploration ppo reasoning

TRE：在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region

1️⃣ 一句话总结

这篇论文提出了一种名为‘信任区域熵’的新方法，通过将探索限制在模型可信的范围内，有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题，并在数学推理等多个任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03900

arXiv 提交日期: 2026-02-03

llm natural language processing model evaluation prompt engineering reasoning planning task decomposition benchmark

知识模型提示提升大语言模型在规划任务上的性能 / Knowledge Model Prompting Increases LLM Performance on Planning Tasks

1️⃣ 一句话总结

这篇论文提出了一种基于任务-方法-知识框架的提示方法，它能有效引导大语言模型进行结构化推理和任务分解，从而在复杂的符号规划任务上大幅提升其性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03516

arXiv 提交日期: 2026-02-03

llm model training natural language processing negative sampling reasoning reinforcement learning preference optimization mathematical reasoning

并非所有错误样本都同等重要：大语言模型从合理推理中学习效果更佳 / Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为‘合理负样本’的新方法，通过专门生成看起来格式正确、推理过程合理但最终答案是错误的训练样本，来更有效地提升大语言模型在数学推理等任务上的表现，效果优于传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03773

arXiv 提交日期: 2026-02-03

llm model training agents reasoning reinforcement learning iterative decoding extrapolation continual improvement

推理缓存：通过短视界强化学习实现长视界的持续改进 / Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

1️⃣ 一句话总结

这篇论文提出了一种名为‘推理缓存’的新算法，它能让大型语言模型在解决复杂推理问题时，通过迭代式的自我总结和改进，实现远超训练时所见范围的持续性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03075

arXiv 提交日期: 2026-02-03

llm model training reinforcement learning iterative training mid-training token reweighting reasoning pre-training

ReMiT：强化学习引导的中期训练用于迭代式大语言模型演进 / ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

1️⃣ 一句话总结

这篇论文提出了一种名为ReMiT的新方法，它利用强化学习调整后的模型来指导大语言模型在预训练后期的关键阶段，通过动态调整训练数据的权重来优先学习推理相关的知识，从而形成一个自我强化的循环，持续提升模型在数学、代码和通用推理等多方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02477

arXiv 提交日期: 2026-02-02

llm model training theory reasoning reinforcement learning divide-and-conquer scalability chain-of-thought

通过分而治之推理训练大语言模型提升测试时扩展性 / Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

1️⃣ 一句话总结

这篇论文提出了一种新的强化学习训练框架，教会大语言模型像‘庖丁解牛’一样，先将复杂问题拆分成多个子问题逐一解决，再整合答案，从而在应对高难度任务时比传统‘一步步想’的方法表现更好、扩展性更强。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01705

arXiv 提交日期: 2026-02-02

llm reinforcement learning model training latent diffusion reasoning diversity preservation chain-of-thought exploration

超越模式激发：通过潜在扩散推理器实现多样性保持的强化学习 / Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner

1️⃣ 一句话总结

这篇论文提出了一种名为LaDi-RL的新方法，它通过在一个连续的潜在空间中进行扩散引导的探索来优化大语言模型的推理过程，有效避免了传统方法中因强化学习导致思维链多样性下降的问题，从而在代码生成和数学推理任务上取得了更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.04118

1️⃣ 一句话总结

arXiv ID: 2602.04380

1️⃣ 一句话总结

arXiv ID: 2602.04265

1️⃣ 一句话总结

arXiv ID: 2602.03635

1️⃣ 一句话总结

arXiv ID: 2602.03900

1️⃣ 一句话总结

arXiv ID: 2602.03516

1️⃣ 一句话总结

arXiv ID: 2602.03773

1️⃣ 一句话总结

arXiv ID: 2602.03075

1️⃣ 一句话总结

arXiv ID: 2602.02477

1️⃣ 一句话总结

arXiv ID: 2602.01705

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.04118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03635 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03900 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03773 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03075 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02477 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01705 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.04118

arXiv ID: 2602.04380

arXiv ID: 2602.04265

arXiv ID: 2602.03635

arXiv ID: 2602.03900

arXiv ID: 2602.03516

arXiv ID: 2602.03773

arXiv ID: 2602.03075

arXiv ID: 2602.02477

arXiv ID: 2602.01705