arXiv最新AI论文速览速学

🔍

标签: #reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: Agentic Critical Training 03-16

arXiv ID: 2602.09501

arXiv 提交日期: 2026-02-10

natural language processing model training model evaluation masked diffusion text generation reasoning learning-to-rank unmasking order

何处去掩码：基于真实标签引导的掩码扩散语言模型解掩顺序学习 / Where-to-Unmask: Ground-Truth-Guided Unmasking Order Learning for Masked Diffusion Language Models

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过利用真实文本信息来指导掩码扩散语言模型在生成文本时决定先填充哪些位置，从而提升模型在逻辑推理等任务上的表现，而无需修改模型本身。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08520

arXiv 提交日期: 2026-02-09

llm model evaluation natural language processing inference-time control uncertainty reasoning self-correction confidence calibration

强化推理：利用不确定性实现语言模型推理的自我纠正 / Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为‘强化推理’的新方法，它能让大型语言模型在回答问题时，通过检测自身回答的‘不确定程度’，智能地决定是否需要重新思考一遍，从而在不重新训练模型的情况下，显著提升回答的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05544

arXiv 提交日期: 2026-02-05

llm natural language processing model evaluation explainable recommendation collaborative filtering sequential recommendation reasoning cold-start

基于推理引导协同过滤与语言模型的可解释推荐系统 / Reasoning-guided Collaborative Filtering with Language Models for Explainable Recommendation

1️⃣ 一句话总结

这篇论文提出了一个名为RGCF-XRec的新框架，它巧妙地将传统推荐系统的协同过滤能力与大语言模型的推理解释能力结合起来，一步到位地生成既准确又易于理解的个性化推荐理由，并在多个数据集上显著提升了推荐效果和解释质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05547

arXiv 提交日期: 2026-02-05

llm model training agents reinforcement learning post-training multi-task learning policy optimization reasoning

多任务GRPO：跨任务的可靠大语言模型推理 / Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

1️⃣ 一句话总结

这项研究提出了一种名为MT-GRPO的新算法，通过动态调整任务权重和引入比例保持采样器，有效解决了多任务强化学习训练中常见的性能失衡问题，从而显著提升了模型在所有任务上的最差性能，并提高了训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05385

arXiv 提交日期: 2026-02-05

llm natural language processing systems text-to-sql monte carlo tree search reasoning schema linking modular architecture

IESR：基于高效MCTS的模块化推理方法，用于大型语言模型的文本转SQL任务 / IESR:Efficient MCTS-Based Modular Reasoning for Text-to-SQL with Large Language Models

1️⃣ 一句话总结

本文提出了一种名为IESR的高效模块化推理框架，它结合了蒙特卡洛树搜索和多数投票机制，让轻量级大语言模型无需微调就能在复杂的文本转SQL任务中取得顶尖性能，并揭示了当前模型在数学计算和常识推理上的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04118

arXiv 提交日期: 2026-02-04

llm model training theory parameter efficiency reinforcement learning reasoning low-rank adaptation model scaling

用13个参数学习推理 / Learning to Reason in 13 Parameters

1️⃣ 一句话总结

这篇论文提出了一种名为TinyLoRA的新方法，它通过强化学习，仅用少至13个可训练参数就能让大型语言模型学会复杂的数学推理，性能接近使用成千上万参数的传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04380

arXiv 提交日期: 2026-02-04

llm model training theory policy optimization bregman divergence reasoning mirror descent regularization

超越KL散度：利用灵活的布雷格曼散度进行大语言模型推理的策略优化 / Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GBMPO的新框架，通过引入更灵活的布雷格曼散度（如概率空间的L2距离或可学习的神经网络映射）来代替传统的KL散度进行策略正则化，从而显著提升了大语言模型在数学推理和代码生成任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04265

arXiv 提交日期: 2026-02-04

llm reinforcement learning model training reward shaping reasoning exploration mathematical reasoning rlvr

从“增厚”到“减薄”：基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为T2T的动态奖励框架，它模仿人类学习过程，在模型推理错误时鼓励探索更长的解题路径以拓宽思路，在推理正确时则奖励简洁表达以提升效率，从而显著提升大语言模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03635

arXiv 提交日期: 2026-02-03

llm reinforcement learning model training trust region entropy regularization exploration ppo reasoning

TRE：在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region

1️⃣ 一句话总结

这篇论文提出了一种名为‘信任区域熵’的新方法，通过将探索限制在模型可信的范围内，有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题，并在数学推理等多个任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03900

arXiv 提交日期: 2026-02-03

llm natural language processing model evaluation prompt engineering reasoning planning task decomposition benchmark

知识模型提示提升大语言模型在规划任务上的性能 / Knowledge Model Prompting Increases LLM Performance on Planning Tasks

1️⃣ 一句话总结

这篇论文提出了一种基于任务-方法-知识框架的提示方法，它能有效引导大语言模型进行结构化推理和任务分解，从而在复杂的符号规划任务上大幅提升其性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.09501

1️⃣ 一句话总结

arXiv ID: 2602.08520

1️⃣ 一句话总结

arXiv ID: 2602.05544

1️⃣ 一句话总结

arXiv ID: 2602.05547

1️⃣ 一句话总结

arXiv ID: 2602.05385

1️⃣ 一句话总结

arXiv ID: 2602.04118

1️⃣ 一句话总结

arXiv ID: 2602.04380

1️⃣ 一句话总结

arXiv ID: 2602.04265

1️⃣ 一句话总结

arXiv ID: 2602.03635

1️⃣ 一句话总结

arXiv ID: 2602.03900

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.09501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08520 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05544 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05547 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05385 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03635 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03900 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.09501

arXiv ID: 2602.08520

arXiv ID: 2602.05544

arXiv ID: 2602.05547

arXiv ID: 2602.05385

arXiv ID: 2602.04118

arXiv ID: 2602.04380

arXiv ID: 2602.04265

arXiv ID: 2602.03635

arXiv ID: 2602.03900