arXiv最新AI论文速览速学

🔍

标签: #llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search 03-17

arXiv ID: 2509.24375

arXiv 提交日期: 2025-09-29

llm model training reinforcement learning reinforcement learning language modeling training efficiency token optimization curriculum learning

强化中段训练 / Reinforcement Mid-Training

1️⃣ 一句话总结

这篇论文提出了一种在预训练和微调之间加入强化中段训练的新方法，通过动态控制推理步骤、自适应学习关键知识点和双重训练策略，显著提升了语言模型的性能和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.23768

arXiv 提交日期: 2025-09-28

multi-agents llm systems chemical reaction explainable ai evidence-based reasoning multi-agent system scientific discovery

从是什么到为什么：基于证据的化学反应条件推理多智能体系统 / From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

1️⃣ 一句话总结

本研究提出了一个名为ChemMAS的多智能体系统，它不仅能高精度预测化学反应条件，还能为每个决策提供基于化学知识和先例的可解释理由，从而在科学发现中建立了一种可解释人工智能的新范式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.03259

arXiv 提交日期: 2025-09-26

llm model training agents meta-awareness self-alignment reasoning models reinforcement learning training efficiency

元认知增强推理模型：基于自对齐的强化学习 / Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

1️⃣ 一句话总结

这项研究提出了一种名为MASA的自对齐强化学习方法，通过训练语言模型自我评估推理过程来提升其元认知能力，从而在无需外部数据的情况下显著提高数学和逻辑推理任务的准确性和训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.22582

arXiv 提交日期: 2025-09-26

llm model evaluation natural language processing hallucination detection benchmark evaluation framework fact verification error localization

使用大语言模型进行上下文相关幻觉的细粒度检测 / Fine-Grained Detection of Context-Grounded Hallucinations Using LLMs

1️⃣ 一句话总结

这篇论文研究了如何利用大语言模型来精确定位文本生成中的幻觉问题，即模型输出无法从源文本验证的信息，并通过构建新基准和评估方法揭示了模型在此任务上的主要挑战和局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21240

arXiv 提交日期: 2025-09-25

llm agents reinforcement learning tree search policy optimization multi-turn agents process supervision relative advantage

基于树搜索的大语言模型智能体强化学习 / Tree Search for LLM Agent Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种基于树搜索的分组智能体强化学习方法，通过共享路径和构建过程监督信号，有效解决了长期多轮任务中奖励稀疏的问题，并在多项问答任务中优于传统链式方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21117

arXiv 提交日期: 2025-09-25

llm model evaluation natural language processing llm-as-a-judge evaluation framework inconsistency analysis probabilistic scoring automated assessment

TrustJudge：大语言模型作为评估者的不一致性及其缓解方法 / TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

1️⃣ 一句话总结

这篇论文发现当前使用大语言模型自动评估答案时存在评分不一致和偏好循环的问题，并提出了一种名为TrustJudge的概率框架，通过连续评分和概率聚合方法显著减少了这些不一致性，从而提高了评估的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21106

arXiv 提交日期: 2025-09-25

llm benchmark model evaluation search-augmented llms personalization information retrieval human evaluation diagnostic feedback

BESPOKE：基于诊断反馈的检索增强大语言模型个性化定制基准 / BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

1️⃣ 一句话总结

这项研究提出了一个名为BESPOKE的基准测试，通过收集真实用户聊天记录和搜索历史并搭配精细反馈，来系统评估检索增强大语言模型如何更好地理解不同用户的个性化需求并提供定制化信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21070

arXiv 提交日期: 2025-09-25

llm model training benchmark mathematical reasoning difficult problem generation adaptive thinking knowledge distillation scaling laws

ScaleDiff：为高级数学推理扩展难题规模 / ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为ScaleDiff的高效方法，通过自动筛选现有数据集中的难题并训练专门的生成器来大规模创造高难度数学问题，从而显著提升大型推理模型在复杂数学任务上的表现，同时大幅降低了计算成本和人工干预需求。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21042

arXiv 提交日期: 2025-09-25

llm theory natural language processing positional encoding causal mask attention mechanism transformer architecture rope analysis

RoPE背后：因果掩码如何编码位置信息？ / Behind RoPE: How Does Causal Mask Encode Positional Information?

1️⃣ 一句话总结

这篇论文揭示了在Transformer解码器中，除了显式位置编码（如RoPE）外，因果掩码本身也能提供位置信息，它会诱导注意力偏向邻近位置，并与RoPE相互作用，改变其相对注意力模式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.20868

arXiv 提交日期: 2025-09-25

llm model evaluation benchmark reasoning styles chain of thought model scaling evaluation framework prompt strategies

风格基准：评估大型语言模型的思维风格 / StyleBench: Evaluating thinking styles in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为StyleBench的基准测试，通过系统评估五种不同推理风格在多种任务和模型上的表现，发现没有一种风格在所有情况下都是最优的，其效果高度依赖于模型规模和任务类型，为根据具体需求选择最佳推理策略提供了实用指南。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2509.24375

1️⃣ 一句话总结

arXiv ID: 2509.23768

1️⃣ 一句话总结

arXiv ID: 2510.03259

1️⃣ 一句话总结

arXiv ID: 2509.22582

1️⃣ 一句话总结

arXiv ID: 2509.21240

1️⃣ 一句话总结

arXiv ID: 2509.21117

1️⃣ 一句话总结

arXiv ID: 2509.21106

1️⃣ 一句话总结

arXiv ID: 2509.21070

1️⃣ 一句话总结

arXiv ID: 2509.21042

1️⃣ 一句话总结

arXiv ID: 2509.20868

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2509.24375 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.23768 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.03259 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.22582 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21240 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21070 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.20868 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2509.24375

arXiv ID: 2509.23768

arXiv ID: 2510.03259

arXiv ID: 2509.22582

arXiv ID: 2509.21240

arXiv ID: 2509.21117

arXiv ID: 2509.21106

arXiv ID: 2509.21070

arXiv ID: 2509.21042

arXiv ID: 2509.20868