arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 83 72小时内新更新论文 72h更新 160 最新: Statistically-Lossless Quantization of Large Language Models 05-05

arXiv ID: 2510.15804

arXiv 提交日期: 2025-10-17

llm theory model training truth encoding linear subspaces probe analysis transformer mechanics learning dynamics

语言模型中线性真值编码的涌现 / Emergence of Linear Truth Encodings in Language Models

1️⃣ 一句话总结

这项研究通过一个简化的模型揭示了语言模型如何通过两阶段学习过程，从数据中自然地形成能够线性区分真假语句的内部表示，从而提升语言建模的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14980

arXiv 提交日期: 2025-10-16

llm agents model training machine design physical reasoning reinforcement learning spatial reasoning compositional assembly

组合式机器的能动设计 / Agentic Design of Compositional Machines

1️⃣ 一句话总结

这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器，并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14973

arXiv 提交日期: 2025-10-16

llm model training systems kv cache diffusion models efficient inference attention mechanisms decoding acceleration

注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs

1️⃣ 一句话总结

这项研究提出了一种名为弹性缓存的训练免费方法，通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余，在保持生成质量的同时显著提升了解码速度，在多个任务上实现了最高45倍的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14972

arXiv 提交日期: 2025-10-16

llm natural language processing model evaluation tokenization code generation programming languages byte-pair encoding model reliability

TokDrift：当大语言模型以子词说话而代码以语法说话 / TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

1️⃣ 一句话总结

这篇论文发现，由于代码大语言模型使用的子词分词方法（如BPE）与代码语法不匹配，导致即使微小的格式变化（如空格或变量名）也会显著影响模型行为，揭示了当前分词方式是代码理解和生成可靠性的一个隐藏障碍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14969

arXiv 提交日期: 2025-10-16

agents llm model training ui simulation agent training synthetic data digital agents scaling strategy

作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

1️⃣ 一句话总结

这篇论文提出了一种名为UI-Simulator的可扩展模拟方法，通过生成多样化的用户界面轨迹来高效训练数字代理，使其在真实任务中表现优于依赖人工数据的方法，并展示了如何用更小的模型达到大模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14967

arXiv 提交日期: 2025-10-16

llm agents reinforcement learning multi-turn agents policy optimization information gain credit assignment reward shaping

基于信息增益的策略优化：一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

1️⃣ 一句话总结

本文提出了一种名为IGPO的强化学习新方法，通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励，有效解决了多轮任务中奖励稀疏和信用分配困难的问题，显著提升了智能体的准确性和学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14961

arXiv 提交日期: 2025-10-16

llm model training theory recurrent-depth models diffusion language models parallel sampling generation efficiency autoregressive generation

循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

1️⃣ 一句话总结

这篇论文提出了一种新的并行采样方法，通过借鉴扩散模型的思想，显著加速了循环深度语言模型的文本生成速度，在无需额外调优的情况下实现了高达5倍的效率提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14943

arXiv 提交日期: 2025-10-16

reinforcement learning llm model training self-rewarding reasoning verification last-token rlvr

LaSeR：基于末位令牌自我奖励的强化学习 / LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

1️⃣ 一句话总结

这篇论文提出了一种名为LaSeR的新方法，通过仅利用模型生成答案后最后一个令牌的预测概率来高效实现自我奖励，从而在无需复杂验证流程的情况下，同时提升大型语言模型的推理能力和自我评估性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14942

arXiv 提交日期: 2025-10-16

llm model training model evaluation process reward modeling monte carlo tree search reasoning verification step-level supervision automated evaluation

GroundedPRM：基于树引导和保真度感知的过程奖励建模用于步骤级推理 / GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为GroundedPRM的新方法，通过结合树搜索算法和外部工具验证，自动生成高质量的过程监督信号，从而显著提升大语言模型在多步推理任务中的准确性和可解释性，且所需训练数据量仅为现有最佳方法的10%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14919

arXiv 提交日期: 2025-10-16

llm model evaluation machine learning scaling laws context modeling task performance compute efficiency long-context llms

基于上下文感知的扩展定律预测任务性能 / Predicting Task Performance with Context-aware Scaling Laws

1️⃣ 一句话总结

这项研究提出了一个结合训练计算量和上下文信息来预测大语言模型下游任务表现的新框架，解决了传统扩展定律无法准确评估实际应用效果的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.15804

1️⃣ 一句话总结

arXiv ID: 2510.14980

1️⃣ 一句话总结

arXiv ID: 2510.14973

1️⃣ 一句话总结

arXiv ID: 2510.14972

1️⃣ 一句话总结

arXiv ID: 2510.14969

1️⃣ 一句话总结

arXiv ID: 2510.14967

1️⃣ 一句话总结

arXiv ID: 2510.14961

1️⃣ 一句话总结

arXiv ID: 2510.14943

1️⃣ 一句话总结

arXiv ID: 2510.14942

1️⃣ 一句话总结

arXiv ID: 2510.14919

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.15804 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14980 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14972 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14969 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14967 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14943 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14942 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14919 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.15804

arXiv ID: 2510.14980

arXiv ID: 2510.14973

arXiv ID: 2510.14972

arXiv ID: 2510.14969

arXiv ID: 2510.14967

arXiv ID: 2510.14961

arXiv ID: 2510.14943

arXiv ID: 2510.14942

arXiv ID: 2510.14919