arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Beyond the Covariance Trap: Unlocking Generalization in Same-Subject Knowledge Editing for Large Language Models 03-18

arXiv ID: 2510.08191

arXiv 提交日期: 2025-10-09

llm agents model training training-free optimization agent reinforcement learning token prior mathematical reasoning web searching

免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种无需更新模型参数的轻量级方法，通过将高质量经验知识作为先验信息来指导大语言模型的行为，从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08026

arXiv 提交日期: 2025-10-09

llm model training agents reasoning efficiency entropy control chain-of-thought reward design length optimization

PEAR：面向高效推理的阶段熵感知奖励机制 / PEAR: Phase Entropy Aware Reward for Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为PEAR的奖励机制，通过分析模型在不同推理阶段的熵值变化，智能地鼓励模型生成更简洁但依然准确的推理过程，从而在不牺牲性能的前提下显著降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08008

arXiv 提交日期: 2025-10-09

llm model training machine learning mixture-of-experts model scaling checkpoint recycling efficient pretraining parameter expansion

循环利用预训练检查点：通过混合专家模型的正交增长实现高效大语言模型预训练 / Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training

1️⃣ 一句话总结

这篇论文提出了一种通过扩展已有预训练模型的参数规模来高效复用计算资源的方法，在混合专家模型上实现了深度和宽度的正交增长，相比从头训练在相同计算预算下能显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07962

arXiv 提交日期: 2025-10-09

llm model training theory knowledge distillation reasoning expert-amateur contrast supervised fine-tuning mathematical reasoning

LightReasoner：小语言模型能否教会大语言模型推理？ / LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

1️⃣ 一句话总结

这项研究提出了一种名为LightReasoner的新方法，通过对比大小语言模型在推理过程中的行为差异，让小模型帮助大模型识别并强化其关键推理优势，从而在显著减少计算资源和数据需求的同时，大幅提升大模型的数学推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07958

arXiv 提交日期: 2025-10-09

llm reinforcement learning natural language processing question answering ambiguity handling reinforcement learning multi-hop reasoning evaluation

A²Search：基于强化学习的歧义感知问答系统 / A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个无需人工标注的智能问答系统A²Search，它能自动识别并处理有多种正确答案的模糊问题，通过强化学习优化模型，在多个问答基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07841

arXiv 提交日期: 2025-10-09

llm agents model training test-time adaptation self-improvement data augmentation fine-tuning agent evaluation

测试时自改进的LLM智能体 / Self-Improving LLM Agents at Test-Time

1️⃣ 一句话总结

这篇论文提出了一种让语言模型在测试时自我优化的方法，通过识别自身薄弱环节、自动生成类似训练样本并即时学习，仅用极少量数据就能显著提升模型性能，为构建更智能的自进化AI系统提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07793

arXiv 提交日期: 2025-10-09

biology llm agents single-cell biology multimodal integration benchmark evaluation foundation models biological annotation

LLM4Cell：面向单细胞生物学的大语言与智能体模型综述 / LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology

1️⃣ 一句话总结

这篇论文首次系统综述了58种应用于单细胞生物学研究的大语言与智能体模型，通过整合多模态数据和评估标准，揭示了该领域在数据整合、模型解释性及伦理安全方面的挑战与进展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07499

arXiv 提交日期: 2025-10-08

llm natural language processing model training long-context reasoning thought templates multi-hop inference knowledge distillation reasoning reuse

当思考遇见事实：长上下文语言模型的可复用推理 / When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

1️⃣ 一句话总结

这篇论文提出了一种名为‘思维模板’的方法，通过复用历史推理过程来指导长上下文语言模型更有效地整合多来源证据，从而提升复杂推理任务的性能，并可将优化后的模板迁移到小型模型中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07429

arXiv 提交日期: 2025-10-08

llm systems model training adaptive routing contextual bandit preference learning cost optimization online decision making

基于多臂老虎机反馈学习大语言模型路由：一种策略，多种权衡 / Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs

1️⃣ 一句话总结

这篇论文提出了一种名为BaRP的新方法，它通过模拟在线反馈训练一个大语言模型路由系统，让运营商无需重新训练就能在部署时灵活调整性能和成本之间的平衡，从而在节省开支的同时保持高质量输出。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07242

arXiv 提交日期: 2025-10-08

llm reinforcement learning model training reward modeling reasoning hybrid rewards optimization mathematical reasoning

混合强化：当奖励稀疏时，密集更好 / Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

1️⃣ 一句话总结

这篇论文提出了一种名为HERO的混合强化学习框架，通过结合确定性验证器的稳定性和奖励模型的精细反馈，有效提升大语言模型在数学推理等任务中的性能，尤其在奖励信号稀疏或答案难以验证的情况下表现更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.08191

1️⃣ 一句话总结

arXiv ID: 2510.08026

1️⃣ 一句话总结

arXiv ID: 2510.08008

1️⃣ 一句话总结

arXiv ID: 2510.07962

1️⃣ 一句话总结

arXiv ID: 2510.07958

1️⃣ 一句话总结

arXiv ID: 2510.07841

1️⃣ 一句话总结

arXiv ID: 2510.07793

1️⃣ 一句话总结

arXiv ID: 2510.07499

1️⃣ 一句话总结

arXiv ID: 2510.07429

1️⃣ 一句话总结

arXiv ID: 2510.07242

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.08191 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08026 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07962 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07958 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07841 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07793 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07499 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07429 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07242 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.08191

arXiv ID: 2510.08026

arXiv ID: 2510.08008

arXiv ID: 2510.07962

arXiv ID: 2510.07958

arXiv ID: 2510.07841

arXiv ID: 2510.07793

arXiv ID: 2510.07499

arXiv ID: 2510.07429

arXiv ID: 2510.07242