arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 149 72小时内新更新论文 72h更新 315 最新: Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation 03-18

arXiv ID: 2512.02038

arXiv 提交日期: 2025-11-24

llm agents systems survey research agents reasoning retrieval-augmented generation evaluation

深度研究：一项系统性综述 / Deep Research: A Systematic Survey

1️⃣ 一句话总结

这篇论文系统性地综述了如何将大语言模型与外部工具（如搜索引擎）结合，使其成为能完成复杂、开放式任务的‘研究智能体’，并梳理了其技术路线、核心组件、优化方法以及面临的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18890

arXiv 提交日期: 2025-11-24

llm model training systems small language models latency optimization model architecture efficient attention evolutionary search

Nemotron-Flash：迈向延迟最优的混合小型语言模型 / Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Nemotron-Flash的新型混合小型语言模型，它通过优化模型深度与宽度的比例、选择高效的运算模块以及改进训练方法，在保证精度的同时，显著降低了模型在实际设备上的运行延迟并提高了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18659

arXiv 提交日期: 2025-11-24

llm natural language processing model training retrieval-augmented generation latent reasoning knowledge compression end-to-end training question answering

CLaRa：通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为CLaRa的统一框架，通过将检索和生成过程整合到同一个连续空间中进行联合优化，有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题，并在多个问答基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19496

arXiv 提交日期: 2025-11-23

llm model training systems small language model parameter-efficient training reasoning edge deployment mixed-precision training

Xmodel-2.5：一个13亿参数的数据高效推理小语言模型 / Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

1️⃣ 一句话总结

这篇论文提出了一个名为Xmodel-2.5的13亿参数小语言模型，它通过创新的训练方法（如最大更新参数化、分阶段训练课程和优化器切换）实现了高效推理能力，旨在以较低的计算成本替代大型模型，适用于边缘或成本敏感的场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18538

arXiv 提交日期: 2025-11-23

llm model training systems code generation software development model lifecycle benchmark evaluation fine-tuning

从代码基础模型到智能体与应用：代码智能实用指南 / From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

1️⃣ 一句话总结

这篇论文系统地梳理了代码大语言模型从数据准备到实际应用的全过程，通过一系列实验分析，为如何构建和优化能理解、生成代码的AI模型提供了实用指南，并指出了学术研究与实际软件开发需求之间的差距及未来方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18394

arXiv 提交日期: 2025-11-23

llm model evaluation agents event forecasting prediction markets calibration error news context failure modes

大型语言模型在现实世界事件预测中的能力评估 / Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking

1️⃣ 一句话总结

本研究系统评估了大型语言模型在现实世界事件预测中的能力，发现其预测性能在不同领域和提示框架下存在显著差异，并揭示了模型在引入新闻上下文后出现的系统性失败模式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17220

arXiv 提交日期: 2025-11-21

llm benchmark model evaluation sycophancy robustness social pressure behavioral taxonomy confidence calibration

鹦鹉：输出真相的说服与一致性鲁棒性评级——一个针对大语言模型谄媚鲁棒性的基准 / Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为PARROT的评估框架，用于测量大语言模型在权威压力下因过度迎合用户而产生的准确性下降问题，发现先进模型表现稳健而老旧/小型模型容易出现认知崩溃，并强调抗压能力应作为模型安全部署的核心目标之一。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16931

arXiv 提交日期: 2025-11-21

agents systems llm scientific discovery multi-agent collaboration research ecosystem peer review knowledge networks

全能科学家：迈向人类与AI科学家共同进化的生态系统 / OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists

1️⃣ 一句话总结

这篇论文提出了一个名为OmniScientist的框架，通过模拟人类科学研究的协作机制、知识体系和评审流程，旨在构建一个人类与AI科学家能够深度互动、共同进化的科研生态系统，而不仅仅是实现自动化研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16664

arXiv 提交日期: 2025-11-20

llm model training systems model compression multi-scale models mamba-attention knowledge distillation efficient deployment

Nemotron Elastic：迈向高效多合一推理大语言模型 / Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为Nemotron Elastic的创新框架，能在单一模型中嵌入多个不同规模的子模型，无需额外训练即可直接部署，从而大幅降低了构建多规格推理大语言模型的训练成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16660

arXiv 提交日期: 2025-11-20

llm theory model evaluation cognitive science reasoning analysis evaluation framework reasoning guidance cognitive elements

基于认知科学的大语言模型推理能力分析框架 / Cognitive Foundations for Reasoning and Their Manifestation in LLMs

1️⃣ 一句话总结

该论文提出了一个基于认知科学的统一框架，通过分析28个认知要素来系统评估大语言模型的推理能力，并开发了测试时推理引导方法，在复杂问题上将性能提升高达66.7%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.02038

1️⃣ 一句话总结

arXiv ID: 2511.18890

1️⃣ 一句话总结

arXiv ID: 2511.18659

1️⃣ 一句话总结

arXiv ID: 2511.19496

1️⃣ 一句话总结

arXiv ID: 2511.18538

1️⃣ 一句话总结

arXiv ID: 2511.18394

1️⃣ 一句话总结

arXiv ID: 2511.17220

1️⃣ 一句话总结

arXiv ID: 2511.16931

1️⃣ 一句话总结

arXiv ID: 2511.16664

1️⃣ 一句话总结

arXiv ID: 2511.16660

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.02038 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19496 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18538 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18394 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17220 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16664 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16660 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.02038

arXiv ID: 2511.18890

arXiv ID: 2511.18659

arXiv ID: 2511.19496

arXiv ID: 2511.18538

arXiv ID: 2511.18394

arXiv ID: 2511.17220

arXiv ID: 2511.16931

arXiv ID: 2511.16664

arXiv ID: 2511.16660