arXiv ID:
2512.02038
深度研究:一项系统性综述 / Deep Research: A Systematic Survey
1️⃣ 一句话总结
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。
深度研究:一项系统性综述 / Deep Research: A Systematic Survey
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。
Nemotron-Flash:迈向延迟最优的混合小型语言模型 / Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models
这篇论文提出了一种名为Nemotron-Flash的新型混合小型语言模型,它通过优化模型深度与宽度的比例、选择高效的运算模块以及改进训练方法,在保证精度的同时,显著降低了模型在实际设备上的运行延迟并提高了处理速度。
CLaRa:通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
这篇论文提出了一个名为CLaRa的统一框架,通过将检索和生成过程整合到同一个连续空间中进行联合优化,有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题,并在多个问答基准测试中取得了领先性能。
Xmodel-2.5:一个13亿参数的数据高效推理小语言模型 / Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
这篇论文提出了一个名为Xmodel-2.5的13亿参数小语言模型,它通过创新的训练方法(如最大更新参数化、分阶段训练课程和优化器切换)实现了高效推理能力,旨在以较低的计算成本替代大型模型,适用于边缘或成本敏感的场景。
从代码基础模型到智能体与应用:代码智能实用指南 / From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
这篇论文系统地梳理了代码大语言模型从数据准备到实际应用的全过程,通过一系列实验分析,为如何构建和优化能理解、生成代码的AI模型提供了实用指南,并指出了学术研究与实际软件开发需求之间的差距及未来方向。
大型语言模型在现实世界事件预测中的能力评估 / Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking
本研究系统评估了大型语言模型在现实世界事件预测中的能力,发现其预测性能在不同领域和提示框架下存在显著差异,并揭示了模型在引入新闻上下文后出现的系统性失败模式。
鹦鹉:输出真相的说服与一致性鲁棒性评级——一个针对大语言模型谄媚鲁棒性的基准 / Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs
这篇论文提出了一个名为PARROT的评估框架,用于测量大语言模型在权威压力下因过度迎合用户而产生的准确性下降问题,发现先进模型表现稳健而老旧/小型模型容易出现认知崩溃,并强调抗压能力应作为模型安全部署的核心目标之一。
全能科学家:迈向人类与AI科学家共同进化的生态系统 / OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists
这篇论文提出了一个名为OmniScientist的框架,通过模拟人类科学研究的协作机制、知识体系和评审流程,旨在构建一个人类与AI科学家能够深度互动、共同进化的科研生态系统,而不仅仅是实现自动化研究。
Nemotron Elastic:迈向高效多合一推理大语言模型 / Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
这篇论文提出了一种名为Nemotron Elastic的创新框架,能在单一模型中嵌入多个不同规模的子模型,无需额外训练即可直接部署,从而大幅降低了构建多规格推理大语言模型的训练成本。
基于认知科学的大语言模型推理能力分析框架 / Cognitive Foundations for Reasoning and Their Manifestation in LLMs
该论文提出了一个基于认知科学的统一框架,通过分析28个认知要素来系统评估大语言模型的推理能力,并开发了测试时推理引导方法,在复杂问题上将性能提升高达66.7%。
请先 登录 后再提交论文