arXiv最新AI论文速览速学

🔍

标签: #llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 127 最新: InCoder-32B: Code Foundation Model for Industrial Scenarios 03-22

arXiv ID: 2601.02780

arXiv 提交日期: 2026-01-06

llm model training agents mixture-of-experts speculative decoding multi-token prediction knowledge distillation long context

MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型，它通过创新的专家混合结构和训练方法，在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力，并且推理速度更快。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01887

arXiv 提交日期: 2026-01-05

llm model training model evaluation safety alignment fine-tuning low-rank structure single-shot recovery utility preservation

一针见血的安全修复：用单个实例修补微调后的大语言模型 / Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

1️⃣ 一句话总结

这篇论文发现，只需使用一个安全示例，就能高效且低成本地修复因微调而受损的大语言模型安全性，且不会影响模型的其他有用功能，其有效性源于安全梯度具有的低秩结构。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02075

arXiv 提交日期: 2026-01-05

llm agents systems molecular dynamics code generation domain adaptation multi-agent system ai for science

MDAgent2：用于分子动力学代码生成与知识问答的大语言模型 / MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

1️⃣ 一句话总结

这篇论文提出了一个名为MDAgent2的端到端框架，它通过构建高质量数据集和创新的训练方法，训练出专门用于分子动力学领域的大语言模型，不仅能回答专业问题，还能自动生成可执行的模拟代码，从而显著降低了进行复杂科学仿真的技术门槛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02151

arXiv 提交日期: 2026-01-05

model training machine learning llm fine-tuning catastrophic forgetting entropy domain adaptation gradient suppression

熵自适应微调：解决置信冲突以缓解遗忘 / Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

1️⃣ 一句话总结

这篇论文提出了一种名为‘熵自适应微调’的新方法，通过识别并抑制模型自身高度自信但与外部监督相冲突的‘置信冲突’数据，在保持模型下游任务性能的同时，有效缓解了传统监督微调导致的灾难性遗忘问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02179

arXiv 提交日期: 2026-01-05

llm model evaluation agents confidence estimation multi-turn dialogue calibration hallucination mitigation evaluation framework

大语言模型在多轮对话中的置信度估计 / Confidence Estimation for LLMs in Multi-turn Interactions

1️⃣ 一句话总结

这篇论文首次系统性地研究了大语言模型在多轮对话中的置信度估计问题，发现现有方法效果不佳，并提出了一种新的评估框架和一个表现相对更好的探测方法，为构建更可靠的对话智能体奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02553

arXiv 提交日期: 2026-01-05

llm agents systems memory systems semantic compression efficient retrieval lifelong learning agent architecture

SimpleMem：面向大语言模型智能体的高效终身记忆框架 / SimpleMem: Efficient Lifelong Memory for LLM Agents

1️⃣ 一句话总结

这篇论文提出了一个名为SimpleMem的高效记忆框架，它通过语义无损压缩技术，将智能体过去的交互经验提炼成紧凑且结构化的记忆单元，从而在显著降低计算成本的同时，大幅提升了智能体在长期任务中的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01739

arXiv 提交日期: 2026-01-05

llm natural language processing systems multilingual language model mixture-of-experts large language model model evaluation foundation model

K-EXAONE 技术报告 / K-EXAONE Technical Report

1️⃣ 一句话总结

LG AI Research开发了一个名为K-EXAONE的大型多语言专家混合模型，它在推理、代理、通用及多语言任务上表现出色，旨在作为强大的专有基础模型服务于广泛的工业和科研应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02346

arXiv 提交日期: 2026-01-05

llm model training model evaluation reasoning models parameter efficiency test-time scaling chain-of-thought hybrid architecture

Falcon-H1R：利用混合模型推动推理前沿，实现高效测试时扩展 / Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

1️⃣ 一句话总结

这篇论文提出了一个名为Falcon-H1R的7B参数小型语言模型，它通过精心设计的数据、训练策略和混合并行架构，证明了小模型也能在复杂推理任务上达到甚至超越大模型的性能，同时实现更快的推理速度和更低的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02314

arXiv 提交日期: 2026-01-05

llm agents model evaluation faithfulness causal reasoning interpretability structural causal models benchmark

阿里阿德涅项目：一个用于审计LLM智能体忠实度的结构因果框架 / Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

1️⃣ 一句话总结

这篇论文提出了一个名为‘阿里阿德涅项目’的新框架，它通过结构因果模型和反事实推理来检测大型语言模型智能体给出的推理过程是否真实驱动了其决策，结果发现模型常常‘说一套做一套’，其解释可能只是事后的合理化而非真实的决策依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01836

arXiv 提交日期: 2026-01-05

llm model evaluation systems policy alignment safety evaluation enterprise ai adversarial robustness compliance

COMPASS：一个评估大语言模型组织特定政策对齐性的框架 / COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

1️⃣ 一句话总结

本文提出了首个名为COMPASS的系统性评估框架，用于检验大语言模型是否遵守企业内部的允许与禁止政策清单，研究发现现有模型在处理合规请求时表现良好，但在阻止违反禁令的对抗性请求时存在严重缺陷，揭示了它们在关键政策部署场景中缺乏必要的鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.02780

1️⃣ 一句话总结

arXiv ID: 2601.01887

1️⃣ 一句话总结

arXiv ID: 2601.02075

1️⃣ 一句话总结

arXiv ID: 2601.02151

1️⃣ 一句话总结

arXiv ID: 2601.02179

1️⃣ 一句话总结

arXiv ID: 2601.02553

1️⃣ 一句话总结

arXiv ID: 2601.01739

1️⃣ 一句话总结

arXiv ID: 2601.02346

1️⃣ 一句话总结

arXiv ID: 2601.02314

1️⃣ 一句话总结

arXiv ID: 2601.01836

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.02780 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01887 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02075 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02151 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02179 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01739 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02314 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01836 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.02780

arXiv ID: 2601.01887

arXiv ID: 2601.02075

arXiv ID: 2601.02151

arXiv ID: 2601.02179

arXiv ID: 2601.02553

arXiv ID: 2601.01739

arXiv ID: 2601.02346

arXiv ID: 2601.02314

arXiv ID: 2601.01836