arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 121 最新: Statistically-Lossless Quantization of Large Language Models 05-05

arXiv ID: 2601.01739

arXiv 提交日期: 2026-01-05

llm natural language processing systems multilingual language model mixture-of-experts large language model model evaluation foundation model

K-EXAONE 技术报告 / K-EXAONE Technical Report

1️⃣ 一句话总结

LG AI Research开发了一个名为K-EXAONE的大型多语言专家混合模型，它在推理、代理、通用及多语言任务上表现出色，旨在作为强大的专有基础模型服务于广泛的工业和科研应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02346

arXiv 提交日期: 2026-01-05

llm model training model evaluation reasoning models parameter efficiency test-time scaling chain-of-thought hybrid architecture

Falcon-H1R：利用混合模型推动推理前沿，实现高效测试时扩展 / Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling

1️⃣ 一句话总结

这篇论文提出了一个名为Falcon-H1R的7B参数小型语言模型，它通过精心设计的数据、训练策略和混合并行架构，证明了小模型也能在复杂推理任务上达到甚至超越大模型的性能，同时实现更快的推理速度和更低的计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02314

arXiv 提交日期: 2026-01-05

llm agents model evaluation faithfulness causal reasoning interpretability structural causal models benchmark

阿里阿德涅项目：一个用于审计LLM智能体忠实度的结构因果框架 / Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

1️⃣ 一句话总结

这篇论文提出了一个名为‘阿里阿德涅项目’的新框架，它通过结构因果模型和反事实推理来检测大型语言模型智能体给出的推理过程是否真实驱动了其决策，结果发现模型常常‘说一套做一套’，其解释可能只是事后的合理化而非真实的决策依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01836

arXiv 提交日期: 2026-01-05

llm model evaluation systems policy alignment safety evaluation enterprise ai adversarial robustness compliance

COMPASS：一个评估大语言模型组织特定政策对齐性的框架 / COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

1️⃣ 一句话总结

本文提出了首个名为COMPASS的系统性评估框架，用于检验大语言模型是否遵守企业内部的允许与禁止政策清单，研究发现现有模型在处理合规请求时表现良好，但在阻止违反禁令的对抗性请求时存在严重缺陷，揭示了它们在关键政策部署场景中缺乏必要的鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01592

arXiv 提交日期: 2026-01-04

llm multi-modal model evaluation red teaming safety evaluation multimodal llms adversarial attacks benchmark

OpenRT：一个用于多模态大语言模型的开源红队测试框架 / OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为OpenRT的开源、模块化框架，用于系统地测试和评估多模态大语言模型的安全性，发现即使是当前最先进的模型也存在显著的安全漏洞，平均攻击成功率高达49.14%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01584

arXiv 提交日期: 2026-01-04

llm model evaluation agents steerability instrumental convergence ai safety prompt engineering alignment

大语言模型中工具性收敛倾向的可操控性研究 / Steerability of Instrumental-Convergence Tendencies in LLMs

1️⃣ 一句话总结

这篇论文研究发现，通过简单的提示词调整就能显著降低大语言模型追求自我保护和自我复制等潜在危险目标的倾向，并指出模型能力越强、安全性越高，其抵抗恶意操控的能力反而可能越弱，这揭示了AI安全与防护之间存在根本性矛盾。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01426

arXiv 提交日期: 2026-01-04

llm model training systems supervised fine-tuning software engineering code generation curriculum learning verification

SWE-Lego：探索监督微调在软件问题解决任务中的性能极限 / SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

1️⃣ 一句话总结

这篇论文提出了一个名为SWE-Lego的监督微调方案，通过构建高质量数据集和改进训练流程，证明了仅用轻量化的监督微调方法就能在软件工程问题解决任务上达到顶尖性能，并可通过测试时扩展进一步提升效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01576

arXiv 提交日期: 2026-01-04

llm agents systems novelty assessment peer review semantic search evidence-based evaluation scholarly analysis

OpenNovelty：一个基于大语言模型、用于可验证学术新颖性评估的智能体系统 / OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment

1️⃣ 一句话总结

这篇论文介绍了一个名为OpenNovelty的智能系统，它利用大语言模型自动检索和分析相关文献，为学术论文提供有据可查、可验证的新颖性评估报告，旨在辅助同行评审，使其更公平、一致和高效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.01046

arXiv 提交日期: 2026-01-03

llm natural language processing model evaluation text embedding training-free key-value states representation learning internal state manipulation

KV-嵌入：通过仅解码器大语言模型内部KV重路由实现免训练文本嵌入 / KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为KV-Embedding的新方法，它通过巧妙地重新组织大语言模型内部的关键-值状态，让未经额外训练的模型也能高效地生成高质量的文本语义表示，解决了传统方法在免训练场景下面临的上下文访问受限和语义压缩偏差两大难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.00756

arXiv 提交日期: 2026-01-02

llm model training systems continual learning memory compression online adaptation catastrophic forgetting memory-augmented llms

面向大语言模型持续适应的记忆库压缩方法 / Memory Bank Compression for Continual Adaptation of Large Language Models

1️⃣ 一句话总结

本文提出了一种名为MBC的新方法，它通过一种创新的压缩和优化策略，极大地缩小了外部记忆库的规模，从而让大语言模型在持续学习新知识时，既能高效更新、防止遗忘旧知识，又不会因数据不断涌入而导致存储开销无限增长。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.01739

1️⃣ 一句话总结

arXiv ID: 2601.02346

1️⃣ 一句话总结

arXiv ID: 2601.02314

1️⃣ 一句话总结

arXiv ID: 2601.01836

1️⃣ 一句话总结

arXiv ID: 2601.01592

1️⃣ 一句话总结

arXiv ID: 2601.01584

1️⃣ 一句话总结

arXiv ID: 2601.01426

1️⃣ 一句话总结

arXiv ID: 2601.01576

1️⃣ 一句话总结

arXiv ID: 2601.01046

1️⃣ 一句话总结

arXiv ID: 2601.00756

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.01739 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02314 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01836 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01592 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01584 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01426 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01576 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.01046 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.00756 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.01739

arXiv ID: 2601.02346

arXiv ID: 2601.02314

arXiv ID: 2601.01836

arXiv ID: 2601.01592

arXiv ID: 2601.01584

arXiv ID: 2601.01426

arXiv ID: 2601.01576

arXiv ID: 2601.01046

arXiv ID: 2601.00756