arXiv最新AI论文速览速学

📄

2512.04072

🤖 系统

12-05 15:08

llm model training agents

self-distillation cognitive skills reinforcement learning supervised fine-tuning reasoning

SkillFactory：用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors

1️⃣ 一句话总结

这篇论文提出了一种名为SkillFactory的自蒸馏方法，它通过重新组织模型自身生成的样本进行监督微调，使模型在强化学习前初步掌握验证、回溯等认知技能，从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03771

🤖 系统

12-05 15:07

llm model evaluation theory

adversarial attack safety alignment representation hijacking in-context learning interpretability

上下文表示劫持 / In-Context Representation Hijacking

1️⃣ 一句话总结

这篇论文提出了一种名为‘Doublespeak’的简单攻击方法，通过在多轮对话示例中系统性地将有害词汇（如‘炸弹’）替换为无害词汇（如‘胡萝卜’），使得大语言模型在内部将无害词汇的语义理解为有害内容，从而绕过模型的安全防护机制。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20494

🤖 系统

12-05 15:05

multi-modal llm model evaluation

adversarial attack multimodal llms security model disruption transferability

对抗性混淆攻击：扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法，它通过向图像中添加微小的、人眼难以察觉的干扰，就能让多模态大语言模型（如GPT-5.1）产生混乱或自信的错误回答，从而破坏AI代理的可靠运行。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03073

🤖 系统

12-05 15:05

llm model training data

open source models model ecosystem market concentration model downloads data transparency

开放智能的经济学：追踪模型生态系统中的权力与参与 / Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem

1️⃣ 一句话总结

这篇论文通过分析Hugging Face平台超过85万个AI模型的下载数据和元数据，揭示了开放模型经济中权力格局的重大转变：美国科技巨头的统治地位正被独立开发者、社区组织以及以DeepSeek和Qwen为代表的中国产业力量所削弱，同时模型规模、多模态能力等技术特性快速演进，但数据透明度却在下降。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04987

🤖 系统

12-05 14:51

agents llm systems

agentic ai environment generation infrastructure policy learning sim-to-real

Nex-N1：通过统一生态系统构建大规模环境以训练智能体模型 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

1️⃣ 一句话总结

这篇论文提出了一个名为Nex的统一生态系统，通过自动生成多样且复杂的交互环境来训练大语言模型成为自主智能体，其训练的Nex-N1模型在复杂任务上表现优异，媲美顶尖商业模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04746

🤖 系统

12-05 14:49

llm model training machine learning

quantization post-training low-bit efficiency large language models

SignRoundV2：弥合大语言模型极低位宽后训练量化中的性能差距 / SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为SignRoundV2的新方法，它通过一种快速的敏感度指标和轻量级预调优技术，成功地将大语言模型压缩到极低的位宽（如2比特或4比特），同时保持了与原始高精度模型非常接近的性能，解决了此类压缩通常导致性能严重下降的难题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.04220

🤖 系统

12-05 14:46

llm reinforcement learning agents

policy optimization training collapse tool-integrated rl likelihood regularization multi-step reasoning

论搜索R1中GRPO的崩溃：懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

1️⃣ 一句话总结

这篇论文发现，在工具集成强化学习中，一种名为‘懒惰似然位移’的现象会导致模型训练崩溃，并提出了一个轻量级的正则化方法来解决这个问题，从而显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02589

🤖 系统

12-05 14:38

llm agents systems

academic writing multi-agent system editor plugin model context protocol workflow automation

PaperDebugger：一个基于插件的多智能体系统，用于在编辑器内进行学术写作、审阅和编辑 / PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

1️⃣ 一句话总结

这篇论文提出了一个名为PaperDebugger的智能写作助手，它能直接嵌入到LaTeX编辑器内部，通过多个AI智能体协同工作，帮助用户在写作过程中进行实时修改、审阅和文献查找，解决了传统外部写作助手无法深度理解文档状态和结构的问题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20233

🤖 系统

12-05 14:36

llm natural language processing model evaluation

fact-checking explainable ai model steering internal knowledge self-refinement

REFLEX：通过将真实性解构为风格与实质，实现自我优化的可解释事实核查 / REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

1️⃣ 一句话总结

本文提出了一种名为REFLEX的新型事实核查方法，它通过将‘真实性’分解为表达风格和事实实质，并利用大模型内部知识进行自我优化，从而在无需大量依赖外部知识库的情况下，实现了更准确、可解释且高效的事实核查。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20344

🤖 系统

12-04 15:11

llm natural language processing theory

analogical reasoning relational concepts representation analysis cognitive comparison model capabilities

类比推理的奇特案例：探究大语言模型中的类比推理能力 / The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

1️⃣ 一句话总结

这篇论文研究发现，大语言模型虽然能在一定程度上编码和运用高级关系概念进行类比推理，但其能力仍有限，尤其在将已知关系应用到新情境时存在困难，这与人类的认知方式既有相似之处也存在明显差距。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.04072

1️⃣ 一句话总结

2512.03771

1️⃣ 一句话总结

2511.20494

1️⃣ 一句话总结

2512.03073

1️⃣ 一句话总结

2512.04987

1️⃣ 一句话总结

2512.04746

1️⃣ 一句话总结

2512.04220

1️⃣ 一句话总结

2512.02589

1️⃣ 一句话总结

2511.20233

1️⃣ 一句话总结

2511.20344

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.04072 📝

1️⃣ 一句话总结

2512.03771 📝

1️⃣ 一句话总结

2511.20494 📝

1️⃣ 一句话总结

2512.03073 📝

1️⃣ 一句话总结

2512.04987 📝

1️⃣ 一句话总结

2512.04746 📝

1️⃣ 一句话总结

2512.04220 📝

1️⃣ 一句话总结

2512.02589 📝

1️⃣ 一句话总结

2511.20233 📝

1️⃣ 一句话总结

2511.20344 📝

1️⃣ 一句话总结

获取最新论文摘要

2512.04072

2512.03771

2511.20494

2512.03073

2512.04987

2512.04746

2512.04220

2512.02589

2511.20233

2511.20344