SkillFactory:用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors
1️⃣ 一句话总结
这篇论文提出了一种名为SkillFactory的自蒸馏方法,它通过重新组织模型自身生成的样本进行监督微调,使模型在强化学习前初步掌握验证、回溯等认知技能,从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。
请先 登录 后再提交论文
SkillFactory:用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors
这篇论文提出了一种名为SkillFactory的自蒸馏方法,它通过重新组织模型自身生成的样本进行监督微调,使模型在强化学习前初步掌握验证、回溯等认知技能,从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。
上下文表示劫持 / In-Context Representation Hijacking
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
开放智能的经济学:追踪模型生态系统中的权力与参与 / Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem
这篇论文通过分析Hugging Face平台超过85万个AI模型的下载数据和元数据,揭示了开放模型经济中权力格局的重大转变:美国科技巨头的统治地位正被独立开发者、社区组织以及以DeepSeek和Qwen为代表的中国产业力量所削弱,同时模型规模、多模态能力等技术特性快速演进,但数据透明度却在下降。
Nex-N1:通过统一生态系统构建大规模环境以训练智能体模型 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
这篇论文提出了一个名为Nex的统一生态系统,通过自动生成多样且复杂的交互环境来训练大语言模型成为自主智能体,其训练的Nex-N1模型在复杂任务上表现优异,媲美顶尖商业模型。
SignRoundV2:弥合大语言模型极低位宽后训练量化中的性能差距 / SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs
这篇论文提出了一个名为SignRoundV2的新方法,它通过一种快速的敏感度指标和轻量级预调优技术,成功地将大语言模型压缩到极低的位宽(如2比特或4比特),同时保持了与原始高精度模型非常接近的性能,解决了此类压缩通常导致性能严重下降的难题。
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
PaperDebugger:一个基于插件的多智能体系统,用于在编辑器内进行学术写作、审阅和编辑 / PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing
这篇论文提出了一个名为PaperDebugger的智能写作助手,它能直接嵌入到LaTeX编辑器内部,通过多个AI智能体协同工作,帮助用户在写作过程中进行实时修改、审阅和文献查找,解决了传统外部写作助手无法深度理解文档状态和结构的问题。
REFLEX:通过将真实性解构为风格与实质,实现自我优化的可解释事实核查 / REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
本文提出了一种名为REFLEX的新型事实核查方法,它通过将‘真实性’分解为表达风格和事实实质,并利用大模型内部知识进行自我优化,从而在无需大量依赖外部知识库的情况下,实现了更准确、可解释且高效的事实核查。
类比推理的奇特案例:探究大语言模型中的类比推理能力 / The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models
这篇论文研究发现,大语言模型虽然能在一定程度上编码和运用高级关系概念进行类比推理,但其能力仍有限,尤其在将已知关系应用到新情境时存在困难,这与人类的认知方式既有相似之处也存在明显差距。