上下文表示劫持 / In-Context Representation Hijacking
1️⃣ 一句话总结
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
请先 登录 后再提交论文
上下文表示劫持 / In-Context Representation Hijacking
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
REFLEX:通过将真实性解构为风格与实质,实现自我优化的可解释事实核查 / REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance
本文提出了一种名为REFLEX的新型事实核查方法,它通过将‘真实性’分解为表达风格和事实实质,并利用大模型内部知识进行自我优化,从而在无需大量依赖外部知识库的情况下,实现了更准确、可解释且高效的事实核查。
DraCo:将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
这篇论文提出了一种名为DraCo的新方法,它通过先生成低分辨率草稿图像进行预览和视觉规划,再利用模型自身能力进行语义验证和选择性修正,从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。
RULER-Bench:探究面向视觉基础智能的下一代视频生成模型的规则推理能力 / RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
这篇论文提出了一个名为RULER-Bench的新基准测试,专门用于系统评估视频生成模型是否能够理解和遵循物理、逻辑等各类规则进行推理,结果发现当前最先进的模型在此方面仍有很大不足,为推动视频模型向具备更强推理能力的视觉基础智能发展提供了重要工具和见解。
面具可能成为干扰:论扩散语言模型中的上下文理解 / Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
这篇论文研究发现,新型的掩码扩散语言模型在理解文本上下文时存在两个主要问题:一是过分关注局部信息而忽略远处内容,二是生成文本所需的额外掩码符号会严重干扰模型对原始信息的处理;作者通过提出一种新的训练方法,有效减少了掩码的干扰,提升了模型的稳健性。
InnoGym:评估AI智能体创新潜力的基准测试 / InnoGym: Benchmarking the Innovation Potential of AI Agents
这篇论文提出了首个专门评估AI智能体创新潜力的基准测试框架InnoGym,它通过‘性能增益’和‘方法新颖性’两个指标来衡量智能体是否不仅能给出正确答案,还能提出原创性的解决方案,揭示了当前AI在创造性与有效性之间存在差距。
理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models
这篇论文通过分析发现,统一多模态模型中的理解部分可以大幅压缩而不影响性能,但生成部分对压缩非常敏感,为此作者提出了一种基于稀疏激活的专家混合适配方法,使模型在仅激活约一半参数的情况下,就能达到与完整模型相当的性能。