arXiv ID:
2604.06695
推理失败之处,步骤流中断之所 / Reasoning Fails Where Step Flow Breaks
1️⃣ 一句话总结
这篇论文发现大型推理模型在长链思考中会出现信息流中断问题,并提出了一种无需重新训练就能修复这些问题、提升模型在数学和科学任务上表现的新方法。
推理失败之处,步骤流中断之所 / Reasoning Fails Where Step Flow Breaks
这篇论文发现大型推理模型在长链思考中会出现信息流中断问题,并提出了一种无需重新训练就能修复这些问题、提升模型在数学和科学任务上表现的新方法。
静止的注意力保持静止:打破视觉惯性以缓解认知幻觉 / Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation
这篇论文发现多模态大语言模型中的视觉注意力存在‘惯性’问题,即注意力一旦在解码初期固定就难以动态转移,导致模型难以进行物体间关系推理而产生‘认知幻觉’,并提出了一种无需训练的方法来打破这种惯性,有效缓解了此类幻觉。
TensorLens:通过高阶注意力张量进行端到端的Transformer分析 / TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors
这篇论文提出了一个名为TensorLens的新方法,它用一个统一的高阶注意力张量来完整表示整个Transformer模型的计算过程,为模型可解释性研究提供了更强大的分析基础。
聪明的副作用:多模态大语言模型在多图推理中的安全风险 / The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning
这篇论文发现,随着多模态大语言模型处理多图推理的能力越强,它们反而更容易产生安全漏洞,因为模型可能过度专注于解题而忽视了安全约束。
LSRIF:用于指令遵循的逻辑结构化强化学习 / LSRIF: Logic-Structured Reinforcement Learning for Instruction Following
这篇论文提出了一种名为LSRIF的新训练框架,它通过显式地建模指令中的逻辑结构(如顺序、条件和并行关系),并设计对应的结构化奖励方法,显著提升了大语言模型遵循复杂指令和进行逻辑推理的能力。
绘制信息流:揭示视频大语言模型中隐藏的信息传递路径 / Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
这项研究通过分析视频大语言模型内部工作机制,揭示了其进行时间推理时遵循的固定信息流动模式,并发现模型在保留核心性能的同时可以大幅简化注意力连接。
请先 登录 后再提交论文