arXiv ID:
2512.24601
递归语言模型 / Recursive Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为‘递归语言模型’的新方法,它能让大语言模型像编程一样,通过自我调用和分解的方式,高效处理远超其本身能力范围的超长文本,从而大幅提升长文本任务的处理效果。
递归语言模型 / Recursive Language Models
这篇论文提出了一种名为‘递归语言模型’的新方法,它能让大语言模型像编程一样,通过自我调用和分解的方式,高效处理远超其本身能力范围的超长文本,从而大幅提升长文本任务的处理效果。
奇妙的推理行为及其发现:推理过程的非监督式探索 / Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process
这篇论文提出了一种名为RISE的非监督框架,通过稀疏自编码器在大语言模型的激活空间中自动发现并分离出可解释的推理行为(如反思、回溯),并能对这些行为进行针对性干预以可控地引导模型的推理过程,而无需重新训练模型。
三维形状生成中的记忆化现象:一项实证研究 / Memorization in 3D Shape Generation: An Empirical Study
这篇论文通过设计一个评估框架,量化了3D生成模型对训练数据的记忆程度,并发现数据模态、多样性以及模型设计(如引导强度和增强技术)都会影响记忆化,进而提出了在不降低生成质量的前提下减少记忆化的有效策略。
ProGuard:迈向主动式多模态安全防护 / ProGuard: Towards Proactive Multimodal Safeguard
这篇论文提出了一个名为ProGuard的主动式多模态安全防护系统,它通过强化学习训练,无需调整现有模型就能识别并描述前所未见的安全风险,在风险检测和描述能力上相比传统被动方法有显著提升。
OmniAgent:用于全模态音视频理解的音频引导主动感知智能体 / OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
这篇论文提出了一个名为OmniAgent的智能体,它能够主动利用音频线索来动态调用工具,从而更精细地理解和分析音视频内容,在多个基准测试中取得了领先的性能。
M-ErasureBench:一个用于扩散模型概念擦除的综合多模态评估基准 / M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
这篇论文提出了首个超越文本提示的多模态概念擦除评估基准M-ErasureBench,并设计了一个名为IRECE的即插即用模块,能有效提升扩散模型在图像编辑等真实场景下抵御通过嵌入或潜在代码重新生成有害或受保护概念的能力。
GraphLocator:基于图引导因果推理的软件问题定位方法 / GraphLocator: Graph-guided Causal Reasoning for Issue Localization
这篇论文提出了一种名为GraphLocator的新方法,它通过构建因果问题图来模拟软件问题背后的逻辑关系,从而更准确地自动定位需要修改的源代码位置,有效解决了自然语言描述与代码实现之间的语义鸿沟问题。
少数关键令牌决定成败:基于熵的视觉-语言模型攻击方法 / Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models
这篇论文发现,视觉-语言模型在生成文本时,只有大约20%的关键位置(高熵令牌)对输出结果起决定性作用,通过集中攻击这些位置,就能用很小的代价让模型产生大量有害内容,从而揭示了现有模型安全机制的重大漏洞。
SciEvalKit:一个用于科学通用智能的开源评估工具包 / SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
这篇论文介绍了一个名为SciEvalKit的开源工具包,它专门用来评估AI模型在多个科学领域的综合能力,比如科学推理、代码生成和知识理解,旨在为科学AI的发展提供一个标准化且可扩展的评测平台。
SmartSnap:面向自验证智能体的主动证据寻求范式 / SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
这篇论文提出了一种名为SmartSnap的新方法,让AI智能体在执行复杂任务时能主动收集少量关键证据来证明自己完成了任务,从而大幅降低了验证成本并提升了可靠性。
请先 登录 后再提交论文