arXiv ID:
2602.07689
视频的思维过程推理 / Process-of-Thought Reasoning for Videos
1️⃣ 一句话总结
这篇论文提出了一个名为‘思维过程’的视频推理框架,它将复杂的视频理解任务分解成一系列可验证的步骤,从而让推理过程更清晰、更准确,并减少错误,同时适用于不同的现有模型。
视频的思维过程推理 / Process-of-Thought Reasoning for Videos
这篇论文提出了一个名为‘思维过程’的视频推理框架,它将复杂的视频理解任务分解成一系列可验证的步骤,从而让推理过程更清晰、更准确,并减少错误,同时适用于不同的现有模型。
ESMFold中AI蛋白质折叠的机制研究 / Mechanisms of AI Protein Folding in ESMFold
这篇论文通过分析AI模型ESMFold折叠蛋白质的过程,揭示了它分两步工作:先识别氨基酸的生化特性,再构建它们之间的空间结构关系,从而让我们能理解和干预AI预测蛋白质结构的内在机制。
迈向具有最坏情况保证与尺度感知可解释性 / Towards Worst-Case Guarantees with Scale-Aware Interpretability
这篇论文提出了一种名为‘尺度感知可解释性’的新研究框架,旨在借鉴物理学中的重正化理论,开发出能够追踪神经网络在不同尺度上如何组合特征、并保证对噪声影响的可靠解释工具,以提升AI模型的可解释性与安全性。
通过正交正则化识别可干预与可解释的特征 / Identifying Intervenable and Interpretable Features via Orthogonality Regularization
这篇论文提出了一种使用正交正则化的方法,在微调语言模型时让特征变得几乎正交,从而减少特征间的干扰,提升特征的可解释性和可干预性,同时保持模型性能基本不变。
大语言模型中的拒绝行为不止于单一方向 / There Is More to Refusal in Large Language Models than a Single Direction
这篇论文研究发现,大语言模型中的拒绝行为并非由单一的激活方向控制,而是对应多个几何上不同的方向,但这些方向都像一个共享的‘一维旋钮’,主要影响模型‘如何拒绝’而非‘是否拒绝’的核心行为。
WMVLM:通过视觉语言模型评估扩散模型图像水印 / WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models
这篇论文提出了一个名为WMVLM的统一评估框架,它利用视觉语言模型来全面、可解释地评估扩散模型生成图像中的水印质量与安全性,解决了现有方法在评估不同类型水印时存在的诸多局限。
概念成分分析:一种用于大语言模型概念提取的原则性方法 / Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs
这篇论文提出了一种名为‘概念成分分析’的新方法,它基于一个理论模型,通过线性分解大语言模型的内部表示来提取人类可理解的概念,从而解决了现有方法缺乏理论依据的难题。
语言模型中的线性表征在对话过程中会发生剧烈变化 / Linear representations in language models can change dramatically over a conversation
这项研究发现,语言模型内部用于表示概念(比如事实性)的线性方向在对话过程中会发生剧烈且内容依赖性的变化,这意味着对模型特征的静态解释或控制可能不可靠,并揭示了模型会根据对话语境动态调整其内部表征。
利用组稀疏自编码器分解多模态嵌入空间 / Decomposing multimodal embedding spaces with group-sparse autoencoders
这篇论文提出了一种改进的稀疏自编码器方法,通过跨模态随机掩码和组稀疏正则化技术,成功地将图像/文本或音频/文本等混合数据的嵌入表示分解为更统一、更易于人类理解的高层概念特征,从而提升了多模态任务的可解释性和可控性。
通过混合整数优化实现交叉公平 / Intersectional Fairness via Mixed-Integer Optimization
这篇论文提出了一种基于混合整数优化的新方法,用于训练既公平又易于理解的AI分类器,它特别关注并有效解决了多个受保护群体(如种族、性别)交叉重叠时产生的复杂偏见问题,为金融、医疗等高监管行业提供了实用的解决方案。
请先 登录 后再提交论文