arXiv ID:
2603.04276
从大语言模型中提取因果关系 / Causality Elicitation from Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种从大语言模型中提取和构建潜在因果关系假设的自动化流程,帮助人们可视化和检验模型内部隐含的因果知识。
从大语言模型中提取因果关系 / Causality Elicitation from Large Language Models
这篇论文提出了一种从大语言模型中提取和构建潜在因果关系假设的自动化流程,帮助人们可视化和检验模型内部隐含的因果知识。
有界支撑q-高斯分布的Stein恒等式 / A Stein Identity for q-Gaussians with Bounded Support
这篇论文为一种有界支撑的非高斯分布(q-高斯分布)推导出了一个简洁的Stein恒等式,使得其梯度估计器的形式与高斯分布几乎相同且易于实现,从而可能降低梯度估计的方差,有助于贝叶斯深度学习和锐度感知最小化等应用。
基于扩散模型的无训练率-失真-感知权衡遍历方法 / Training-Free Rate-Distortion-Perception Traversal With Diffusion
这篇论文提出了一种无需重新训练的新方法,利用现成的扩散模型,让图像压缩系统能够灵活地调整压缩率、图像保真度和视觉真实感之间的平衡,实现了理论最优且实用的自适应感知压缩。
基于最优传输的大语言模型高效拒绝行为消除 / Efficient Refusal Ablation in LLM through Optimal Transport
这篇论文提出了一种基于最优传输理论的新方法,通过将模型内部有害激活的整体分布转换为无害分布,来更有效地破解大语言模型的安全防护机制,并发现安全机制可能集中在网络的特定层而非全局分布。
Softmax注意力头的专业化:来自高维单位置模型的洞见 / Specialization of softmax attention heads: insights from the high-dimensional single-location model
这篇论文通过一个理论模型解释了Transformer中多头注意力机制的训练过程,揭示了注意力头会分阶段地专业化学习不同特征,并提出了改进的注意力函数来提升模型性能。
用于Transformer的数据感知随机特征核 / Data-Aware Random Feature Kernel for Transformers
这篇论文提出了一种名为DARKFormer的新型Transformer模型,它通过一种数据感知的随机特征核来高效近似注意力计算,在保持线性计算复杂度的同时,显著提升了模型在预训练后微调场景下的性能表现。
流匹配为时序差分学习带来了什么? / What Does Flow Matching Bring To TD Learning?
这篇论文发现,在强化学习中,使用流匹配技术来估计Q值函数之所以有效,并不是因为它能更好地建模回报分布,而是因为它通过积分过程中的测试时误差恢复和更灵活的特征学习这两种机制,显著提升了时序差分学习的稳定性和样本效率。
为何不可学习样本有效:一种互信息的新视角 / Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information
这篇论文从互信息减少的新视角,解释了通过在数据中添加特定扰动来制造‘不可学习样本’以保护隐私的原理,并提出了一种通过最大化同类样本特征相似度来更有效阻止模型学习的新方法。
基于分数匹配的扩散模型在本质低维数据上的泛化性质 / Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data
这篇论文证明了基于分数匹配的扩散模型在学习具有内在低维结构的数据分布时,其生成误差的收敛速度仅依赖于数据的内在维度而非环境维度,从而在理论上解释了其为何能有效缓解维度灾难并适应数据的真实几何结构。
跨多激活稀疏性机制的联合训练 / Joint Training Across Multiple Activation Sparsity Regimes
这篇论文提出了一种让神经网络在训练过程中,交替经历激活值稠密和稀疏状态的简单方法,初步实验表明这种方法能提升模型在未见过数据上的表现,可能为改善泛化能力提供一条新路径。
请先 登录 后再提交论文