arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.24794

🤖 系统

11-06 15:00

llm

factual alignment reasoning models preference optimization meta-reasoning implicit rewards

📄 论文总结

基于元推理的事实性对齐框架MR-ALIGN / MR-ALIGN: Meta-Reasoning Informed Factuality Alignment Framework

1️⃣ 一句话总结

MR-ALIGN是一个创新的元推理对齐框架，通过量化模型思维过程中的状态转移概率并构建转移感知的隐式奖励机制，有效提升大型推理模型的事实准确性并减少推理-答案命中偏差。

2️⃣ 论文创新点

1. 元推理对齐框架

创新点：基于元推理的事实性对齐框架，通过建模认知驱动的元推理状态转移，并在这些转移上执行细粒度偏好对齐
区别/改进：不依赖外部验证器，仅使用元推理片段标注进行轻量级监督
意义：改善短形式事实QA和长形式事实性，促进自洽的推理路径

2. 推理-答案命中偏差识别

创新点：发现模型在中间推理阶段识别出正确答案但未将其纳入最终输出的现象
区别/改进：揭示了单纯扩展推理长度可能损害事实忠实度的问题
意义：为改进LRMs的事实性提供了新的研究方向

3. Kahneman-Tversky优化方法

创新点：基于前景理论的偏好对齐方法，使用单样本二元标签和人类感知损失函数
区别/改进：相比DPO方法不依赖成对偏好，使用更简单的单样本标签
意义：更符合人类决策心理学的对齐方法，提高模型输出与人类期望的一致性

4. 隐式奖励机制HALOs

创新点：将HALOs形式化为隐式奖励，衡量当前策略与参考策略的差异
区别/改进：根据元推理状态转移动态重新加权token级贡献
意义：增强推理过程的片段连贯性

3️⃣ 主要结果与价值

结果亮点

在5个数据集上系统性提升事实问答准确性，包括NQ-Open、SciQ、SimpleQA、TruthfulQA和LongFact
显著减少推理与答案之间的不一致性，降低误导性
使用基于EM的转移矩阵估计能进一步提高事实遵循性

实际价值

无需外部检索即可系统性提升事实问答准确性
在领域内数据集上效果最稳定，并能有效泛化到领域外和鲁棒性评估
与多源训练数据结合，能实现事实准确性与减少推理差异的最佳平衡

4️⃣ 术语表

MR-ALIGN：Meta-Reasoning Informed Factuality Alignment，基于元推理的事实性对齐框架，通过量化元推理转移概率变化来生成细粒度隐式奖励
推理-答案命中偏差：模型在推理过程中识别出正确事实但未将其纳入最终响应的现象
Kahneman-Tversky Optimization (KTO)：基于前景理论的偏好对齐方法，使用单样本二元标签和人类感知损失函数，评估响应相对于基线的收益或损失
元推理标签：元推理标签集，包含15个与认知操作对齐的标签，分为元认知调节、问题解决操作、知识操作、解释与沟通四个宏观策略
HALOs：隐式奖励机制，测量生成轨迹中当前策略与固定参考策略之间的差异
VERISCORE：用于LongFact数据集评估的自动评分指标
LoRA：低秩适应优化方法，用于大型语言模型的参数高效微调
λ_d：拒绝比率参数，用于平衡训练数据中的正负样本，最佳值为1.5
LRMs：大型推理模型，设计用于多步推理和复杂问题解决
THINK ON/THINK OFF：同一基础模型的两种解码模式，用于控制是否启用推理过程

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.24794

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 元推理对齐框架

2. 推理-答案命中偏差识别

3. Kahneman-Tversky优化方法

4. 隐式奖励机制HALOs

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.24794 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 元推理对齐框架

2. 推理-答案命中偏差识别

3. Kahneman-Tversky优化方法

4. 隐式奖励机制HALOs

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.24794