📄 论文总结
DOC REWARD:文档结构与样式专业性的奖励模型 / DOC REWARD: A Reward Model for Document Structure and Style Professionalism
1️⃣ 一句话总结
DOC REWARD是一个专门评估文档结构和样式专业性的奖励模型,通过大规模多领域数据集DOC PAIR训练,在文档质量评估方面显著优于GPT-4o和GPT-5等基线模型。
2️⃣ 论文创新点
1. DOC REWARD奖励模型
- 创新点:专门评估文档结构和样式专业性的奖励模型,通过多图像输入架构和Bradley-Terry损失函数优化训练
- 区别/改进:解决了现有工作流主要关注文本质量而忽视视觉结构和样式的问题,提供专门化的评估指导
- 意义:能够生成在结构和样式上更受人类偏好的专业文档,提升文档的可读性和参与度
2. DOC PAIR数据集
- 创新点:包含117K对文档的大规模多领域数据集,覆盖32个领域和267种文档类型,每对文档内容相同但结构和样式不同
- 区别/改进:提供了与文本质量无关的专业性评估基础,确保模型专注于结构和样式而非内容质量
- 意义:支持模型实现全面性和文本质量无关性,使其能够跨多样文档类型进行稳健评估
3. 点式评估方法
- 创新点:提出点式奖励模型,避免成对评估中的位置偏差问题
- 区别/改进:相比GPT-4o和Claude Sonnet 4存在明显位置偏差,DOC REWARD提供更稳定无偏的偏好预测
- 意义:解决了现有LLM在文档评估中的系统性偏差问题,确保评估结果更可靠
3️⃣ 主要结果与价值
结果亮点
- 在人类偏好准确率上达到89.22%,比最强的开源基线GPT-5高出19.45个百分点
- 在关键的'真实vs合成'设置中达到97.42%的准确率,在'合成vs合成'设置中达到78.22%
- 在文档生成的外部评估中,DOC REWARD的胜率达到60.8%,显著优于GPT-5的37.7%
实际价值
- 为智能体工作流生成更具专业视觉效果的文档提供有效指导
- 为文档结构化和风格化质量评估提供专门解决方案
- 支持合成文档的自我优化,提升自动化文档生成的专业性
4️⃣ 术语表
- DOC REWARD:专门评估文档结构和样式专业性的奖励模型,用于指导智能体工作流生成更专业的文档
- DOC PAIR:包含117K对文档的多领域数据集,每对具有相同内容但不同结构和样式,用于训练DOC REWARD模型以实现全面性和文本质量无关性
- Bradley-Terry loss:专门用于从成对偏好中学习的损失函数,通过比较胜者和败者文档的分数差异来优化模型
- 位置偏差:在成对评估中模型对文档位置的系统性偏好,会扭曲评估结果