← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm

📄 论文总结

QueryBandits：基于上下文多臂老虎机的查询重写框架以减少LLM幻觉

QueryBandits: A Contextual Multi-Armed Bandit Framework for Query Rewriting to Reduce LLM Hallucination

1️⃣ 一句话总结

该论文提出了QueryBandits框架，通过多臂老虎机算法动态选择查询重写策略，利用17个语义特征预测幻觉倾向，在13个QA基准测试中相比无重写基线获得87.5%胜率，显著优于静态提示方法。

2️⃣ 论文创新点

1. QueryBandits框架

创新点是什么：基于多臂老虎机的查询重写框架，通过动态策略选择优化奖励模型
与已有方法的区别/改进：从被动过滤转向主动查询干预，避免传统静态重写的局限性
为什么有意义：显著降低LLM幻觉生成，胜率达87.5%，为幻觉缓解提供新范式

2. 语义特征驱动的奖励模型

创新点是什么：基于17个语言学特征构建奖励函数，结合LLM评判、模糊字符串相似度和BLEU评分
与已有方法的区别/改进：多维度量化幻觉倾向，实现更精确的奖励信号生成
为什么有意义：为查询-幻觉关系提供可解释的建模框架，支持动态策略优化

3. 多策略查询重写框架

创新点是什么：提出了五种不同的查询重写策略（释义、简化、消歧、扩展、术语澄清）作为老虎机问题的行动空间
与已有方法的区别/改进：改进了传统的'one-size-for-all'查询重写方法，允许根据查询的上下文特征动态选择最合适的重写策略
为什么有意义：通过多策略框架更精细地处理不同类型的查询问题，有望针对性地减少LLM在不同语言现象下的幻觉问题

4. 复合奖励模型

创新点是什么：设计了一个结合了基于LLM的事实一致性判断（s_llm）、模糊匹配分数（s_fuzz）和BLEU分数（s_bleu）的复合奖励信号
与已有方法的区别/改进：改进了使用单一指标评估重写效果的方法，通过多维度信号更全面地衡量重写后查询的质量和正确性
为什么有意义：复合奖励能更稳健地指导老虎机算法学习最优的重写策略，平衡事实准确性和文本相似性

3️⃣ 主要结果与价值

实验结果亮点

在16个数据集上进行总计253,440次测试，上下文Thompson Sampling算法取得最佳性能
相比无重写基线和所有静态提示策略，性能提升显著
验证了四个假设：QueryBandits能减少幻觉、优于静态提示方法、上下文bandit优于无视上下文的算法、查询特征与奖励存在关联性

实际应用价值

无需额外模型微调即可实现幻觉减少，胜率达到87.5%
为LLM可解释性研究开辟了新途径
提供高效的后期训练优化方案

4️⃣ 术语表

QueryBandits：基于上下文多臂老虎机的查询重写框架，通过语义特征优化选择重写策略以减少LLM幻觉
Thompson Sampling：一种贝叶斯bandit算法，在QueryBandits中作为顶级上下文策略实现最佳性能
Multi-armed Bandit：一种顺序决策框架，学习者在给定上下文的情况下从一组行动中选择一个，并根据获得的奖励进行学习，目标是最大化累积奖励
Action Space (A)：在本研究中，指代五种查询重写策略的集合：{a0: 释义, a1: 简化, a2: 消歧, a3: 扩展, a4: 术语澄清}
RLAIF：从AI反馈中强化学习，使用LLM生成的偏好训练奖励模型，以绕过昂贵的人工标注
linguistic features：语言特征，包括领域专业化、语用线索、话语标记等17种二元语言特征，用于指导重写策略选择

📄 打开原文 PDF