🤖 系统
10-11 12:15
📄 论文总结
基于偏好与老虎机反馈的LLM路由方法 / Bandit-feedback Routing with Preferences (BaRP)
1️⃣ 一句话总结
BaRP是一种基于偏好条件化上下文老虎机问题的LLM路由方法,仅依赖所选模型的反馈进行训练,支持推理时无需重新训练即可根据用户指定的性能-成本权衡调整路由策略。
2️⃣ 论文创新点
1. 偏好条件化上下文老虎机问题建模
- 创新点:将LLM路由问题形式化为偏好条件化上下文老虎机问题,平衡性能与成本两个竞争目标
- 区别/改进:消除了训练期间对所有候选模型的全面监督需求,解决了训练与部署之间的不匹配问题
- 意义:为LLM路由提供了理论基础和有效解决方案,支持动态偏好适应
2. 三组件策略架构
- 创新点:路由策略由提示编码器(冻结的句子Transformer)、偏好编码器(小型MLP)和决策头组成,将提示和偏好嵌入拼接后输出LLM选择概率
- 区别/改进:分离的编码器设计允许有效整合语义信息和用户偏好
- 意义:构建了能够同时理解任务语义和用户偏好的统一路由策略
3. 偏好采样训练策略
- 创新点:训练过程中为每个实例随机采样偏好向量(在1-单纯形上均匀分布)
- 区别/改进:使单个策略能够服务多样化的用户偏好,无需为每个偏好训练单独模型
- 意义:提高了策略的泛化能力和实用性,支持动态偏好适应
3️⃣ 主要结果与价值
结果亮点
- 在分布内任务上实现73.57%的最高平均分,相比RouterDC和GraphRouter分别相对提升15.53%和12.44%
- 在分布外任务上表现出强大的泛化能力,获得66.08%的最高平均分
- 相比最强的基线GraphRouter,在提升16.84%分数的同时降低50.00%的成本
- MLP决策头架构在平均得分上表现最佳(0.7432),REINFORCE算法显著优于经典线性老虎机算法
实际价值
- 通过调整成本权重w[c]能够有效平衡性能与成本,实现用户指定的权衡
- 紧凑的句子级编码器all-MiniLM-L6-v2在路由任务中表现最佳,降低部署成本
- 支持推理时灵活调整性能-成本权衡,无需重新训练模型
- 提高了路由策略在实际应用中的适应性和实用性
4️⃣ 术语表
- bandit feedback:在部署环境中,路由策略仅能观察到所选模型的准确性和成本反馈,而无法获得其他候选模型的信息
- preference-tunable inference:在测试时根据用户指定的性能-成本权衡调整路由决策的能力,无需重新训练模型
- multi-objective contextual bandit:多目标上下文老虎机,平衡多个竞争目标的上下文老虎机问题
- REINFORCE:用于训练路由策略的策略梯度算法,结合基线方差减少和熵正则化来优化期望累积奖励
- RouterBench:用于评估LLM路由器的基准数据集,包含多个候选LLM的查询级日志
- bandit-consistent supervision:仅观察所选动作结果的监督方式,模拟实际部署中的部分反馈环境
- all-MiniLM-L6-v2:一种紧凑的句子级编码器,在路由任务中表现出最佳的性能与效率平衡
- MLP:带ReLU非线性的多层感知机,用作决策头架构,在平均得分上达到最佳性能(0.7432)
- 用户偏好向量:由性能权重w[q]和成本权重w[c]组成的向量,用于平衡LLM输出质量和费用