← 返回列表

🤖 系统

📄 Abstract - Bandit-feedback Routing with Preferences (BaRP)

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

基于偏好与老虎机反馈的LLM路由方法 / Bandit-feedback Routing with Preferences (BaRP)

1️⃣ 一句话总结

BaRP是一种基于偏好条件化上下文老虎机问题的LLM路由方法，仅依赖所选模型的反馈进行训练，支持推理时无需重新训练即可根据用户指定的性能-成本权衡调整路由策略。

2️⃣ 论文创新点

1. 偏好条件化上下文老虎机问题建模

创新点：将LLM路由问题形式化为偏好条件化上下文老虎机问题，平衡性能与成本两个竞争目标
区别/改进：消除了训练期间对所有候选模型的全面监督需求，解决了训练与部署之间的不匹配问题
意义：为LLM路由提供了理论基础和有效解决方案，支持动态偏好适应

2. 三组件策略架构

创新点：路由策略由提示编码器（冻结的句子Transformer）、偏好编码器（小型MLP）和决策头组成，将提示和偏好嵌入拼接后输出LLM选择概率
区别/改进：分离的编码器设计允许有效整合语义信息和用户偏好
意义：构建了能够同时理解任务语义和用户偏好的统一路由策略

3. 偏好采样训练策略

创新点：训练过程中为每个实例随机采样偏好向量（在1-单纯形上均匀分布）
区别/改进：使单个策略能够服务多样化的用户偏好，无需为每个偏好训练单独模型
意义：提高了策略的泛化能力和实用性，支持动态偏好适应

3️⃣ 主要结果与价值

结果亮点

在分布内任务上实现73.57%的最高平均分，相比RouterDC和GraphRouter分别相对提升15.53%和12.44%
在分布外任务上表现出强大的泛化能力，获得66.08%的最高平均分
相比最强的基线GraphRouter，在提升16.84%分数的同时降低50.00%的成本
MLP决策头架构在平均得分上表现最佳（0.7432），REINFORCE算法显著优于经典线性老虎机算法

实际价值

通过调整成本权重w[c]能够有效平衡性能与成本，实现用户指定的权衡
紧凑的句子级编码器all-MiniLM-L6-v2在路由任务中表现最佳，降低部署成本
支持推理时灵活调整性能-成本权衡，无需重新训练模型
提高了路由策略在实际应用中的适应性和实用性

4️⃣ 术语表

bandit feedback：在部署环境中，路由策略仅能观察到所选模型的准确性和成本反馈，而无法获得其他候选模型的信息
preference-tunable inference：在测试时根据用户指定的性能-成本权衡调整路由决策的能力，无需重新训练模型
multi-objective contextual bandit：多目标上下文老虎机，平衡多个竞争目标的上下文老虎机问题
REINFORCE：用于训练路由策略的策略梯度算法，结合基线方差减少和熵正则化来优化期望累积奖励
RouterBench：用于评估LLM路由器的基准数据集，包含多个候选LLM的查询级日志
bandit-consistent supervision：仅观察所选动作结果的监督方式，模拟实际部署中的部分反馈环境
all-MiniLM-L6-v2：一种紧凑的句子级编码器，在路由任务中表现出最佳的性能与效率平衡
MLP：带ReLU非线性的多层感知机，用作决策头架构，在平均得分上达到最佳性能（0.7432）
用户偏好向量：由性能权重w[q]和成本权重w[c]组成的向量，用于平衡LLM输出质量和费用

📄 打开原文 PDF