← 返回列表

菜单

🤖 系统
📄 Abstract - Bandit-feedback Routing with Preferences (BaRP)
正在获取摘要...
顶级标签: llm agents
详细标签: llm routing multi-armed bandit preference learning cost-performance tradeoff reinforce algorithm 或 搜索:

📄 论文总结

基于偏好与老虎机反馈的LLM路由方法 / Bandit-feedback Routing with Preferences (BaRP)


1️⃣ 一句话总结

BaRP是一种基于偏好条件化上下文老虎机问题的LLM路由方法,仅依赖所选模型的反馈进行训练,支持推理时无需重新训练即可根据用户指定的性能-成本权衡调整路由策略。


2️⃣ 论文创新点

1. 偏好条件化上下文老虎机问题建模

2. 三组件策略架构

3. 偏好采样训练策略


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF