🤖 系统
11-30 17:37
📄 论文总结
基于多臂老虎机反馈学习大语言模型路由:一种策略,多种权衡 / Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs
1️⃣ 一句话总结
这篇论文提出了一种名为BaRP的新方法,它通过模拟在线反馈训练一个大语言模型路由系统,让运营商无需重新训练就能在部署时灵活调整性能和成本之间的平衡,从而在节省开支的同时保持高质量输出。