arXiv ID:
2605.27190
arXiv 提交日期: 2026-05-26
大型音频语言模型中“何时思考”的学习——在倾听中把握推理时机 / Learning When to Think While Listening in Large Audio-Language Models
1️⃣ 一句话总结
本文提出一种可学习的“等待-思考-回答”控制策略,让大型音频语言模型在实时语音交互中能自适应地决定何时继续倾听、何时进行中间推理、何时给出最终答案,从而在提升回答准确率的同时,有效缩短用户的等待延迟。