arXiv ID:
2605.21411
arXiv 提交日期: 2026-05-20
RoadTones:从道路事件视频生成语气可控的文本 / RoadTones: Tone Controllable Text Generation from Road Event Videos
1️⃣ 一句话总结
本文提出了一套包含数据集、模型和评估方法的完整方案,使AI能够根据道路事件视频生成语气可调节的文本描述,例如“紧急”或“中性”语气,从而让视频描述不仅准确,还能根据沟通需求调整表达方式。