arXiv ID:
2606.04596
arXiv 提交日期: 2026-06-03
多视频摘要中位置偏差的系统性评估——基于多模态大语言模型 / A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs
1️⃣ 一句话总结
本研究发现,在使用多模态大语言模型(MLLMs)对多个视频进行摘要时,模型会因视频输入顺序不同而产生质量差异(即位置偏见),这种偏见因视频类型和模型而异,且简单增加计算资源无法消除,急需开发更鲁棒的、对输入顺序不敏感的模型。