arXiv ID:
2512.16978
arXiv 提交日期: 2025-12-18
长视频全模态推理与工具使用的基准与智能体框架 / A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos
1️⃣ 一句话总结
这篇论文提出了一个名为LongShOTBench的诊断性基准测试和一个名为LongShOTAgent的智能体系统,用于全面评估和提升AI模型在理解长视频时整合视觉、语音、音频并进行复杂推理与工具使用的能力,揭示了当前先进模型在此任务上的显著不足。