← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: video-language model temporal grounding diffusion feature extraction entity tracking multimodal fusion 或 搜索:

📄 论文总结


1️⃣ 一句话总结

本文提出了一个名为 Grounded-VideoDiT 的新型视频大语言模型(Video-LLM),它通过重新利用扩散模型作为时序特征提取器,并结合显式的实体分割与跟踪,解决了现有模型在长视频理解中精确时序定位多实体交互推理的核心难题,在多个基准测试上实现了卓越的性能。


2️⃣ 论文创新点

创新点一:扩散时序潜在(DTL)编码器

创新点二:分割引导的实体接地与跟踪

创新点三:混合令牌输入方案与多模态融合

创新点四:基于KL散度的特征正则化策略


3️⃣ 主要结果与价值

实验结果亮点

论文在多个权威的视频理解基准上进行了评估,主要结果包括: * 时序视频定位(Temporal Grounding):在Charades-STA和DiDeMo数据集上,其7B参数的模型取得了极具竞争力的性能,部分指标甚至优于参数量更大的(如13B)模型。 * 视频问答(VideoQA):在NExT-QA和NExT-GQA等需要复杂推理的数据集上,模型在答案准确性(Acc)和证据对齐质量(Acc@GQA, mIoU)上均表现出色。 * 消融实验:充分验证了DTL编码器、实体嵌入、混合令牌结构以及KL正则化四个核心组件的有效性,移除任一组件都会导致性能显著下降。

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF