← 返回列表

菜单

🤖 系统
📄 Abstract - Keye-VL 1.5: A Multimodal Large Language Model Optimized for Video Understanding
正在获取摘要...
详细标签: video understanding slowfast encoding long context 3d rope multimodal llm 或 搜索:

📄 论文总结

Keye-VL 1.5:一种针对视频理解优化的多模态大语言模型

Keye-VL 1.5: A Multimodal Large Language Model Optimized for Video Understanding


1️⃣ 一句话总结

Keye-VL 1.5是一个专为视频理解任务优化的多模态大语言模型,通过创新的SlowFast视频编码策略、渐进式四阶段预训练方法和全面的后训练流程,在视频中心基准测试中达到最先进性能,同时在通用多模态任务上保持竞争力。


2️⃣ 论文创新点

1. SlowFast视频编码策略

2. 渐进式四阶段预训练

3. 原生动态分辨率视觉编码器

4. 3D RoPE统一处理架构

5. 全面后训练流程


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF