← 返回列表

🤖 系统

📄 Abstract - Keye-VL 1.5: A Multimodal Large Language Model Optimized for Video Understanding

⏳ 正在获取摘要...

📄 论文总结

Keye-VL 1.5：一种针对视频理解优化的多模态大语言模型

Keye-VL 1.5: A Multimodal Large Language Model Optimized for Video Understanding

1️⃣ 一句话总结

Keye-VL 1.5是一个专为视频理解任务优化的多模态大语言模型，通过创新的SlowFast视频编码策略、渐进式四阶段预训练方法和全面的后训练流程，在视频中心基准测试中达到最先进性能，同时在通用多模态任务上保持竞争力。

2️⃣ 论文创新点

1. SlowFast视频编码策略

创新点是什么：基于帧间相似性动态分配计算资源，关键帧通过慢路径高分辨率处理，静态帧通过快路径低分辨率但高时间覆盖率处理
与已有方法的区别/改进：优化了视频处理中空间分辨率与时间覆盖的权衡问题
为什么有意义：提升视频理解效率，减少计算资源浪费

2. 渐进式四阶段预训练

创新点是什么：系统扩展模型上下文长度从8K到128K tokens，支持更长视频和更复杂视觉内容的处理
与已有方法的区别/改进：支持更长视频和更复杂视觉内容的处理
为什么有意义：增强模型处理长视频和复杂场景的能力

3. 原生动态分辨率视觉编码器

创新点是什么：实现原生分辨率ViT，自然处理原始分辨率图像，避免复杂的图像拼接/分割操作
与已有方法的区别/改进：相比固定分辨率ViT，能更好地保持图像结构完整性和所有细节
为什么有意义：提升模型对图像细节的感知能力，支持更精细的视觉理解任务

4. 3D RoPE统一处理架构

创新点是什么：采用3D RoPE技术统一处理文本、图像和视频信息
与已有方法的区别/改进：实现多模态信息的统一编码和处理
为什么有意义：增强模型对多模态数据的协同理解能力，提高视频理解性能

5. 全面后训练流程

创新点是什么：包括推理增强和人类偏好对齐，采用5步思维链数据构建、迭代GSPO强化学习和对齐训练
与已有方法的区别/改进：提升模型推理能力和与人类偏好的一致性
为什么有意义：提高模型在实际应用中的准确性和用户满意度

3️⃣ 主要结果与价值

实验结果亮点

在视频中心基准测试中达到最先进性能
在通用多模态任务上保持竞争力
支持128K tokens的长上下文处理能力
实现高效的视频编码和处理

实际应用价值

为长视频理解和复杂场景分析提供强大工具
在中文OCR和VQA任务上表现出色
支持多种细粒度标注格式，增强实际应用灵活性
通过人类偏好对齐提高用户体验

4️⃣ 术语表

Keye-VL-1.5：快手开发的多模态大语言模型，基于Qwen3-8B和SigLIP架构，支持图像和视频理解
SlowFast视频编码：一种视频编码策略，包含Slow Pathway（高分辨率、低帧数处理快速变化帧）和Fast Pathway（低分辨率、高帧数处理静态帧）
3D RoPE：三维旋转位置编码，用于统一处理文本、图像和视频信息的编码技术
SigLIP：一种对比损失函数，用于视觉编码器的持续预训练，增强跨模态对齐
渐进式预训练：分阶段的训练方法，逐步解冻参数，从特征对齐到全面优化，最后处理长上下文
OCR：光学字符识别，指从图像中识别并提取文本的技术
VQA：视觉问答，指根据图像内容回答自然语言问题的任务
TaskGalaxy：专有多模态任务分类框架，涵盖70,000种任务类型
MPO：基于偏好数据的模型优化算法，用于强化模型性能
交错数据：包含文本和图像交替排列的数据格式，用于增强多模态上下文建模

📄 打开原文 PDF