通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
1️⃣ 一句话总结
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
请先 登录 后再提交论文
通过分层令牌压缩加速流式视频大语言模型 / Accelerating Streaming Video Large Language Models via Hierarchical Token Compression
这篇论文提出了一种名为STC的分层压缩框架,通过缓存相似帧的特征和修剪冗余视觉令牌,在几乎不影响准确率的情况下,显著降低了流式视频大语言模型的处理延迟,使其更适合实时应用。
NVIDIA Nemotron-Parse 1.1:轻量级文档解析与OCR模型 / NVIDIA Nemotron Parse 1.1
NVIDIA Nemotron-Parse 1.1是一个8.85亿参数的轻量级文档解析和OCR模型,在通用OCR、Markdown格式化、结构化表格解析以及从图像、图表中提取文本方面相比前代有显著改进,并通过令牌压缩变体实现了20%的速度提升。
TimeViper:一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
这篇论文提出了一个名为TimeViper的混合模型,它结合了Mamba和Transformer的优势,通过创新的信息压缩技术高效处理长达一小时的视频,在保持高性能的同时大幅提升了长视频理解能力。
通过渐进一致性蒸馏实现高效多模态大语言模型 / Efficient Multi-modal Large Language Models via Progressive Consistency Distillation
这篇论文提出了一种名为EPIC的渐进式学习框架,通过分解并逐步应用两种一致性蒸馏方法,有效降低了多模态大模型在压缩视觉标记时的学习难度,从而在提升模型效率的同时保持了强大的性能和泛化能力。