arXiv最新AI论文速览速学

TimeViper：一种用于高效长视频理解的混合Mamba-Transformer视觉语言模型 / TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为TimeViper的混合模型，它结合了Mamba和Transformer的优势，通过创新的信息压缩技术高效处理长达一小时的视频，在保持高性能的同时大幅提升了长视频理解能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.00515

🤖 系统

11-30 17:35

multi-modal model training machine learning

consistency distillation token compression efficient mllms progressive learning visual tokens

📄 论文总结

通过渐进一致性蒸馏实现高效多模态大语言模型 / Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为EPIC的渐进式学习框架，通过分解并逐步应用两种一致性蒸馏方法，有效降低了多模态大模型在压缩视觉标记时的学习难度，从而在提升模型效率的同时保持了强大的性能和泛化能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.00891

1️⃣ 一句话总结

2511.20478

1️⃣ 一句话总结

2511.16595

📄 论文总结

1️⃣ 一句话总结

2510.00515

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.00891 📝

1️⃣ 一句话总结

2511.20478 📝

1️⃣ 一句话总结

2511.16595 📝

📄 论文总结

1️⃣ 一句话总结

2510.00515 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.00891

2511.20478

2511.16595

2510.00515