📄 论文总结
OpenVision 2:面向多模态学习的生成式预训练视觉编码器家族 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
1️⃣ 一句话总结
这篇论文提出了一个简化的视觉编码器OpenVision 2,它通过移除文本编码器和对比损失、仅保留生成式训练方法,在保持多模态任务性能的同时,显著提升了训练效率并降低了资源消耗。
请先 登录 后再提交论文
OpenVision 2:面向多模态学习的生成式预训练视觉编码器家族 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
这篇论文提出了一个简化的视觉编码器OpenVision 2,它通过移除文本编码器和对比损失、仅保留生成式训练方法,在保持多模态任务性能的同时,显著提升了训练效率并降低了资源消耗。
通过向同行小组学习改进大型视觉语言模型 / Improving Large Vision and Language Models by Learning from a Panel of Peers
这项研究提出了一种让多个大型视觉语言模型互相评估和学习的新方法,通过模拟同行评审过程来提升模型性能,无需依赖大量人工标注数据,在多个测试中平均得分从48%提升至57%。
Kwai Keye-VL 1.5 技术报告 / Kwai Keye-VL 1.5 Technical Report
这篇论文提出了Keye-VL-1.5模型,它通过创新的慢快视频编码、渐进式预训练和综合后训练方法,显著提升了视频理解能力,在保持通用多模态任务竞争力的同时,特别擅长处理动态复杂的视频内容。
M3Ret:通过自监督实现零样本多模态医学图像检索 / M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
这项研究提出了一种名为M3Ret的统一自监督学习框架,无需针对不同医学图像模态定制模型,就能在零样本条件下高效检索2D、3D和视频等多种类型的医学图像,并展现出对未见过模态的泛化能力。
POINTS-Reader:无需蒸馏的视觉-语言模型文档转换适配方法 / POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
这项研究提出了一种无需依赖教师模型蒸馏的两阶段自动化框架,通过生成合成数据和自我改进迭代训练,显著提升了复杂格式文档转换的准确性和数据质量。
LLaVA-Critic-R1:你的评价模型其实是一个强大的策略模型 / LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
这篇论文挑战了传统观念,通过将评价模型的数据重新组织并用于强化学习训练,开发出一个既能评价又能生成内容的统一视觉语言模型,在多项视觉推理任务中表现优异,甚至超越了专门训练的策略模型。
R-4B:通过双模式退火和强化学习激励多模态大语言模型中的通用自动思考能力 / R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
这篇论文提出了R-4B模型,它能够根据问题难度自动选择是否启动思考过程,从而在保证高性能的同时显著降低计算成本,在多个基准测试中超越了同类先进模型。
Morae:主动暂停UI代理以支持用户选择 / Morae: Proactively Pausing UI Agents for User Choices
这篇论文提出了一种名为Morae的UI代理,它能在执行任务时自动识别关键决策点并暂停,让用户参与选择,从而在提升自动化效率的同时保障用户自主权,尤其改善了视障用户的使用体验。
UItron:具备高级感知与规划能力的GUI基础智能体 / UItron: Foundational GUI Agent with Advanced Perception and Planning
这篇论文提出了一个名为UItron的开源GUI基础智能体,它通过系统化的数据工程和交互式训练框架,显著提升了在移动端和PC端图形界面上的感知、定位与任务规划能力,尤其在中文应用场景中表现出色。
EO-1:用于通用机器人控制的交错式视觉-文本-动作预训练 / EO-1: Interleaved Vision-Text-Action Pretraining for General Robot Control
这篇论文提出了一个名为EO-1的通用机器人基础模型,它通过交错学习视觉、文本和动作数据,显著提升了机器人在复杂任务中的多模态推理和动作执行能力。