📄 论文总结
从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator
1️⃣ 一句话总结
这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务,并提出了一个名为FE2E的新框架,通过改进训练目标和数据格式,无需额外数据就能在深度和法线估计上取得显著性能提升。
请先 登录 后再提交论文
从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator
这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务,并提出了一个名为FE2E的新框架,通过改进训练目标和数据格式,无需额外数据就能在深度和法线估计上取得显著性能提升。
基于工具增强的视觉感知强化学习 / Reinforced Visual Perception with Tools
本研究提出一种基于强化学习的视觉工具增强方法,通过训练多模态大模型自主调用四种视觉工具,在多个视觉推理基准测试中显著超越传统监督学习方法,有效提升了模型的视觉感知与推理能力。
OpenVision 2:面向多模态学习的生成式预训练视觉编码器家族 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
这篇论文提出了一个简化的视觉编码器OpenVision 2,它通过移除文本编码器和对比损失、仅保留生成式训练方法,在保持多模态任务性能的同时,显著提升了训练效率并降低了资源消耗。
通过向同行小组学习改进大型视觉语言模型 / Improving Large Vision and Language Models by Learning from a Panel of Peers
这项研究提出了一种让多个大型视觉语言模型互相评估和学习的新方法,通过模拟同行评审过程来提升模型性能,无需依赖大量人工标注数据,在多个测试中平均得分从48%提升至57%。
Kwai Keye-VL 1.5 技术报告 / Kwai Keye-VL 1.5 Technical Report
这篇论文提出了Keye-VL-1.5模型,它通过创新的慢快视频编码、渐进式预训练和综合后训练方法,显著提升了视频理解能力,在保持通用多模态任务竞争力的同时,特别擅长处理动态复杂的视频内容。
M3Ret:通过自监督实现零样本多模态医学图像检索 / M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision
这项研究提出了一种名为M3Ret的统一自监督学习框架,无需针对不同医学图像模态定制模型,就能在零样本条件下高效检索2D、3D和视频等多种类型的医学图像,并展现出对未见过模态的泛化能力。
POINTS-Reader:无需蒸馏的视觉-语言模型文档转换适配方法 / POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
这项研究提出了一种无需依赖教师模型蒸馏的两阶段自动化框架,通过生成合成数据和自我改进迭代训练,显著提升了复杂格式文档转换的准确性和数据质量。
VerlTool:面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
这篇论文提出了一个名为VerlTool的统一模块化框架,解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题,通过标准化工具管理、异步执行加速和模块化设计,在多个任务领域实现了高效且可扩展的智能体训练。
LLaVA-Critic-R1:你的评价模型其实是一个强大的策略模型 / LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
这篇论文挑战了传统观念,通过将评价模型的数据重新组织并用于强化学习训练,开发出一个既能评价又能生成内容的统一视觉语言模型,在多项视觉推理任务中表现优异,甚至超越了专门训练的策略模型。
R-4B:通过双模式退火和强化学习激励多模态大语言模型中的通用自动思考能力 / R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
这篇论文提出了R-4B模型,它能够根据问题难度自动选择是否启动思考过程,从而在保证高性能的同时显著降低计算成本,在多个基准测试中超越了同类先进模型。