CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
1️⃣ 一句话总结
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
请先 登录 后再提交论文
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
Skywork-R1V4:通过图像与深度研究的交替思考迈向具身多模态智能 / Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
这篇论文提出了一个名为Skywork-R1V4的新型多模态智能体模型,它通过将图像处理与网络搜索深度结合并交替推理,仅用少量高质量数据训练就实现了超越现有顶尖模型的复杂任务解决能力。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。
基于上下文同步LoRA的人像视频编辑 / In-Context Sync-LoRA for Portrait Video Editing
这篇论文提出了一种名为Sync-LoRA的新方法,它通过使用少量经过严格筛选的同步人像视频进行训练,能够在对人像视频进行外观、表情或背景等多样化编辑的同时,精确保持原始视频中人物的动作轨迹和身份一致性。
BOOM:超越单一模态——KIT的多模态多语言讲座伴侣 / BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion
这篇论文提出了一个名为BOOM的系统,它能够同时翻译讲座的音频和幻灯片,生成同步的文本、图像和语音输出,旨在为全球学生提供完整、可访问的多语言学习体验。
理解与利用统一多模态模型中的稀疏性 / Understanding and Harnessing Sparsity in Unified Multimodal Models
这篇论文通过分析发现,统一多模态模型中的理解部分可以大幅压缩而不影响性能,但生成部分对压缩非常敏感,为此作者提出了一种基于稀疏激活的专家混合适配方法,使模型在仅激活约一半参数的情况下,就能达到与完整模型相当的性能。
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
视觉同步:通过跨视角物体运动实现多相机同步 / Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion
这篇论文提出了一种名为VisualSync的优化框架,它利用不同视角下物体运动的几何约束,能够自动、高精度地同步来自多个普通相机的未标定、未同步的视频,无需昂贵硬件或人工干预。
超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
用编程视觉思考:迈向图像思维的统一视图 / Thinking with Programming Vision: Towards a Unified View for Thinking with Images
这篇论文发现当前多模态大模型处理图像时非常脆弱,容易受方向变化等简单干扰影响,为此提出了一个名为CodeVision的新框架,让模型通过生成代码来灵活调用各种图像处理工具,并通过两阶段训练方法显著提升了模型的鲁棒性、工具组合能力和错误恢复能力。