📄 论文总结
MIRA:用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing
1️⃣ 一句话总结
本文提出了一种名为MIRA的轻量级多模态推理智能体,它通过模拟人类多轮交互过程,逐步分析和执行图像编辑指令,显著提升了复杂指令下图像编辑的准确性和质量。
请先 登录 后再提交论文
MIRA:用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing
本文提出了一种名为MIRA的轻量级多模态推理智能体,它通过模拟人类多轮交互过程,逐步分析和执行图像编辑指令,显著提升了复杂指令下图像编辑的准确性和质量。
Video-R4:通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
这篇论文提出了一种名为Video-R4的视频推理模型,它通过模拟人类反复观察关键区域的行为,迭代地放大和重新分析视频帧中的文本细节,从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。
OpenMMReasoner:通过开放通用方法推动多模态推理前沿 / OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
这项研究提出了一个完全透明的两阶段训练方法,通过精心构建的数据集和强化学习显著提升了多模态推理能力,在多个基准测试中比现有领先模型性能提升11.6%。
Step-Audio-R1技术报告 / Step-Audio-R1 Technical Report
这篇论文提出了首个音频推理模型Step-Audio-R1,通过创新的模态锚定推理蒸馏方法,成功让AI在理解声音时能够进行有效推理,在多项音频理解任务中超越了现有先进模型。
用视频思考:视频生成作为一种有前景的多模态推理范式 / Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
这篇论文提出了一种名为‘用视频思考’的新方法,利用视频生成模型(如Sora-2)将视觉和文本推理统一起来,克服了传统图像和文本分离的局限性,并在多项任务中展现出强大的理解和生成能力。
SAIL-RL:通过双奖励强化学习指导多模态大语言模型何时及如何思考 / SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning
这项研究提出了SAIL-RL强化学习框架,通过双重奖励机制教会多模态大语言模型在简单任务中避免过度思考、在复杂任务中充分推理,从而显著提升模型推理能力和可靠性。
ToolScope:一种用于视觉引导和长视野工具使用的智能体框架 / ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
这篇论文提出了一个名为ToolScope的智能框架,它通过结合全局规划和局部视觉感知,有效提升了多模态大模型在复杂视觉问答任务中使用外部工具的能力,并在多个基准测试中显著提高了性能。
SAKE:面向大型音频语言模型听觉属性知识的编辑 / SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
这项研究提出了首个专门用于编辑大型音频语言模型中听觉属性知识的基准SAKE,通过评估多种编辑方法在多维指标上的表现,揭示了在保持知识一致性、泛化能力和持续更新方面的挑战,为音频模态的知识更新提供了新方向。
MathCanvas:用于多模态数学推理的内在视觉思维链 / MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning
这篇论文提出了一个名为MathCanvas的框架,通过预训练和微调让大型多模态模型学会在解决数学问题时自动生成和编辑图表,从而显著提升了其在几何等需要视觉辅助的数学领域的推理能力。
OmniVideoBench:面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
这篇论文提出了一个名为OmniVideoBench的大规模评估基准,专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力,发现现有模型与人类水平仍有较大差距。