arXiv ID:
2512.24330
SenseNova-MARS:通过强化学习赋能多模态智能体推理与搜索 / SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为SenseNova-MARS的新框架,它通过强化学习教会视觉语言模型像人一样,在解决复杂的视觉问题时,能动态、连贯地交替使用图像搜索、文本搜索和图像裁剪等多种外部工具,从而在知识密集型任务上超越了GPT-5等顶尖模型。