📄 论文总结
SciReasoner:跨学科科学推理基础模型 / SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
1️⃣ 一句话总结
这篇论文提出了一个跨学科的科学推理基础模型,能够将自然语言与多种科学数据格式对齐,并通过大规模预训练和强化学习技术,在科学翻译、知识提取、性质预测等上百个任务中实现比专业系统更广泛的覆盖和更强的泛化能力。
请先 登录 后再提交论文
SciReasoner:跨学科科学推理基础模型 / SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
这篇论文提出了一个跨学科的科学推理基础模型,能够将自然语言与多种科学数据格式对齐,并通过大规模预训练和强化学习技术,在科学翻译、知识提取、性质预测等上百个任务中实现比专业系统更广泛的覆盖和更强的泛化能力。
MMR1:通过方差感知采样与开放资源增强多模态推理 / MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
该论文提出了一种方差感知采样方法来解决多模态模型强化学习训练不稳定的问题,并发布了大规模高质量思维链数据和开源模型,显著提升了数学推理任务的性能。
MOSS-ChatV:基于过程推理奖励的视频时序推理强化学习 / MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
这篇论文提出了一个名为MOSS-ChatV的强化学习框架,通过引入基于动态时间规整的过程奖励机制,有效解决了多模态大语言模型在视频推理中存在的中间推理过程与视频动态不一致的问题,从而提升了模型推理的稳定性和可解释性,并在多个视频基准测试中取得了优异性能。
Recon-Act:一种通过网页侦察、工具生成和任务执行实现自我演进的多智能体浏览器使用系统 / Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
这篇论文提出了一种自我演进的多智能体系统,通过侦察团队分析错误并生成通用工具,再由行动团队利用这些工具执行复杂网页任务,显著提升了系统在未知网站和长流程任务中的适应性和解决能力。
SceneWeaver:一个可扩展且自反思的智能体实现一体化3D场景合成 / SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
这篇论文提出了一个名为SceneWeaver的智能系统,它通过自我反思和工具调用的方式,自动生成既真实又符合用户复杂要求的3D室内场景,显著超越了现有方法在物理合理性、视觉真实性和语义对齐方面的表现。
V-GameGym:面向代码大语言模型的视觉游戏生成基准 / V-GameGym: Visual Game Generation for Code Large Language Models
这篇论文提出了一个名为V-GameGym的基准测试,专门用于评估代码大语言模型在视觉游戏开发中的实际能力,通过引入游戏可玩性、视觉美观度等新指标,弥补了传统代码生成测试与真实游戏开发需求之间的差距。
用于自动驾驶中反射式视觉-语言-动作模型的离散扩散方法 / Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
这篇论文提出了一种名为ReflectDrive的新型自动驾驶框架,它通过离散扩散和无需梯度计算的安全反射机制,实现了更安全、可扩展的轨迹生成,克服了现有方法依赖复杂规则或模拟环境的局限性。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
MARS2 2025多模态推理挑战赛:数据集、方法、结果、讨论与展望 / MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook
这篇论文介绍了MARS2 2025多模态推理挑战赛,通过发布两个新数据集和三个竞赛赛道,评估了40多个模型,旨在推动多模态大语言模型在真实世界和专业化场景中的应用发展。
空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model
这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型,用户只需在单张图片或3D空间中简单标注,就能实现跨视角的精确空间推理和测量,无需复杂标注即可应用于真实场景视频分析。