📄 论文总结
RLFR:基于流环境扩展大语言模型的强化学习 / RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
1️⃣ 一句话总结
这项研究提出了一种名为RLFR的新方法,通过利用模型潜在空间中的流场来构建奖励信号,从而更有效地引导大语言模型在推理任务中进行探索和学习,无需依赖高成本的标注数据。
请先 登录 后再提交论文
RLFR:基于流环境扩展大语言模型的强化学习 / RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
这项研究提出了一种名为RLFR的新方法,通过利用模型潜在空间中的流场来构建奖励信号,从而更有效地引导大语言模型在推理任务中进行探索和学习,无需依赖高成本的标注数据。
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理能力 / MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
本研究提出了MM-HELIX多模态长链反思推理基准和自适应混合策略优化方法,显著提升了多模态大模型在需要反复思考和回溯的复杂任务上的推理能力。
MMR1:通过方差感知采样与开放资源增强多模态推理 / MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
该论文提出了一种方差感知采样方法来解决多模态模型强化学习训练不稳定的问题,并发布了大规模高质量思维链数据和开源模型,显著提升了数学推理任务的性能。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
MARS2 2025多模态推理挑战赛:数据集、方法、结果、讨论与展望 / MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook
这篇论文介绍了MARS2 2025多模态推理挑战赛,通过发布两个新数据集和三个竞赛赛道,评估了40多个模型,旨在推动多模态大语言模型在真实世界和专业化场景中的应用发展。
交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation
这篇论文提出了一种交错推理生成框架,通过交替进行文本思考和图像合成来逐步优化图像细节与质量,显著提升了文本到图像生成的准确性和视觉效果。
D-HUMOR:通过多模态开放式推理理解黑色幽默——一个基准数据集与方法 / D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning -- A Benchmark Dataset and Method
这篇论文提出了一个专门用于识别网络表情包中黑色幽默的数据集和一种多模态推理增强方法,通过让AI模型模拟作者视角生成解释并融合图文信息,显著提升了黑色幽默检测、目标识别和强度预测的准确率。
多模态科学推理:ICML 2025 SeePhys挑战赛技术报告与冠军方案 / Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
这项研究提出了一种结合图像描述辅助的推理方法,有效解决了AI在多模态场景下的理解难题,并在科学推理竞赛中夺冠,同时验证了其在几何问题上的广泛适用性。
WildScore:多模态大语言模型在真实场景符号音乐推理的基准测试 / WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
这篇论文提出了首个针对真实世界符号音乐推理的基准测试WildScore,通过从真实乐谱和用户讨论构建的评估体系,揭示了当前多模态大模型在音乐理解方面的潜力与局限。
R-4B:通过双模式退火和强化学习激励多模态大语言模型中的通用自动思考能力 / R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
这篇论文提出了R-4B模型,它能够根据问题难度自动选择是否启动思考过程,从而在保证高性能的同时显著降低计算成本,在多个基准测试中超越了同类先进模型。