arXiv ID:
2511.20347
软自适应策略优化 / Soft Adaptive Policy Optimization
1️⃣ 一句话总结
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。
OmniRefiner:基于强化学习的局部扩散模型图像精细化方法 / OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
这篇论文提出了一个名为OmniRefiner的两阶段图像精细化框架,它通过结合扩散模型和强化学习,有效解决了现有方法在根据参考图编辑生成图像时难以保留精细纹理和保持视觉一致性的问题。
Agent0-VL:通过工具集成推理实现自我演化的视觉语言智能体 / Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
Agent0-VL是一个创新的视觉语言模型框架,通过在单一模型中统一求解器和验证器两个协同角色,结合工具验证和强化学习,实现了无需外部奖励的闭环自我改进。
ThreadWeaver:面向语言模型高效并行推理的自适应线程技术 / ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
这篇论文提出了一种名为ThreadWeaver的新方法,它能让大语言模型在解决复杂问题时像多线程处理任务一样并行思考,从而在保持与顶尖顺序推理模型相同准确率的同时,显著提升了推理速度,且无需修改现有推理引擎。
CodeV:通过工具感知策略优化实现基于代码和图像的可靠视觉推理 / CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization
这篇论文提出了一个名为CodeV的视觉智能体和一个名为TAPO的训练框架,旨在通过直接监督AI使用视觉工具(如图像裁剪)的中间过程,解决现有视觉模型虽然能给出正确答案但实际推理过程不可靠的问题,从而构建更可信的视觉推理系统。
MobileVLA-R1:强化移动机器人的视觉-语言-动作整合 / MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
这篇论文提出了一种名为MobileVLA-R1的新方法,通过结合思维链数据和强化学习,有效提升了四足机器人根据语言指令执行连续动作的稳定性和泛化能力。
Video-R4:通过视觉反刍增强文本丰富视频的推理能力 / Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination
这篇论文提出了一种名为Video-R4的视频推理模型,它通过模拟人类反复观察关键区域的行为,迭代地放大和重新分析视频帧中的文本细节,从而显著提升了在文本密集视频问答任务中的准确性和泛化能力。
边生成边思考:在视觉生成过程中交织文本推理 / Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
这篇论文提出了一个名为TwiG的创新框架,通过在视觉生成过程中实时交织文本推理,使模型能够边生成图像边进行动态思考,从而生成更具上下文意识和语义丰富性的视觉内容。
视频作为答案:利用联合GRPO预测并生成下一视频事件 / Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
这篇论文提出了一种新方法,能够根据视频和问题直接生成展示下一事件的视频答案,而不是文字描述,使得教学和创意探索更加直观。
OpenMMReasoner:通过开放通用方法推动多模态推理前沿 / OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
这项研究提出了一个完全透明的两阶段训练方法,通过精心构建的数据集和强化学习显著提升了多模态推理能力,在多个基准测试中比现有领先模型性能提升11.6%。
请先 登录 后再提交论文