SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
1️⃣ 一句话总结
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
请先 登录 后再提交论文
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
SkillFactory:用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors
这篇论文提出了一种名为SkillFactory的自蒸馏方法,它通过重新组织模型自身生成的样本进行监督微调,使模型在强化学习前初步掌握验证、回溯等认知技能,从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。
AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
Jina-VLM:小型多语言视觉语言模型 / Jina-VLM: Small Multilingual Vision Language Model
这篇论文提出了一个名为Jina-VLM的小型多语言视觉语言模型,它在保持高效处理任意分辨率图像的同时,在多项视觉问答评测中取得了领先的多语言性能,并且模型代码和权重已开源。
开放智能的经济学:追踪模型生态系统中的权力与参与 / Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem
这篇论文通过分析Hugging Face平台超过85万个AI模型的下载数据和元数据,揭示了开放模型经济中权力格局的重大转变:美国科技巨头的统治地位正被独立开发者、社区组织以及以DeepSeek和Qwen为代表的中国产业力量所削弱,同时模型规模、多模态能力等技术特性快速演进,但数据透明度却在下降。
AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。