arXiv ID:
2511.06101
利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision
1️⃣ 一句话总结
这篇论文提出了一个名为SynthAgent的框架,通过双重优化合成任务和行动轨迹来提升数据质量,从而帮助网络智能体更好地适应新网站环境,实验证明其效果优于现有方法。
利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision
这篇论文提出了一个名为SynthAgent的框架,通过双重优化合成任务和行动轨迹来提升数据质量,从而帮助网络智能体更好地适应新网站环境,实验证明其效果优于现有方法。
Motif-2-12.7B 技术报告 / Motif 2 12.7B technical report
这篇论文介绍了一个名为Motif-2-12.7B的新型高效开源大语言模型,它通过创新的分组差分注意力架构和系统级优化,在有限计算资源下实现了与更大模型相媲美的强大语言理解和指令执行能力。
长链基础思维:大规模提炼组合式视觉推理链条 / Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
这篇论文提出了一个大规模生成高质量视觉推理数据集的新方法,通过两阶段合成框架创造出包含复杂推理链条的百万级问题,实验证明基于该数据训练的模型在多项视觉及跨模态推理任务上超越了现有最优模型。
KLASS:基于KL引导的掩码扩散模型快速推理方法 / KLASS: KL-Guided Fast Inference in Masked Diffusion Models
这篇论文提出了一种名为KLASS的快速采样方法,通过利用KL散度识别稳定预测,在不额外训练模型的情况下大幅加速掩码扩散模型的生成过程,并在文本、图像和分子生成等多个领域保持甚至提升了生成质量。
通过基础对齐模型协作优化多样性与质量 / Optimizing Diversity and Quality through Base-Aligned Model Collaboration
这篇论文提出了一种名为BACo的新方法,通过在推理时动态结合基础模型和对齐模型来生成文本,使得大语言模型在保持高质量输出的同时显著提升了回答的多样性,解决了传统方法难以兼顾这两者的问题。
TimeSearch-R:通过自验证强化学习实现长视频理解的自适应时序搜索 / TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning
这篇论文提出了一种名为TimeSearch-R的新方法,它通过结合自验证机制的强化学习来智能搜索长视频中的关键帧,从而更完整、准确地理解视频内容,并在多个基准测试中取得了领先性能。
SIMS-V:面向空间视频理解的模拟指令调优 / SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
该论文提出了一种利用3D模拟器生成空间丰富视频数据的方法,仅需少量模拟示例就能有效训练视频语言模型,使其在现实世界空间推理任务中超越更大模型并媲美商业模型。
V-Thinker:基于图像的交互式思考 / V-Thinker: Interactive Thinking with Images
这篇论文提出了一个名为V-Thinker的多模态AI助手,它通过自动生成数据和强化学习训练,使模型能够与图像进行深度交互并完成复杂的视觉推理任务,在多项测试中超越了现有方法。
多头注意力机制的强彩票假说 / The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms
这篇论文证明了在随机初始化的多头注意力网络和Transformer中,无需训练即可找到性能优秀的子网络,从而近似实现任意目标网络的功能。
NVIDIA Nemotron Nano V2 VL / NVIDIA Nemotron Nano V2 VL
这篇论文介绍了NVIDIA最新推出的视觉语言模型Nemotron Nano V2 VL,它通过改进模型架构和训练方法,在文档理解、长视频分析和推理任务上表现更出色,同时提升了处理长内容的效率。
请先 登录 后再提交论文