DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
1️⃣ 一句话总结
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
请先 登录 后再提交论文
DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
SkillFactory:用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors
这篇论文提出了一种名为SkillFactory的自蒸馏方法,它通过重新组织模型自身生成的样本进行监督微调,使模型在强化学习前初步掌握验证、回溯等认知技能,从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。
AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
上下文表示劫持 / In-Context Representation Hijacking
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
逆向流动:通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法,从而显著提升了模型的生成质量、分类准确率和训练速度。
Jina-VLM:小型多语言视觉语言模型 / Jina-VLM: Small Multilingual Vision Language Model
这篇论文提出了一个名为Jina-VLM的小型多语言视觉语言模型,它在保持高效处理任意分辨率图像的同时,在多项视觉问答评测中取得了领先的多语言性能,并且模型代码和权重已开源。
对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
开放智能的经济学:追踪模型生态系统中的权力与参与 / Economies of Open Intelligence: Tracing Power & Participation in the Model Ecosystem
这篇论文通过分析Hugging Face平台超过85万个AI模型的下载数据和元数据,揭示了开放模型经济中权力格局的重大转变:美国科技巨头的统治地位正被独立开发者、社区组织以及以DeepSeek和Qwen为代表的中国产业力量所削弱,同时模型规模、多模态能力等技术特性快速演进,但数据透明度却在下降。