DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
1️⃣ 一句话总结
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
请先 登录 后再提交论文
DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
Jina-VLM:小型多语言视觉语言模型 / Jina-VLM: Small Multilingual Vision Language Model
这篇论文提出了一个名为Jina-VLM的小型多语言视觉语言模型,它在保持高效处理任意分辨率图像的同时,在多项视觉问答评测中取得了领先的多语言性能,并且模型代码和权重已开源。
对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
PosterCopilot:面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
这篇论文提出了一个名为PosterCopilot的智能设计框架,它通过创新的训练方法让大模型学会精确的布局规划和审美判断,并支持对设计元素进行分层、迭代的精细化编辑,从而能自动生成几何准确且美观的专业海报。
PSA:用于高效视频理解与生成的金字塔稀疏注意力机制 / PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation
这篇论文提出了一种名为金字塔稀疏注意力的新方法,它通过多级池化来精细地保留关键信息,从而在显著降低计算成本的同时,有效减少了传统稀疏注意力机制在高稀疏度下的信息损失,使其在视频理解和生成任务中都能实现更优的效率与质量平衡。
Light-X:具备相机与光照联合控制的生成式4D视频渲染框架 / Light-X: Generative 4D Video Rendering with Camera and Illumination Control
这篇论文提出了一个名为Light-X的智能视频生成系统,它能让用户像导演一样,在保持画面流畅连贯的前提下,同时自由控制拍摄镜头的移动角度和场景的灯光效果,从而创造出逼真且动态变化的视频内容。
SIMA 2:适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds
这篇论文介绍了一个名为SIMA 2的通用智能体,它能在各种3D虚拟世界中理解、推理并执行复杂任务,不仅能像人类一样与用户对话协作,还能通过自我学习掌握新技能,向创建能持续学习的通用人工智能迈出了重要一步。