DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
1️⃣ 一句话总结
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
请先 登录 后再提交论文
DynamicVerse:一个物理感知的多模态4D世界建模框架 / DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling
这篇论文提出了一个名为DynamicVerse的新框架,它利用大型模型从普通网络视频中自动构建出包含精确三维几何、真实运动、物体分割和文字描述的大规模4D(三维+时间)动态世界数据集,从而帮助AI更准确地理解和模拟真实物理世界。
AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
PosterCopilot:面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
这篇论文提出了一个名为PosterCopilot的智能设计框架,它通过创新的训练方法让大模型学会精确的布局规划和审美判断,并支持对设计元素进行分层、迭代的精细化编辑,从而能自动生成几何准确且美观的专业海报。
Nex-N1:通过统一生态系统构建大规模环境以训练智能体模型 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
这篇论文提出了一个名为Nex的统一生态系统,通过自动生成多样且复杂的交互环境来训练大语言模型成为自主智能体,其训练的Nex-N1模型在复杂任务上表现优异,媲美顶尖商业模型。
DAComp:一个覆盖完整数据智能生命周期的数据智能体基准测试 / DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
这篇论文提出了一个名为DAComp的综合性基准测试,包含210个任务,用于全面评估数据智能体在从原始数据加工到商业决策分析的全流程中的实际能力,结果发现当前最先进的智能体在复杂数据工程和开放式分析任务上表现均不佳,揭示了其关键瓶颈。
PaperDebugger:一个基于插件的多智能体系统,用于在编辑器内进行学术写作、审阅和编辑 / PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing
这篇论文提出了一个名为PaperDebugger的智能写作助手,它能直接嵌入到LaTeX编辑器内部,通过多个AI智能体协同工作,帮助用户在写作过程中进行实时修改、审阅和文献查找,解决了传统外部写作助手无法深度理解文档状态和结构的问题。
实时数字人:支持无限时长流式生成、由实时音频驱动的数字人生成 / Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
这篇论文提出了一个名为Live Avatar的软硬件协同设计框架,它通过创新的并行计算和缓存机制,首次实现了使用超大规模扩散模型进行高保真、低延迟、无限时长的实时数字人视频流式生成。
SimWorld:一个面向物理与社交世界中自主智能体的开放式真实模拟器 / SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds
这篇论文介绍了一个名为SimWorld的新型高仿真模拟器,它基于虚幻引擎5构建,旨在为大型语言模型和视觉语言模型驱动的智能体提供一个开放、真实且可定制的物理与社交环境,以训练和评估它们在复杂现实任务(如多智能体协作与竞争)中的表现,并揭示了不同前沿模型的推理模式与局限。
CUDA-L2:通过强化学习超越cuBLAS的矩阵乘法性能 / CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning
这篇论文提出了一个名为CUDA-L2的系统,它利用大语言模型和强化学习来自动优化GPU上的矩阵乘法计算核心,其性能超越了包括英伟达官方库在内的现有最佳方案,证明了AI自动化优化可以突破人类手动优化的性能极限。
深度研究:一项系统性综述 / Deep Research: A Systematic Survey
这篇论文系统性地综述了如何将大语言模型与外部工具(如搜索引擎)结合,使其成为能完成复杂、开放式任务的‘研究智能体’,并梳理了其技术路线、核心组件、优化方法以及面临的挑战。