arXiv最新AI论文速览速学

🔍

标签: #scene graph ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: OR-Action: Multi-Role Video Understanding with Fine-Grained Actions 06-12

arXiv ID: 2606.13332

arXiv 提交日期: 2026-06-11

computer vision benchmark action recognition scene graph operating room multi-view alignment temporal reasoning

OR-Action：带细粒度动作的多角色手术室视频理解 / OR-Action: Multi-Role Video Understanding with Fine-Grained Actions

1️⃣ 一句话总结

本文提出了一种针对手术室视频的细粒度多角色动作识别方法，通过构建首个以动作为中心的基准数据集和一种仅依赖视觉的时序模型，显著提升了在复杂遮挡和有限视角下的动作理解能力，并引入多视角到单视角的特征对齐技术，减少了对多摄像头数据的依赖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16909

arXiv 提交日期: 2025-12-18

multi-modal agents robotics scene graph embodied ai task planning vision-language model reinforcement learning

MomaGraph：用于具身任务规划的、具备状态感知能力的统一场景图与视觉语言模型 / MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

1️⃣ 一句话总结

这篇论文提出了一个名为MomaGraph的统一场景表示方法，它结合了空间、功能和物体状态信息，并配套发布了首个大规模任务驱动场景图数据集与评估基准，同时训练了一个能根据场景图进行零样本任务规划的视觉语言模型，显著提升了家庭环境中移动机械臂的任务规划性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18734

arXiv 提交日期: 2025-11-24

agents multi-modal aigc 3d city generation agentic framework scene graph layout optimization image-to-3d

Yo'City：通过自我批判扩展实现个性化和无边界的3D逼真城市场景生成 / Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

1️⃣ 一句话总结

Yo'City是一个创新的智能框架，它利用大型模型的推理能力，通过分层规划和迭代优化，让用户能够生成无限扩展且高度个性化的逼真3D城市场景，并在多个评估维度上超越了现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13332

1️⃣ 一句话总结

arXiv ID: 2512.16909

1️⃣ 一句话总结

arXiv ID: 2511.18734

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13332 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18734 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13332

arXiv ID: 2512.16909

arXiv ID: 2511.18734