arXiv ID:
2603.15558
全景可供性预测 / Panoramic Affordance Prediction
1️⃣ 一句话总结
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
全景可供性预测 / Panoramic Affordance Prediction
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
PanoAffordanceNet:面向360度室内环境的整体可供性定位 / PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments
这篇论文提出了一个名为PanoAffordanceNet的新框架,它通过创新的技术解决了在360度全景室内环境中精准识别物体功能(即可供性)的难题,并创建了首个高质量全景数据集,为智能体的场景级感知建立了坚实基础。
MA-EgoQA:基于多智能体第一视角视频的问答 / MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents
这篇论文提出了一个名为MA-EgoQA的新基准测试和数据集,用于评估人工智能模型如何同时理解和回答基于多个智能体第一视角视频的问题,并发现现有模型在这方面存在显著不足,从而为未来多智能体协作系统的开发指明了方向。
UniGround:通过免训练场景解析实现通用3D视觉定位 / UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
这篇论文提出了一种名为UniGround的新方法,它无需额外训练,仅通过视觉和几何推理就能在复杂的三维场景中,根据自然语言描述精准定位任何物体,突破了以往依赖预训练模型的知识局限,在开放世界场景中展现出强大的泛化能力和鲁棒性。
ACE-Brain-0:将空间智能作为通用具身智能的共享基础框架 / ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments
这篇论文提出了一个名为ACE-Brain-0的通用智能基础模型,其核心思想是利用‘空间智能’作为通用桥梁,成功地将自动驾驶、机器人操控和无人机飞行等不同形态的智能体统一到一个多模态大模型中,并通过创新的训练方法使其在多种任务上达到领先性能。
世界之链:潜在运动中的世界模型思维 / Chain of World: World Model Thinking in Latent Motion
这篇论文提出了一种名为CoWVLA的新方法,它通过将视频分解为结构和运动两部分,并让AI模型学习预测连续的运动链,从而更高效地训练机器人视觉-语言-动作模型,使其既能理解世界动态,又保持模型简洁。
SignVLA:一种用于实时手语引导机器人操作的免注释词视觉-语言-动作框架 / SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation
这篇论文提出了一种名为SignVLA的新框架,它能让机器人直接看懂人的手语手势并执行相应操作,无需依赖复杂的手语注释作为中间步骤,从而实现了更自然、低成本且适合安全关键环境的实时人机交互。
QuantVLA:面向视觉-语言-动作模型的尺度校准训练后量化方法 / QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
这篇论文提出了一种名为QuantVLA的训练后量化框架,它能在不重新训练模型的情况下,大幅压缩视觉-语言-动作模型的存储占用并提升推理速度,同时保持甚至超越原始模型的性能,为在资源受限设备上部署这类复杂的AI模型提供了实用方案。
学习检索可导航候选对象以实现高效视觉语言导航 / Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation
这篇论文提出了一种检索增强框架,通过引入两层轻量级检索模块来为大语言模型导航提供任务先验并过滤无关选项,从而在不修改模型本身的情况下,显著提升了视觉语言导航任务的效率和稳定性。
规范与指代碰撞之处:评估大语言模型的规范性推理能力 / Where Norms and References Collide: Evaluating LLMs on Normative Reasoning
这项研究通过一个名为SNIC的诊断测试平台发现,即使是当前最先进的大语言模型,在处理需要结合物理和社会背景来理解隐含行为规范的指代任务时,仍然存在明显不足,这揭示了其在应用于具身智能等社会性场景中的一个关键短板。
请先 登录 后再提交论文