arXiv ID:
2603.15558
全景可供性预测 / Panoramic Affordance Prediction
1️⃣ 一句话总结
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
全景可供性预测 / Panoramic Affordance Prediction
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
SpaceSense-Bench:一个用于航天器感知与姿态估计的大规模多模态基准数据集 / SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation
这篇论文提出了一个名为SpaceSense-Bench的大规模、多模态航天器感知基准数据集,它通过高保真模拟生成了包含多种传感器数据和详细标注的数据,用于评估和推动航天器视觉感知与姿态估计技术的发展,并发现当前方法在识别小部件和泛化到新航天器方面仍面临挑战。
VietJobs:一个越南语招聘广告数据集 / VietJobs: A Vietnamese Job Advertisement Dataset
这篇论文发布了一个名为VietJobs的首个大规模、公开的越南语招聘广告数据集,包含超过4.8万条涵盖越南全国的招聘信息,并利用该数据集测试了大型语言模型在职位分类和薪资预测任务上的表现,为越南自然语言处理和劳动力市场分析研究提供了重要基础。
ForestPersons:一个用于林冠下失踪人员检测的大规模数据集 / ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection
这篇论文为了解决无人机在林区搜救时因树冠遮挡而难以发现失踪人员的问题,创建并公开了一个名为ForestPersons的大规模数据集,专门用于训练和评估能在林冠下复杂环境中有效检测人员的算法模型。
HateMirage:一个用于解码伪装仇恨与微妙网络暴力的可解释多维数据集 / HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse
这篇论文提出了一个名为HateMirage的新数据集,专门用于研究那些隐藏在虚假信息或误导性叙事中的、不易察觉的仇恨言论,并通过一个多维度标注框架来帮助AI模型更好地理解和解释这类有害内容的意图与影响。
OmniFashion:通过多任务视觉-语言学习迈向通用时尚智能 / OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning
这篇论文提出了一个名为OmniFashion的统一视觉-语言框架,它通过构建大规模数据集和创新的对话范式,将检索、推荐、识别等多种时尚任务整合在一起,实现了跨任务的准确理解和推理,为构建通用的、对话驱动的时尚智能系统提供了可行路径。
维也纳4G/5G路测数据集 / The Vienna 4G/5G Drive-Test Dataset
这篇论文发布了一个在奥地利维也纳采集的大规模、公开的4G/5G移动网络实测数据集,它结合了网络侧和用户侧的测量数据,并提供了基站信息和城市三维模型,旨在为移动网络的分析、优化和人工智能研究提供一个标准化的基准测试平台。
EduVQA:面向教育领域的AI生成视频质量评估基准 / EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education
这篇论文提出了首个用于评估教育类AI生成视频质量的基准数据集和评估框架,并通过一个创新的模型来同时衡量视频的视觉逼真度和内容与教学提示的匹配程度。
用于非刚性腹部手术场景4D重建的德累斯顿数据集 / The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes
这篇论文介绍了一个名为D4D的公开数据集,它通过提供配对的腹腔镜手术视频和高质量三维几何数据,为评估在真实手术条件下对动态软组织的三维重建算法建立了一个全面的基准。
3D-DRES:精细化的三维指代表达式分割 / 3D-DRES: Detailed 3D Referring Expression Segmentation
这篇论文提出了一个名为3D-DRES的新任务和一个配套数据集DetailRefer,旨在通过将自然语言描述中的每个名词短语精确映射到三维场景中的对应物体部件,来实现比现有方法更精细的三维视觉-语言理解,并展示了该方法不仅能提升短语级分割精度,还能意外地改善传统的句子级三维指代表达式分割性能。
请先 登录 后再提交论文