arXiv ID:
2602.07689
视频的思维过程推理 / Process-of-Thought Reasoning for Videos
1️⃣ 一句话总结
这篇论文提出了一个名为‘思维过程’的视频推理框架,它将复杂的视频理解任务分解成一系列可验证的步骤,从而让推理过程更清晰、更准确,并减少错误,同时适用于不同的现有模型。
视频的思维过程推理 / Process-of-Thought Reasoning for Videos
这篇论文提出了一个名为‘思维过程’的视频推理框架,它将复杂的视频理解任务分解成一系列可验证的步骤,从而让推理过程更清晰、更准确,并减少错误,同时适用于不同的现有模型。
连接语音、情感与动作:一种基于视觉语言模型、可部署于边缘的人形机器人多模态交互框架 / Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots
这篇论文提出了一个名为SeM²的智能框架,它能让机器人像人一样,在说话时自然地协调语音、面部表情和身体动作来表达情感,并且这个框架经过优化后可以直接在机器人自带的设备上高效运行,无需依赖云端。
VividFace:面向仿人机器人的实时逼真面部表情模仿系统 / VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots
这篇论文提出了一个名为VividFace的系统,它能让仿人机器人以极低的延迟(0.05秒内)实时、逼真地模仿人类的面部表情,从而显著提升机器人的拟人化表现和情感交互能力。
多模态序列推荐的增强 / Multimodal Enhancement of Sequential Recommendation
这篇论文提出了一个名为MuSTRec的新推荐系统框架,它通过结合物品的文本和图像信息来构建物品关系图,并利用注意力机制捕捉用户的长短期偏好,从而在多个数据集上显著超越了现有的先进推荐方法。
使用BusyBox基准测试具身智能模型的“可供性”泛化能力 / Benchmarking Affordance Generalization with BusyBox
这篇论文提出了一个名为BusyBox的物理测试平台,用于系统评估视觉-语言-动作模型在面对新物体时,能否根据其熟悉的物理特征(如开关、旋钮)进行正确操作的能力,发现现有先进模型在此类“可供性”泛化任务上仍面临巨大挑战。
风笛手:通过丰富描述解决开放式音频任务 / Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions
这篇论文提出了一个名为Bagpiper的通用音频基础模型,它通过将原始音频信号与全面的自然语言描述(即“丰富描述”)相互映射,无需针对特定任务进行专门训练,就能统一处理音频理解和生成等多种复杂任务。
稀疏视频生成推动现实世界超视距视觉语言导航 / Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
这篇论文提出了一种名为SparseVideoNav的新方法,它首次将视频生成模型引入超视距导航任务,通过生成稀疏的未来视频帧来指导机器人快速规划长距离路径,从而在现实复杂场景(包括夜间)中,以远超现有技术的成功率实现了仅凭简单高层指令的自主导航。
SOMA-1M:一个用于多任务遥感的大规模合成孔径雷达-光学多分辨率对齐数据集 / SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing
这篇论文发布了一个包含超过130万对精确对齐的合成孔径雷达与光学遥感图像的大型数据集,旨在解决现有数据在规模、分辨率和对齐精度上的不足,并通过实验证明该数据集能显著提升多种跨模态遥感视觉任务的性能。
NeVStereo:一种用于高保真3D任务的NeRF驱动的新视角合成-立体视觉架构 / NeVStereo: A NeRF-Driven NVS-Stereo Architecture for High-Fidelity 3D Tasks
这篇论文提出了一个名为NeVStereo的新框架,它巧妙地将神经渲染和立体视觉技术结合起来,只用普通拍摄的彩色照片,就能同时高精度地计算出相机位置、深度图、生成新视角画面并重建出高质量的3D模型。
用于分娩训练中稳健人体模型定位的混合现实系统 / A Mixed Reality System for Robust Manikin Localization in Childbirth Training
这项研究开发了一套混合现实分娩训练系统,它通过外部摄像头和算法精准定位物理人体模型,让医学生能在没有专家全程监督的情况下,结合虚拟指导和真实触感进行独立练习,显著提升了训练效果和学员偏好。
请先 登录 后再提交论文