📄 论文总结
Video-MTR:面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
1️⃣ 一句话总结
本文提出了一种强化多轮推理框架Video-MTR,通过迭代选择关键视频片段并结合问题理解,实现了对长视频内容更精准的分析,无需依赖外部视觉语言模型即可端到端训练,在多个基准测试中取得了更高的准确性和效率。
请先 登录 后再提交论文
Video-MTR:面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
本文提出了一种强化多轮推理框架Video-MTR,通过迭代选择关键视频片段并结合问题理解,实现了对长视频内容更精准的分析,无需依赖外部视觉语言模型即可端到端训练,在多个基准测试中取得了更高的准确性和效率。
离散扩散视觉语言动作模型:将离散扩散引入视觉-语言-动作策略中的动作解码 / Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
这篇论文提出了一种名为离散扩散视觉语言动作模型的新方法,它利用离散扩散技术来解码机器人动作,实现了更灵活、高效和准确的决策过程,在多个机器人任务测试中表现优于现有主流方法。
警惕第三只眼!评估MLLM驱动的智能手机助手的隐私意识 / Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
这项研究首次大规模评估了多模态大模型驱动的智能手机助手的隐私意识,发现它们在处理用户敏感信息时普遍表现不佳,即使有明确提示,隐私识别率也低于60%,揭示了当前智能助手在功能与隐私保护之间存在严重失衡。
通过推理分解实现自我奖励的视觉语言模型 / Self-Rewarding Vision-Language Model via Reasoning Decomposition
这篇论文提出了一种名为Vision-SR1的自我奖励方法,通过将视觉语言模型的推理过程分解为视觉感知和语言推理两个阶段,并让模型自我评估生成的内容,从而在没有外部监督的情况下有效减少视觉幻觉和语言捷径问题,提升了模型的视觉推理能力。
MotionFlux:基于整流流匹配和偏好对齐的高效文本引导运动生成 / MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
这篇论文提出了一个结合TAPO偏好优化和MotionFlux高效生成框架的系统,能够根据文字描述快速生成语义准确、质量高的虚拟角色动作,解决了传统方法速度慢和语义对齐差的问题。
全能人类-1.5:通过认知模拟为虚拟化身注入主动思维 / OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation
这项研究提出了一个创新框架,能够生成不仅动作自然流畅,还能深刻理解情感、意图和场景语义的虚拟人动画,解决了现有模型仅能同步音频节奏而缺乏深层语义表达的局限性。
MovieCORE:电影中的认知推理 / MovieCORE: COgnitive REasoning in Movies
这篇论文提出了一个名为MovieCORE的新型视频问答数据集,专门用于测试AI对电影内容深层认知理解的能力,并通过创新的智能增强方法显著提升了现有模型的推理表现。
InternVL3.5:在通用性、推理能力和效率上推进开源多模态模型 / InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
这篇论文提出了InternVL 3.5开源多模态模型,通过创新的两阶段强化学习框架和动态视觉分辨率调节技术,显著提升了模型的推理能力、运行效率及通用性,并在多项任务中接近顶尖商业模型的性能。
Social-MAE:基于Transformer的多模态人脸与语音自编码器 / Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
这项研究开发了一个名为Social-MAE的多模态人工智能模型,通过自监督学习从人脸和语音数据中提取特征,在情感识别、笑声检测等社交任务中取得了领先或具有竞争力的性能。
协同多模态编码用于高质量三维生成 / Collaborative Multi-Modal Coding for High-Quality 3D Generation
这篇论文提出了首个名为TriMM的前馈式三维生成模型,通过协同整合图像和点云等多模态数据,有效提升了三维资产在纹理和几何细节上的生成质量。