arXiv ID:
2508.21060
多视角三维点跟踪 / Multi-View 3D Point Tracking
1️⃣ 一句话总结
这篇论文提出了首个数据驱动的多视角三维点跟踪方法,能够利用少量摄像头实时、准确地追踪动态场景中的任意点,有效克服了单视角方法在深度模糊和遮挡方面的局限性。
多视角三维点跟踪 / Multi-View 3D Point Tracking
这篇论文提出了首个数据驱动的多视角三维点跟踪方法,能够利用少量摄像头实时、准确地追踪动态场景中的任意点,有效克服了单视角方法在深度模糊和遮挡方面的局限性。
CogVLA:通过指令驱动路由与稀疏化实现认知对齐的视觉-语言-动作模型 / CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
这篇论文提出了一种名为CogVLA的高效智能模型,它通过模仿人类认知过程,使用指令来动态筛选视觉和语言信息,从而在机器人任务中实现了更高的准确性和更快的运行速度,同时大幅降低了计算成本。
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习 / Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
本研究提出了一种名为Pref-GRPO的新方法,通过比较图像对的偏好来替代传统评分机制,有效防止强化学习训练中的奖励作弊问题,并引入了一个更精细的评估基准UniGenBench来全面衡量文本生成图像模型的表现。
Video-MTR:面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding
本文提出了一种强化多轮推理框架Video-MTR,通过迭代选择关键视频片段并结合问题理解,实现了对长视频内容更精准的分析,无需依赖外部视觉语言模型即可端到端训练,在多个基准测试中取得了更高的准确性和效率。
AudioStory:一个用于生成连贯长叙事音频的端到端统一框架 / AudioStory: Generating Long-Form Narrative Audio with Large Language Models
本文提出了AudioStory,一个将大型语言模型与文本到音频生成系统集成的端到端框架,旨在通过交错推理生成和渐进式训练策略,解决现有模型在生成时间连贯、结构化的长叙事音频(如有声书、播客)方面的不足。
离散扩散视觉语言动作模型:将离散扩散引入视觉-语言-动作策略中的动作解码 / Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
这篇论文提出了一种名为离散扩散视觉语言动作模型的新方法,它利用离散扩散技术来解码机器人动作,实现了更灵活、高效和准确的决策过程,在多个机器人任务测试中表现优于现有主流方法。
通过推理分解实现自我奖励的视觉语言模型 / Self-Rewarding Vision-Language Model via Reasoning Decomposition
这篇论文提出了一种名为Vision-SR1的自我奖励方法,通过将视觉语言模型的推理过程分解为视觉感知和语言推理两个阶段,并让模型自我评估生成的内容,从而在没有外部监督的情况下有效减少视觉幻觉和语言捷径问题,提升了模型的视觉推理能力。
MotionFlux:基于整流流匹配和偏好对齐的高效文本引导运动生成 / MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment
这篇论文提出了一个结合TAPO偏好优化和MotionFlux高效生成框架的系统,能够根据文字描述快速生成语义准确、质量高的虚拟角色动作,解决了传统方法速度慢和语义对齐差的问题。
警惕第三只眼!评估MLLM驱动的智能手机助手的隐私意识 / Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents
这项研究首次大规模评估了多模态大模型驱动的智能手机助手的隐私意识,发现它们在处理用户敏感信息时普遍表现不佳,即使有明确提示,隐私识别率也低于60%,揭示了当前智能助手在功能与隐私保护之间存在严重失衡。
全能人类-1.5:通过认知模拟为虚拟化身注入主动思维 / OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation
这项研究提出了一个创新框架,能够生成不仅动作自然流畅,还能深刻理解情感、意图和场景语义的虚拟人动画,解决了现有模型仅能同步音频节奏而缺乏深层语义表达的局限性。
请先 登录 后再提交论文