arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2508.21060

arXiv 提交日期: 2025-08-28

computer vision multi-modal model training 3d tracking point cloud multi-view correspondence estimation transformer

多视角三维点跟踪 / Multi-View 3D Point Tracking

1️⃣ 一句话总结

这篇论文提出了首个数据驱动的多视角三维点跟踪方法，能够利用少量摄像头实时、准确地追踪动态场景中的任意点，有效克服了单视角方法在深度模糊和遮挡方面的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.21046

arXiv 提交日期: 2025-08-28

multi-modal robotics model training vision-language-action instruction routing token sparsification efficiency optimization robotic manipulation

CogVLA：通过指令驱动路由与稀疏化实现认知对齐的视觉-语言-动作模型 / CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

1️⃣ 一句话总结

这篇论文提出了一种名为CogVLA的高效智能模型，它通过模仿人类认知过程，使用指令来动态筛选视觉和语言信息，从而在机器人任务中实现了更高的准确性和更快的运行速度，同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.20751

arXiv 提交日期: 2025-08-28

model training model evaluation multi-modal reinforcement learning text-to-image reward modeling preference learning benchmarking

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习 / Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

1️⃣ 一句话总结

本研究提出了一种名为Pref-GRPO的新方法，通过比较图像对的偏好来替代传统评分机制，有效防止强化学习训练中的奖励作弊问题，并引入了一个更精细的评估基准UniGenBench来全面衡量文本生成图像模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.20478

arXiv 提交日期: 2025-08-28

video multi-modal model training long video understanding reinforcement learning multi-turn reasoning video segment selection bi-level reward

Video-MTR：面向长视频理解的强化多轮推理框架 / Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

1️⃣ 一句话总结

本文提出了一种强化多轮推理框架Video-MTR，通过迭代选择关键视频片段并结合问题理解，实现了对长视频内容更精准的分析，无需依赖外部视觉语言模型即可端到端训练，在多个基准测试中取得了更高的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.20088

arXiv 提交日期: 2025-08-27

llm audio multi-modal audio generation long-form narrative text-to-audio llm planning diffusion transformer

AudioStory：一个用于生成连贯长叙事音频的端到端统一框架 / AudioStory: Generating Long-Form Narrative Audio with Large Language Models

1️⃣ 一句话总结

本文提出了AudioStory，一个将大型语言模型与文本到音频生成系统集成的端到端框架，旨在通过交错推理生成和渐进式训练策略，解决现有模型在生成时间连贯、结构化的长叙事音频（如有声书、播客）方面的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.20072

arXiv 提交日期: 2025-08-27

robotics model training multi-modal vision-language-action discrete diffusion robot policies action decoding transformer architecture

离散扩散视觉语言动作模型：将离散扩散引入视觉-语言-动作策略中的动作解码 / Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

1️⃣ 一句话总结

这篇论文提出了一种名为离散扩散视觉语言动作模型的新方法，它利用离散扩散技术来解码机器人动作，实现了更灵活、高效和准确的决策过程，在多个机器人任务测试中表现优于现有主流方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19652

arXiv 提交日期: 2025-08-27

multi-modal model training machine learning vision-language models self-rewarding reasoning decomposition visual hallucinations reinforcement learning

通过推理分解实现自我奖励的视觉语言模型 / Self-Rewarding Vision-Language Model via Reasoning Decomposition

1️⃣ 一句话总结

这篇论文提出了一种名为Vision-SR1的自我奖励方法，通过将视觉语言模型的推理过程分解为视觉感知和语言推理两个阶段，并让模型自我评估生成的内容，从而在没有外部监督的情况下有效减少视觉幻觉和语言捷径问题，提升了模型的视觉推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19527

arXiv 提交日期: 2025-08-27

natural language processing multi-modal model training motion generation text-to-motion rectified flow preference optimization real-time synthesis

MotionFlux：基于整流流匹配和偏好对齐的高效文本引导运动生成 / MotionFlux: Efficient Text-Guided Motion Generation through Rectified Flow Matching and Preference Alignment

1️⃣ 一句话总结

这篇论文提出了一个结合TAPO偏好优化和MotionFlux高效生成框架的系统，能够根据文字描述快速生成语义准确、质量高的虚拟角色动作，解决了传统方法速度慢和语义对齐差的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19493

arXiv 提交日期: 2025-08-27

multi-modal agents benchmark privacy awareness smartphone agents mllm evaluation sensitivity detection utility-privacy tradeoff

警惕第三只眼！评估MLLM驱动的智能手机助手的隐私意识 / Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

1️⃣ 一句话总结

这项研究首次大规模评估了多模态大模型驱动的智能手机助手的隐私意识，发现它们在处理用户敏感信息时普遍表现不佳，即使有明确提示，隐私识别率也低于60%，揭示了当前智能助手在功能与隐私保护之间存在严重失衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19209

arXiv 提交日期: 2025-08-26

multi-modal video generation agents avatar animation cognitive simulation multimodal dit semantic coherence motion generation

全能人类-1.5：通过认知模拟为虚拟化身注入主动思维 / OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

1️⃣ 一句话总结

这项研究提出了一个创新框架，能够生成不仅动作自然流畅，还能深刻理解情感、意图和场景语义的虚拟人动画，解决了现有模型仅能同步音频节奏而缺乏深层语义表达的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2508.21060

1️⃣ 一句话总结

arXiv ID: 2508.21046

1️⃣ 一句话总结

arXiv ID: 2508.20751

1️⃣ 一句话总结

arXiv ID: 2508.20478

1️⃣ 一句话总结

arXiv ID: 2508.20088

1️⃣ 一句话总结

arXiv ID: 2508.20072

1️⃣ 一句话总结

arXiv ID: 2508.19652

1️⃣ 一句话总结

arXiv ID: 2508.19527

1️⃣ 一句话总结

arXiv ID: 2508.19493

1️⃣ 一句话总结

arXiv ID: 2508.19209

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2508.21060 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.21046 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.20751 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.20478 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.20088 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.20072 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19652 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19527 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19209 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2508.21060

arXiv ID: 2508.21046

arXiv ID: 2508.20751

arXiv ID: 2508.20478

arXiv ID: 2508.20088

arXiv ID: 2508.20072

arXiv ID: 2508.19652

arXiv ID: 2508.19527

arXiv ID: 2508.19493

arXiv ID: 2508.19209