arXiv最新AI论文速览速学

🔍

标签: #text-to-video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education 03-04

arXiv ID: 2603.03066

arXiv 提交日期: 2026-03-03

video generation aigc benchmark video quality assessment educational videos text-to-video dataset multi-dimensional evaluation

EduVQA：面向教育领域的AI生成视频质量评估基准 / EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

1️⃣ 一句话总结

这篇论文提出了首个用于评估教育类AI生成视频质量的基准数据集和评估框架，并通过一个创新的模型来同时衡量视频的视觉逼真度和内容与教学提示的匹配程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05986

arXiv 提交日期: 2026-02-05

video generation benchmark model evaluation reasoning benchmark text-to-video multimodal evaluation world rules temporal consistency

RISE-Video：视频生成器能解码隐含的世界规则吗？ / RISE-Video: Can Video Generators Decode Implicit World Rules?

1️⃣ 一句话总结

这篇论文提出了一个名为RISE-Video的评测基准，旨在评估视频生成模型是否真正理解并遵循物理世界和常识中的隐含规则，而不仅仅是生成好看的画面，结果发现现有模型在这方面普遍存在不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09881

arXiv 提交日期: 2026-01-14

video generation model training aigc knowledge distillation diffusion models flow matching text-to-video efficient inference

用于快速视频生成的过渡匹配蒸馏 / Transition Matching Distillation for Fast Video Generation

1️⃣ 一句话总结

这项研究提出了一种名为‘过渡匹配蒸馏’的新方法，它通过将大型视频扩散模型的知识压缩到轻量级条件流模型中，在保持视频生成质量的同时，大幅提升了生成速度，使其更适用于实时交互应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03233

arXiv 提交日期: 2026-01-06

multi-modal aigc model training audio-visual generation diffusion models foundation model text-to-video cross-modality attention

LTX-2：高效的联合视听基础模型 / LTX-2: Efficient Joint Audio-Visual Foundation Model

1️⃣ 一句话总结

这篇论文提出了一个名为LTX-2的开源基础模型，它能够高效地生成高质量且音画同步的视频内容，通过创新的双流架构和训练机制，在保证性能的同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24551

arXiv 提交日期: 2025-12-31

aigc model training multi-modal text-to-video physics consistency preference optimization vision-language model data generation

PhyGDPO：面向物理一致性文本到视频生成的物理感知分组直接偏好优化 / PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为PhyGDPO的新方法，通过构建大规模物理视频数据集并设计一种结合物理知识引导的优化框架，有效提升了AI根据文本生成视频时对物理规律（如物体运动、碰撞）的遵循能力，使生成的视频更真实自然。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22096

arXiv 提交日期: 2025-12-26

multi-modal model training aigc world generation diffusion models interactive environments text-to-video real-time streaming

Yume-1.5：一种文本控制的交互式世界生成模型 / Yume-1.5: A Text-Controlled Interactive World Generation Model

1️⃣ 一句话总结

这篇论文提出了一个名为Yume-1.5的新模型，它能够根据一张图片或一段文字描述，快速生成一个逼真、可交互且连续扩展的虚拟世界，并支持用户用键盘在其中进行实时探索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21507

arXiv 提交日期: 2025-12-25

video generation benchmark model evaluation social reasoning text-to-video evaluation framework multi-agent video generation benchmark

SVBench：视频生成模型在社会推理能力上的评估 / SVBench: Evaluation of Video Generation Models on Social Reasoning

1️⃣ 一句话总结

这篇论文提出了首个用于评估视频生成模型社会推理能力的基准SVBench，发现当前先进模型虽然在画面真实性和动作流畅度上表现优秀，但在理解人物意图、信念、共同关注等深层社会逻辑方面存在系统性不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19661

arXiv 提交日期: 2025-12-22

video generation computer vision multi-modal video compositing layer interaction environmental effects text-to-video video inpainting

Over++：用于图层交互效果生成的视频合成框架 / Over++: Generative Video Compositing for Layer Interaction Effects

1️⃣ 一句话总结

这篇论文提出了一个名为Over++的视频生成框架，它能够根据文字描述，在输入视频的前景和背景图层之间自动合成逼真的半透明环境交互效果（如阴影、倒影），同时保持原始场景内容不变，解决了现有方法难以兼顾效果生成与场景保留的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16920

arXiv 提交日期: 2025-12-18

video generation aigc model training video editing instruction-based editing text-to-video video consistency control mechanisms

EasyV2V：一个基于指令的高质量视频编辑框架 / EasyV2V: A High-quality Instruction-based Video Editing Framework

1️⃣ 一句话总结

这篇论文提出了一个名为EasyV2V的简单高效框架，通过创新的数据构建、简化的模型设计和统一的控制机制，成功解决了视频编辑在一致性、控制和泛化方面的难题，实现了基于自然语言指令的高质量视频编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16776

arXiv 提交日期: 2025-12-18

video generation multi-modal aigc text-to-video multimodal reasoning video editing world simulator generative framework

Kling-Omni技术报告 / Kling-Omni Technical Report

1️⃣ 一句话总结

这篇论文提出了一个名为Kling-Omni的通用视频生成框架，它能够根据文字、图片或视频片段等多种形式的指令，直接生成高质量、高智能的视频内容，并将视频生成、编辑和推理任务统一起来，是迈向能够感知和模拟动态复杂世界的多模态系统的重要一步。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03066

1️⃣ 一句话总结

arXiv ID: 2602.05986

1️⃣ 一句话总结

arXiv ID: 2601.09881

1️⃣ 一句话总结

arXiv ID: 2601.03233

1️⃣ 一句话总结

arXiv ID: 2512.24551

1️⃣ 一句话总结

arXiv ID: 2512.22096

1️⃣ 一句话总结

arXiv ID: 2512.21507

1️⃣ 一句话总结

arXiv ID: 2512.19661

1️⃣ 一句话总结

arXiv ID: 2512.16920

1️⃣ 一句话总结

arXiv ID: 2512.16776

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05986 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09881 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03233 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21507 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19661 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16920 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16776 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03066

arXiv ID: 2602.05986

arXiv ID: 2601.09881

arXiv ID: 2601.03233

arXiv ID: 2512.24551

arXiv ID: 2512.22096

arXiv ID: 2512.21507

arXiv ID: 2512.19661

arXiv ID: 2512.16920

arXiv ID: 2512.16776