← 返回列表

菜单

🤖 系统
📄 Abstract - InstructX: A Unified Image and Video Editing Framework Based on Multimodal Large Language Models
正在获取摘要...
详细标签: multimodal llm video editing image editing diffusion models unified framework 或 搜索:

📄 论文总结

InstructX:基于多模态大语言模型的统一图像和视频编辑框架 / InstructX: A Unified Image and Video Editing Framework Based on Multimodal Large Language Models


1️⃣ 一句话总结

InstructX是一个基于多模态大语言模型的统一图像和视频编辑框架,通过深度集成MLLM与扩散模型,实现了无需显式视频监督的视频编辑能力,解决了视频训练数据稀缺的限制。


2️⃣ 论文创新点

1. MLLM与扩散模型的深度集成

2. 图像到视频的能力涌现

3. 统一的多模态编辑框架

4. 模态特定查询设计


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF