arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.13454

🤖 系统

10-20 12:07

3d generation text-to-3d model stitching reward fine-tuning gaussian splatting

📄 论文总结

VIST3A：通过模型缝合和直接奖励微调实现文本到3D生成 / VIST3A: Text-to-3D Generation via Model Stitching and Direct Reward Fine-tuning

1️⃣ 一句话总结

VIST3A是一个端到端的文本到3D生成框架，通过将预训练的视频生成器与3D重建模型缝合，并使用直接奖励微调确保潜在表示对齐，从而高效生成高质量的3D高斯泼溅或点云。

2️⃣ 论文创新点

1. 模型缝合技术

创新点：通过识别视频生成器和3D解码器中潜在表示最匹配的层，使用线性缝合层将两者连接，构建新的3D变分自编码器（3D VAE）。
区别/改进：避免了从头训练3D解码器的复杂性和错误累积，简化了模型结构，仅需少量数据集且无需标签。
意义：保留了预训练模型中的丰富知识，实现了高效的端到端3D生成，提升了资源利用效率。

2. 直接奖励微调

创新点：采用基于视觉质量、3D表示质量和3D一致性的三重奖励组件，通过直接奖励微调技术优化生成模型，确保其输出与3D解码器对齐。
区别/改进：提升了生成3D场景的几何一致性和视觉质量，无需真实图像数据即可实现对齐。
意义：增强了模型在文本到3D任务中的实用性和输出准确性，通过梯度稳定技术提高了训练稳定性。

3️⃣ 主要结果与价值

结果亮点

在T3Bench、SceneBench和DPG-Bench等多个基准测试中，VIST3A变体在视觉保真度、文本对齐度和综合质量指标上均优于基线方法。
定性评估显示，VIST3A能生成视觉吸引人、几何一致且紧密遵循输入提示的渲染结果。
模型缝合AnySplat到视频模型相比单独使用AnySplat能提升新视角合成性能，归因于视频VAE潜在表示提供了更丰富的表观信息。

实际价值

支持文本到3D高斯泼溅（Text-to-3DGS）和文本到点云图（Text-to-Pointmap）两种生成模式，扩展了3D内容生成的应用范围。
框架展示了处理长序列和复杂场景的能力，即使未在非常长的图像序列上专门训练，也能通过扩展LDM生成的帧数来生成一致的大规模场景。
提供了一种灵活且高性能的3D内容生成解决方案，解锁了当代基础视频和3D模型在3D生成建模中的应用潜力。

4️⃣ 术语表

VIST3A：一个文本到3D生成的框架，通过模型缝合和直接奖励微调，实现从文本输入端到端生成高质量的3D场景（如3D高斯泼溅或点云）。
3DGS：3D高斯泼溅（3D Gaussian Splatting），一种用于高质量3D场景表示和实时渲染的方法，使用各向异性的3D高斯函数高效表示场景。
模型缝合：一种技术，通过一个可训练的线性缝合层，将一个训练好的网络（如视频VAE编码器）的头部与另一个网络（如3D前馈模型）的尾部连接起来，形成一个新的混合模型。
3D VAE：通过缝合视频VAE编码器与3D前馈模型构建的变分自编码器，用于从2D图像生成3D场景。
直接奖励微调：一种优化方法，通过结合传统的生成损失和无需真实图像的奖励项（如多视图图像质量、3D表示质量和3D一致性）来微调生成模型，确保其输出与解码器对齐。
扩散模型：一种深度生成模型，通过逐步去噪过程从随机噪声生成数据。

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.13454

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 模型缝合技术

2. 直接奖励微调

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.13454 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 模型缝合技术

2. 直接奖励微调

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.13454