arXiv ID:
2601.20911
arXiv 提交日期: 2026-01-28
基于历史条件化多模态大语言模型的非马尔可夫多轮对话式图像生成 / Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
1️⃣ 一句话总结
这篇论文提出了一种新的多轮对话图像生成方法,通过构建非马尔可夫交互数据、采用历史条件化训练框架,有效解决了用户在多轮对话中回指、撤销或跨轮引用实体时模型容易遗忘历史信息的问题,显著提升了生成图像在多轮对话中的一致性和指令遵循能力。