PosterCopilot:面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
1️⃣ 一句话总结
这篇论文提出了一个名为PosterCopilot的智能设计框架,它通过创新的训练方法让大模型学会精确的布局规划和审美判断,并支持对设计元素进行分层、迭代的精细化编辑,从而能自动生成几何准确且美观的专业海报。
请先 登录 后再提交论文
PosterCopilot:面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
这篇论文提出了一个名为PosterCopilot的智能设计框架,它通过创新的训练方法让大模型学会精确的布局规划和审美判断,并支持对设计元素进行分层、迭代的精细化编辑,从而能自动生成几何准确且美观的专业海报。
先区分,再定位:根据查询类型调整帧选择策略以实现长视频理解 / Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
这篇论文提出了一种名为DIG的智能方法,它先判断用户对长视频的提问是全局性的还是局部性的,然后自动选择最高效的视频帧提取策略,从而在保证理解准确性的同时,大幅降低了计算成本。
MedVLSynther:基于生成器-验证器大语言模型从医学文档合成高质量视觉问答数据 / MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs
这篇论文提出了一种名为MedVLSynther的自动化框架,它能够从公开的生物医学文献中生成高质量的视觉问答训练数据,并通过验证机制确保问题的准确性和临床相关性,从而显著提升了医学AI模型的问答性能。