arXiv ID:
2606.05635
arXiv 提交日期: 2026-06-04
ShotCrop³:将人物图像裁剪为电影化的三镜头构图 / ShotCrop$^3$: Cropping Human-Centric Images into Cinematic Triple-Shot Compositions
1️⃣ 一句话总结
本文提出一种新任务——从单张人物照片中自动生成三个不同视角和叙事功能的裁剪版本(广角交代环境、中景聚焦主体、特写强调细节),并开发了名为ShotCrop的算法,通过分阶段训练(先学基础推理、再用伪标签提升美感、最后用强化学习优化)实现高质量多镜头构图,其定位精度比GPT-5高出近3倍。