🤖 系统
12-01 14:59
从像素到感受:对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
1️⃣ 一句话总结
这篇论文通过构建一个评估基准和提出一种后训练方法,成功让多模态大模型学会像人类一样感知图像的主观特性(如是否令人难忘、有趣或美观),并证明了这种能力能有效提升图像生成等下游任务的人本化水平。