arXiv ID:
2606.26942
arXiv 提交日期: 2026-06-25
TraMP-LLaMA:基于解耦指令调优的生成式可解释性面部表情质量评估 / TraMP-LLaMA: Generative Interpretability with Decoupled Instruction Tuning for Facial Expression Quality Assessment
1️⃣ 一句话总结
本文提出了一个名为TraMP-LLaMA的多模态框架,它不仅能够预测面部表情的严重程度分数,还能自动生成结构化文本报告解释背后的面部运动证据,通过解耦指令调优策略减轻了分数预测与文本生成任务之间的相互干扰,并在扩展数据集上显著提升了性能。