🤖 系统
11-30 18:14
📄 论文总结
多标准:在多标准遵循上对多模态评判模型进行基准测试 / Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
1️⃣ 一句话总结
这篇论文提出了一个名为Multi-Crit的基准测试,用于评估多模态模型在遵循多样化、细粒度评价标准方面的能力,发现现有模型在灵活遵循多标准和保持一致性方面仍有明显不足,为构建更可靠的多模态AI评估系统奠定了基础。