arXiv ID:
2512.16899
arXiv 提交日期: 2025-12-18
多模态奖励模型基准2:评估交错文本与图像的全能奖励模型 / Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
1️⃣ 一句话总结
这篇论文提出了首个用于评估能同时处理图文交错序列的‘全能奖励模型’的综合基准测试MMRB2,通过四个核心任务测试了当前主流模型的性能,发现最先进的模型如Gemini 3 Pro在判断质量上仍显著落后于人类专家,并揭示了未来奖励模型需要改进的关键方向。