arXiv ID:
2603.28301
arXiv 提交日期: 2026-03-30
LIBERO-Para:一个用于评估视觉-语言-动作模型对指令改写鲁棒性的诊断基准与度量标准 / LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
1️⃣ 一句话总结
这篇论文提出了一个名为LIBERO-Para的新基准测试,用于系统评估机器人操控中视觉-语言-动作模型对指令改写的鲁棒性,发现模型性能会因同义词替换等简单改写而大幅下降,并提出了一个能衡量改写难度的新度量标准PRIDE。