arXiv ID:
2512.16501
arXiv 提交日期: 2025-12-18
VenusBench-GD:一个面向多样化界面定位任务的多平台综合性图形用户界面基准 / VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
1️⃣ 一句话总结
这篇论文提出了一个名为VenusBench-GD的新型多平台图形用户界面基准测试,它通过大规模、高质量的数据和分层任务设计,全面评估AI模型在理解和定位屏幕元素方面的能力,发现通用模型在基础任务上已媲美专用模型,但高级任务仍具挑战性。