arXiv ID:
2602.20513
arXiv 提交日期: 2026-02-24
从性能到目的:评估大语言模型实用性的社会技术分类法 / From Performance to Purpose: A Sociotechnical Taxonomy for Evaluating Large Language Model Utility
1️⃣ 一句话总结
这篇论文提出了一个名为LUX的综合性评估框架,旨在超越传统性能指标,从性能、交互、运营和治理四个维度系统评估大语言模型在真实复杂场景中的实际效用,以帮助用户根据具体应用需求选择合适的模型。