arXiv ID:
2603.10477
PEEM:用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses
1️⃣ 一句话总结
这篇论文提出了一个名为PEEM的评估框架,它通过一套包含9个维度的结构化标准(如提示的清晰度、公平性,回答的准确性、连贯性等),并借助大语言模型自动给出评分和解释性理由,从而能系统地诊断和优化用户与大语言模型的交互过程,而不仅仅是判断答案对错。