arXiv ID:
2604.17966
arXiv 提交日期: 2026-04-20
TPS-CalcBench:高超声速热防护系统工程中LLM分析计算能力的基准与诊断评估框架 / TPS-CalcBench: A Benchmark and Diagnostic Evaluation Framework for LLM Analytical Calculation Competence in Hypersonic Thermal Protection System Engineering
1️⃣ 一句话总结
本文提出一个专为高超声速热防护系统设计场景下的AI模型(如大语言模型)打造的诊断基准,通过分级测试和双重评估(结果正确性与推理过程质量),能有效发现模型“答案对但思路错”的关键缺陷,并验证了微调、检索增强和过程感知提示三种改进方法的有效性。