arXiv ID:
2605.18025
arXiv 提交日期: 2026-05-18
TeleCom-Bench:大型语言模型距离工业电信应用还有多远? / TeleCom-Bench: How Far Are Large Language Models from Industrial Telecommunication Applications?
1️⃣ 一句话总结
本文提出了一个名为TeleCom-Bench的全面评估基准,包含超过2.2万个样本,通过测试大模型在电信知识理解和实际工作流程执行(如故障诊断和解决方案生成)两个层面的能力,发现当前模型在简单语言任务上准确率可达90%,但在复杂的执行性任务上准确率骤降至约30%,表明它们擅长“诊断”却无法胜任“现场工程师”的角色。