arXiv ID:
2606.03331
arXiv 提交日期: 2026-06-02
评估大语言模型在真实世界消费设备维修问题上的有效性 / Evaluating LLMs' Effectiveness on Real-World Consumer Device Repair Questions
1️⃣ 一句话总结
这篇论文构建了一个包含991个真实维修问题的基准测试集,考察了GPT-5.4等六个主流大语言模型在手机、电脑维修及数据恢复场景中的表现,发现尽管模型能提供有用建议,但在高风险、需安全判断的硬件级诊断和维修顺序等任务上仍不可靠,且英文回答明显优于孟加拉语回答。