arXiv ID:
2603.23841
arXiv 提交日期: 2026-03-25
PoliticsBench:通过多轮角色扮演评估大型语言模型的政治价值观 / PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
1️⃣ 一句话总结
这项研究通过一个名为PoliticsBench的新型多轮角色扮演测试框架,评估了八种主流大型语言模型的政治价值观倾向,发现其中七种模型表现出左倾偏见,而Grok模型则偏向保守,揭示了AI在提供信息时可能存在的系统性政治立场偏差。