🤖 系统
11-30 17:37
📄 论文总结
PuzzlePlex:基于谜题评估基础模型的推理与规划能力 / PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
1️⃣ 一句话总结
这篇论文提出了一个名为PuzzlePlex的多样化谜题测试平台,用于系统评估基础模型在复杂环境中的推理和规划能力,发现基于指令的推理模型表现更优,而基于代码的执行方式虽具挑战但扩展性更强。