← 返回列表

菜单

🤖 系统
📄 Abstract - IMO-Bench: A Robust Reasoning Benchmark Suite for International Mathematical Olympiad-Level Evaluation
正在获取摘要...
顶级标签: llm
详细标签: mathematical reasoning automated grading reasoning benchmark proof evaluation robust evaluation 或 搜索:

📄 论文总结

IMO-Bench:面向国际数学奥林匹克竞赛水平的鲁棒推理基准套件 / IMO-Bench: A Robust Reasoning Benchmark Suite for International Mathematical Olympiad-Level Evaluation


1️⃣ 一句话总结

本研究提出了IMO-Bench基准套件,这是一个针对国际数学奥林匹克竞赛水平的综合评估框架,包含三个专门组件用于评估数学推理能力,并通过开发高精度自动评分系统解决了复杂数学问题评估的挑战。


2️⃣ 论文创新点

1. IMO-Bench综合基准套件

2. IMO-AnswerBench答案评估基准

3. IMO-ProofBench证明评估基准

4. 问题鲁棒化技术

5. 自动评分系统


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF