arXiv ID:
2606.21959
arXiv 提交日期: 2026-06-20
OpenBioRQ:面向智能体的未解决生物医学研究问题集 / OpenBioRQ: Unsolved Biomedical Research Questions for Agents
1️⃣ 一句话总结
本文提出了OpenBioRQ,一个包含12,553个未解决生物医学问题的基准测试集,旨在评估AI智能体在无法依赖标准答案的情况下,能否通过多次工具调用检索证据并判断文献是否真正支持其主张,同时发现当前智能体在难题上会放弃使用工具,导致性能骤降。