arXiv最新AI论文速览速学

🔍

标签: #scientific research ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation 03-01

arXiv ID: 2602.18891

arXiv 提交日期: 2026-02-21

llm agents model evaluation multi-agent systems workflow orchestration question generation automated evaluation scientific research

为科学研究编排大型语言模型智能体：一项关于多项选择题生成与评估的试点研究 / Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation

1️⃣ 一句话总结

这项试点研究表明，通过人类研究者协调多个大型语言模型智能体，可以构建一个自动化生成和评估多项选择题的AI研究流程，虽然生成的题目在表面质量上表现优异，但在深度技能和认知参与度等方面仍与专家题目存在差距，同时研究者的角色也从直接创作转向了对整个AI工作流程的规范、编排与监督。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03837

arXiv 提交日期: 2026-02-03

llm agents systems scientific research human-ai collaboration theoretical computer science neuro-symbolic proof generation

利用Gemini加速科学研究：案例研究与通用技术 / Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

1️⃣ 一句话总结

这篇论文通过一系列案例研究，展示了研究人员如何与谷歌的Gemini等先进AI模型合作，在理论计算机科学等多个领域解决开放性问题、反驳猜想并生成新证明，并总结了人机协作的有效通用技术，表明AI可以成为科学发现过程中真正的创造性伙伴。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21652

arXiv 提交日期: 2025-10-24

agents benchmark model evaluation scientific research agent benchmarking evaluation framework reproducible tools science agents

AstaBench：基于科学研究套件的AI智能体严谨基准测试 / AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

1️⃣ 一句话总结

这篇论文提出了一个名为AstaBench的全面基准测试套件，用于科学评估AI智能体在科研任务中的实际能力，并通过大规模测试发现当前AI在整体科研辅助方面仍存在明显局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.18891

1️⃣ 一句话总结

arXiv ID: 2602.03837

1️⃣ 一句话总结

arXiv ID: 2510.21652

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.18891 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03837 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21652 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.18891

arXiv ID: 2602.03837

arXiv ID: 2510.21652