arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos 03-18

arXiv ID: 2602.11898

arXiv 提交日期: 2026-02-12

llm benchmark model evaluation benchmark illusion model disagreement scientific reproducibility error analysis epistemic divergence

基准幻觉：大语言模型之间的分歧及其科学后果 / Benchmark Illusion: Disagreement among LLMs and Its Scientific Consequences

1️⃣ 一句话总结

这篇论文揭示了一个‘基准幻觉’现象：在主流评测中得分相近的大语言模型，实际上对大量问题存在隐藏的严重分歧，当这些模型被用于科研数据标注时，模型选择会成为一个严重影响研究结果可复现性的隐蔽变量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11731

arXiv 提交日期: 2026-02-12

multi-modal llm model evaluation visual reasoning domain-specific language optical decompression benchmark self-verification

通过草稿思考：基于逻辑重建的光学解压缩 / Thinking with Drafting: Optical Decompression via Logical Reconstruction

1️⃣ 一句话总结

这篇论文提出了一种名为‘通过草稿思考’的新方法，它让AI在解决视觉推理问题时，先像写草稿一样把思考过程写成可执行的代码，然后通过生成图像来验证自己的逻辑是否正确，从而显著提升了在复杂数学和逻辑问题上的精确度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11674

arXiv 提交日期: 2026-02-12

llm benchmark model evaluation benchmark health evaluation framework score inflation capability discrimination benchmark lifecycle

基准健康指数：一个用于系统性评估大语言模型基准测试的框架 / Benchmark Health Index: A Systematic Framework for Benchmarking the Benchmarks of LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为‘基准健康指数’的数据驱动框架，通过评估基准测试的区分度、可持续性和影响力三个维度，来解决当前大语言模型评测中因分数膨胀和选择性报告导致的可靠性下降问题，为科学选择和管理评测基准提供了量化依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11858

arXiv 提交日期: 2026-02-12

multi-modal model training model evaluation multimodal llms fine-grained perception knowledge distillation visual question answering benchmark

无需放大：面向细粒度多模态感知的区域到图像蒸馏 / Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

1️⃣ 一句话总结

这篇论文提出了一种名为‘区域到图像蒸馏’的新训练方法，它能让多模态大语言模型在单次前向推理中就具备强大的细粒度视觉识别能力，从而避免了传统方法需要反复放大图像区域所带来的高延迟问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11144

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark fluid intelligence visual generation context comprehension evaluation suite multimodal reasoning

GENIUS：生成式流体智能评估套件 / GENIUS: Generative Fluid Intelligence Evaluation Suite

1️⃣ 一句话总结

这篇论文提出了一个名为GENIUS的新评估标准，旨在测试AI模型在遇到全新、未见过的情境时，能否像人类一样灵活推理、归纳规律并创造新内容，而不仅仅是依赖已有的知识库，结果发现当前主流模型在这方面的能力仍有明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10675

arXiv 提交日期: 2026-02-11

multi-modal model evaluation benchmark visual chain-of-thought dynamic reasoning video question answering dataset video generation

TwiFF（与未来帧共思）：用于动态视觉推理的大规模数据集 / TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

1️⃣ 一句话总结

这篇论文提出了首个用于动态视觉问答的大规模数据集TwiFF-2.7M和评估基准TwiFF-Bench，并开发了一个能通过生成未来视频帧来辅助推理的模型，显著提升了AI在理解动态视频内容并进行复杂推理方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10975

arXiv 提交日期: 2026-02-11

llm agents benchmark agentic coding software development execution-based evaluation test-driven code repositories

FeatureBench：面向复杂功能开发的智能体编码能力基准测试 / FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

1️⃣ 一句话总结

这篇论文提出了一个名为FeatureBench的新基准测试，用于全面评估AI编程助手在开发完整软件功能时的真实能力，它通过自动从开源项目中提取可执行的测试任务，发现当前最先进的AI模型在复杂功能开发上的成功率仍然很低，仅为11%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10450

arXiv 提交日期: 2026-02-11

llm benchmark systems optimization modeling mixed-integer programming natural language to code industrial-scale evaluation reverse construction

构建工业级优化建模基准 / Constructing Industrial-Scale Optimization Modeling Benchmark

1️⃣ 一句话总结

这篇论文为了解决人工智能在将自然语言需求转化为复杂工业优化模型时缺乏有效评估标准的问题，创建了一个名为MIPLIB-NL的新基准测试集，它基于真实的工业级优化问题，能更准确地暴露现有AI系统在处理大规模、复杂实际问题时的能力缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10467

arXiv 提交日期: 2026-02-11

llm agents benchmark negotiation utility feedback human preference alignment strategic reasoning agent evaluation

基于效用反馈的机制提升大语言模型谈判者的议价能力 / MERIT Feedback Elicits Better Bargaining in LLM Negotiators

1️⃣ 一句话总结

这篇论文提出了一个结合新基准、经济指标和人类偏好数据集的框架，通过提供基于效用的反馈，有效提升了大语言模型在复杂谈判中的策略深度和对手适应性，使其行为更贴近人类偏好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10814

arXiv 提交日期: 2026-02-11

agents benchmark multi-modal gui agents block-based programming multimodal evaluation visuomotor control program construction

看、规划、点击：在Scratch中评估多模态图形界面智能体 / See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

1️⃣ 一句话总结

这篇论文提出了一个名为ScratchWorld的新评估基准，用于全面测试AI智能体在Scratch图形化编程环境中通过操作界面来构建、调试和扩展程序的能力，并发现当前智能体在高级规划与精细界面操作之间存在明显差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.11898

1️⃣ 一句话总结

arXiv ID: 2602.11731

1️⃣ 一句话总结

arXiv ID: 2602.11674

1️⃣ 一句话总结

arXiv ID: 2602.11858

1️⃣ 一句话总结

arXiv ID: 2602.11144

1️⃣ 一句话总结

arXiv ID: 2602.10675

1️⃣ 一句话总结

arXiv ID: 2602.10975

1️⃣ 一句话总结

arXiv ID: 2602.10450

1️⃣ 一句话总结

arXiv ID: 2602.10467

1️⃣ 一句话总结

arXiv ID: 2602.10814

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.11898 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11674 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11144 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10675 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10975 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10450 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10467 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10814 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.11898

arXiv ID: 2602.11731

arXiv ID: 2602.11674

arXiv ID: 2602.11858

arXiv ID: 2602.11144

arXiv ID: 2602.10675

arXiv ID: 2602.10975

arXiv ID: 2602.10450

arXiv ID: 2602.10467

arXiv ID: 2602.10814