arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Agentic AI for Remote Sensing: Technical Challenges and Research Directions 05-02

arXiv ID: 2604.19274

arXiv 提交日期: 2026-04-21

llm model evaluation jailbreak attack benchmark collaborative writing safety alignment

HarDBench：面向草稿协作越狱攻击的基准测试——用于安全的人机协同写作 / HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing

1️⃣ 一句话总结

本文针对用户利用大语言模型协作写作时，通过提供不完整草稿诱导模型生成危险内容的越狱攻击，提出了一个名为HarDBench的系统性基准测试，并开发了一种偏好优化方法，在保障安全性的同时维持模型正常的写作辅助能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18721

arXiv 提交日期: 2026-04-20

computer vision model evaluation machine learning benchmark visual state-space models semantic segmentation remote sensing domain shift

面向遥感分割的视觉状态空间骨干网络受控基准测试：领域偏移与边界分析 / A Controlled Benchmark of Visual State-Space Backbones with Domain-Shift and Boundary Analysis for Remote-Sensing Segmentation

1️⃣ 一句话总结

本文构建了一个严格控制的基准实验，在统一解码器下比较多种视觉状态空间模型（如VMamba）在遥感图像分割中的表现，发现此类模型在精度和效率间取得了良好平衡，但面对不同数据分布时边界分割成为主要瓶颈，未来提升应更关注鲁棒性设计和边界感知解码，而非单纯扩大模型规模。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18169

arXiv 提交日期: 2026-04-20

llm natural language processing evaluation literary translation creativity comprehension benchmark prompt engineering

超越复制：评估文学翻译中LLM理解与创造力的配对任务框架 / Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

1️⃣ 一句话总结

本文提出了一个能同时评估大语言模型在文学翻译中“理解原文”和“创造性翻译”能力的配对任务框架，通过分析11本书籍的翻译表现发现，即使模型能很好地理解原文，其创造性翻译水平（如处理隐喻和文字游戏）仍远低于人类，且简单的提示词改进只能带来微小提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17966

arXiv 提交日期: 2026-04-20

llm model evaluation benchmark aerospace engineering diagnostic evaluation calculation competence thermal protection system engineering reasoning

TPS-CalcBench：高超声速热防护系统工程中LLM分析计算能力的基准与诊断评估框架 / TPS-CalcBench: A Benchmark and Diagnostic Evaluation Framework for LLM Analytical Calculation Competence in Hypersonic Thermal Protection System Engineering

1️⃣ 一句话总结

本文提出一个专为高超声速热防护系统设计场景下的AI模型（如大语言模型）打造的诊断基准，通过分级测试和双重评估（结果正确性与推理过程质量），能有效发现模型“答案对但思路错”的关键缺陷，并验证了微调、检索增强和过程感知提示三种改进方法的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17931

arXiv 提交日期: 2026-04-20

reinforcement learning agents llm research agent scalable training benchmark virtual world deep research

轻量研究者：面向深度研究智能体的可扩展强化学习训练框架 / LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent

1️⃣ 一句话总结

本文提出LiteResearcher框架，通过构建一个模拟真实搜索环境的轻量虚拟世界，解决了强化学习训练深度研究智能体时数据不真实、成本高和不稳定的问题，使得仅4B参数的模型在多个基准上超越了大型开源和商业模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18828

arXiv 提交日期: 2026-04-20

data benchmark machine learning shock physics multi-material dataset surrogate model

高爆炸药与受影响靶标数据集 / The High Explosives and Affected Targets (HEAT) Dataset

1️⃣ 一句话总结

该论文发布了首个面向高爆炸药驱动多材料冲击动力学的公开数据集HEAT，包含大量二维轴对称模拟数据，涵盖多种材料和物理现象，为训练和验证人工智能替代模型提供了标准化基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18566

arXiv 提交日期: 2026-04-20

llm benchmark model evaluation system dynamics causal loop diagrams local models quantization model backend

系统动力学AI助手基准测试：云端与本地大语言模型在因果回路图提取与讨论上的比较 / Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion

1️⃣ 一句话总结

本文系统比较了云端和本地大语言模型在系统动力学任务中的表现，发现云端模型总体更优，本地模型在中低端任务上可与之匹敌，但在处理长上下文时存在明显短板，同时后端选择（如GGUF或MLX）对性能的影响大于模型量化级别。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17937

arXiv 提交日期: 2026-04-20

llm agents prompt optimization chain-of-thought contrastive learning reasoning trace decision tree benchmark

ContraPrompt：通过二元推理轨迹分析进行对比提示优化 / ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis

1️⃣ 一句话总结

本文提出一种名为ContraPrompt的提示优化方法，通过对比同一输入下模型失败与成功重试时的完整推理过程（即二元轨迹分析），自动提取优化规则，并在多个推理与合规任务上显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18418

arXiv 提交日期: 2026-04-20

llm medical benchmark deep research evidence integration clinical guidelines evaluation framework domain expert

MedProbeBench：面向专家级医学指南的深度证据整合系统性基准测试 / MedProbeBench: Systematic Benchmarking at Deep Evidence Integration for Expert-level Medical Guideline

1️⃣ 一句话总结

本文提出了首个专门评估大语言模型在医学领域进行多步骤证据整合并生成专家级临床指南能力的基准测试平台MedProbeBench，通过1200多项评分标准和5100多个细粒度事实核查点，系统揭示了当前顶尖AI模型与真实专家水平之间的显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18584

arXiv 提交日期: 2026-04-20

llm benchmark multi-modal mathematical reasoning multilingual dataset retrieval benchmark olympiad problems retrieval-augmented generation

MathNet：一个用于数学推理与检索的全球多模态基准 / MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

1️⃣ 一句话总结

这篇论文推出了一个名为MathNet的大型、高质量、多语言和多模态的奥林匹克数学竞赛数据集及评测基准，用于全面评估AI模型在数学问题求解、数学感知检索以及检索增强解题方面的能力，结果显示当前最先进的AI模型在这些任务上仍面临巨大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.19274

1️⃣ 一句话总结

arXiv ID: 2604.18721

1️⃣ 一句话总结

arXiv ID: 2604.18169

1️⃣ 一句话总结

arXiv ID: 2604.17966

1️⃣ 一句话总结

arXiv ID: 2604.17931

1️⃣ 一句话总结

arXiv ID: 2604.18828

1️⃣ 一句话总结

arXiv ID: 2604.18566

1️⃣ 一句话总结

arXiv ID: 2604.17937

1️⃣ 一句话总结

arXiv ID: 2604.18418

1️⃣ 一句话总结

arXiv ID: 2604.18584

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.19274 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18721 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18169 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17966 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18828 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18566 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17937 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18418 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18584 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.19274

arXiv ID: 2604.18721

arXiv ID: 2604.18169

arXiv ID: 2604.17966

arXiv ID: 2604.17931

arXiv ID: 2604.18828

arXiv ID: 2604.18566

arXiv ID: 2604.17937

arXiv ID: 2604.18418

arXiv ID: 2604.18584