arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Agentic AI for Remote Sensing: Technical Challenges and Research Directions 05-02

arXiv ID: 2604.25380

arXiv 提交日期: 2026-04-28

agents multi-modal gui agents benchmark dynamic environments video understanding reflection

高动态环境下的GUI代理基准测试与改进 / Benchmarking and Improving GUI Agents in High-Dynamic Environments

1️⃣ 一句话总结

本文针对现有图形界面代理在处理界面频繁变化的高动态环境时信息获取不足的问题，提出了一个覆盖十个应用场景的在线基准测试DynamicGUIBench，并设计了一种名为DynamicUI的新代理方法，通过分析交互过程视频、动态选择关键帧、优化思考与动作一致性以及引入反思模块，显著提升了代理在动态环境中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24919

arXiv 提交日期: 2026-04-27

agents machine learning systems remote sensing geospatial reasoning earth observation tool-aware reasoning benchmark

面向遥感领域的智能体AI：技术挑战与研究方向 / Agentic AI for Remote Sensing: Technical Challenges and Research Directions

1️⃣ 一句话总结

本文指出，尽管通用智能体AI在推理和工具使用上取得进展，但遥感任务因涉及地理坐标、多模态数据和时间序列等复杂约束，直接套用通用方法会导致错误无声传播；为此，文章提出了专为遥感设计的智能体原则和未来研究方向，以确保分析结果的物理与地理一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24826

arXiv 提交日期: 2026-04-27

llm agents model evaluation security guardrails benchmark risk detection comparative evaluation

AI智能体安全防护栏的对比评估 / A Comparative Evaluation of AI Agent Security Guardrails

1️⃣ 一句话总结

本文通过对比评测DKnownAI Guard与AWS、Azure、Lakera三款主流AI安全防护产品，发现DKnownAI Guard在识别针对智能体自身的攻击和有害内容请求时，达到了96.5%的最高召回率和90.4%的最高真负率，综合表现最佳。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24361

arXiv 提交日期: 2026-04-27

llm natural language processing benchmark machine translation culture-aware evaluation framework dataset translation strategies

大型语言模型中的文化感知机器翻译：基准测试与探究 / Culture-Aware Machine Translation in Large Language Models: Benchmarking and Investigation

1️⃣ 一句话总结

本研究提出了一个专门用于评估机器翻译中文化感知能力的数据集CanMT和一套多维评价框架，通过系统测试多种大语言模型发现，模型在处理文化特有词汇时存在显著性能差异，且虽然能识别文化知识，但难以正确将其应用于翻译输出，而加入参考翻译能显著提升评估可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24544

arXiv 提交日期: 2026-04-27

llm data benchmark synthetic dataset evaluation self-instruct multilingual

STELLAR-E：一个合成、定制、端到端的LLM应用严格评估器 / STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

1️⃣ 一句话总结

本文提出了一种全自动系统STELLAR-E，它能在不依赖任何现有数据集的情况下，通过少量人工输入自动生成高质量、可定制规模的合成数据集，用于评估大语言模型在特定领域和语言上的表现，其质量接近真实数据集，且效率远高于人工方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.23931

arXiv 提交日期: 2026-04-27

machine learning model evaluation variational quantum circuits quantum transformer tabular data architecture comparison benchmark

量子Transformer有帮助吗？——基于表格数据的变分量子电路架构系统比较 / Do Quantum Transformers Help? A Systematic VQC Architecture Comparison on Tabular Benchmarks

1️⃣ 一句话总结

本文系统比较了四种变分量子电路架构在表格数据任务上的表现，发现简单的全连接量子电路在参数更少的情况下能达到主流注意力量子模型90-96%的效果，而复杂的量子Transformer仅在噪声鲁棒性上具有特定优势，为近量子硬件的实际部署提供了架构选择指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24705

arXiv 提交日期: 2026-04-27

machine learning systems benchmark energy forecasting time series operational benchmark leaderboard evaluation platform

能量竞技场：面向实际运行能源预测的动态基准平台 / Energy-Arena: A Dynamic Benchmark for Operational Energy Forecasting

1️⃣ 一句话总结

该论文提出了一个名为“能量竞技场”的开放式动态基准测试平台，通过在线提交、固定截止日期和滚动评估的方式，解决了能源预测领域因数据集和时间段不同而难以比较模型性能的问题，从而推动研究更加透明和可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24023

arXiv 提交日期: 2026-04-27

computer vision multi-modal benchmark image generation image editing commercial evaluation payment prediction human annotation

ServImage：来自真实世界商业影像服务的图像生成与编辑基准 / ServImage: An Image Generation and Editing Benchmark from Real-world Commercial Imaging Services

1️⃣ 一句话总结

该研究提出了一个名为ServImage的商业图像基准，通过分析超过29万美元的真实付费设计项目数据，建立了一套包含任务、评分和支付预测模型的系统，用于评估AI生成的图像是否具有实际商业价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.23953

arXiv 提交日期: 2026-04-27

computer vision model evaluation omnidirectional image blind quality assessment viewport-unaware generalization benchmark

无视口的盲全景图像质量评估：一种统一且通用的方法 / Viewport-Unaware Blind Omnidirectional Image Quality Assessment: A Unified and Generalized Approach

1️⃣ 一句话总结

本文提出了一种新的盲全景图像质量评估方法，该方法无需依赖视口生成步骤，能直接处理常用的等距柱状投影格式的全景图像，同时还可直接用于普通二维图像质量评估，并且在多个测试场景中展现出比现有方法更强的通用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24697

arXiv 提交日期: 2026-04-27

agents benchmark general causal reasoning discovery-to-application minecraft evaluation diagnostic

当前智能体能否弥合从发现到应用的鸿沟？以《我的世界》为案例的研究 / Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

1️⃣ 一句话总结

本文通过在《我的世界》游戏中设计一系列需要自主发现规律并应用来点亮指定红石灯的任务，评测了GPT-5.2等前沿AI模型，发现它们仅能达到约26%的成功率，且模型的主要瓶颈正从“如何正确解决问题”转向“如何提出正确的问题”，即识别知识缺口的能力成为新的关键挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25380

1️⃣ 一句话总结

arXiv ID: 2604.24919

1️⃣ 一句话总结

arXiv ID: 2604.24826

1️⃣ 一句话总结

arXiv ID: 2604.24361

1️⃣ 一句话总结

arXiv ID: 2604.24544

1️⃣ 一句话总结

arXiv ID: 2604.23931

1️⃣ 一句话总结

arXiv ID: 2604.24705

1️⃣ 一句话总结

arXiv ID: 2604.24023

1️⃣ 一句话总结

arXiv ID: 2604.23953

1️⃣ 一句话总结

arXiv ID: 2604.24697

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25380 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24919 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24826 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24361 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24544 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.23931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24705 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24023 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.23953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24697 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25380

arXiv ID: 2604.24919

arXiv ID: 2604.24826

arXiv ID: 2604.24361

arXiv ID: 2604.24544

arXiv ID: 2604.23931

arXiv ID: 2604.24705

arXiv ID: 2604.24023

arXiv ID: 2604.23953

arXiv ID: 2604.24697