arXiv最新AI论文速览速学

🔍

标签: #benchmarking ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: A comprehensive study of time-of-flight non-line-of-sight imaging 03-16

arXiv ID: 2603.10477

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing prompt engineering evaluation metrics interpretability benchmarking automated evaluation

PEEM：用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

1️⃣ 一句话总结

这篇论文提出了一个名为PEEM的评估框架，它通过一套包含9个维度的结构化标准（如提示的清晰度、公平性，回答的准确性、连贯性等），并借助大语言模型自动给出评分和解释性理由，从而能系统地诊断和优化用户与大语言模型的交互过程，而不仅仅是判断答案对错。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10963

arXiv 提交日期: 2026-03-11

computer vision model training model evaluation point cloud transformer lightweight architecture foundation models benchmarking

Pointy - 一种用于点云基础模型的轻量级Transformer / Pointy - A Lightweight Transformer for Point Cloud Foundation Models

1️⃣ 一句话总结

这篇论文提出了一种名为Pointy的轻量级Transformer架构，它仅使用少量点云数据进行训练，就能在性能上超越许多使用海量多模态数据训练的大型基础模型，证明了精心设计的模型架构和训练方案比单纯堆砌数据规模更为有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09548

arXiv 提交日期: 2026-03-10

computer vision systems model evaluation non-line-of-sight imaging time-of-flight inverse problems radon transform benchmarking

飞行时间非视距成像的综合研究 / A comprehensive study of time-of-flight non-line-of-sight imaging

1️⃣ 一句话总结

这篇论文系统性地研究和比较了多种利用飞行时间技术进行‘拐角成像’的方法，在统一的模型和硬件条件下评估了它们的性能，发现现有方法在同等约束下存在相似的局限性，旨在为未来该领域的研究提供一个客观比较的基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07659

arXiv 提交日期: 2026-03-08

multi-modal model evaluation computer vision vision-language models test-time robustness counterfactual reasoning benchmarking language bias

通过自我批判推理框架扩展视觉语言模型的测试时鲁棒性 / Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

1️⃣ 一句话总结

这篇论文提出了一种名为自我批判推理的新框架，通过多轮假设性提问来减少大型视觉语言模型对文字描述的过度依赖和敏感性问题，并引入了一个动态测试标准来更准确地评估不同模型的实际可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03175

arXiv 提交日期: 2026-03-03

agents systems model evaluation formal verification multi-agent framework retrieval augmented generation systemverilog assertions benchmarking

Saarthi迈向通用人工智能：面向形式验证的领域特定通用智能 / Saarthi for AGI: Towards Domain-Specific General Intelligence for Formal Verification

1️⃣ 一句话总结

这篇论文提出了一个名为Saarthi的多智能体AI框架，通过引入结构化规则手册和增强的知识检索技术，显著提升了在芯片设计形式验证任务中自动生成正确断言的能力和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02949

arXiv 提交日期: 2026-03-03

llm systems model evaluation carbon footprint sustainability inference efficiency energy measurement benchmarking

弥合差距：通过多基准驱动实现LLM推理碳排放估算的参考框架 / SEALing the Gap: A Reference Framework for LLM Inference Carbon Estimation via Multi-Benchmark Driven Embodiment

1️⃣ 一句话总结

这篇论文提出了一个名为SEAL的参考框架，旨在通过多基准驱动的方法，精准估算大型语言模型在推理阶段处理每个用户请求所产生的碳排放，为促进AI领域的可持续发展提供了标准化评估基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02789

arXiv 提交日期: 2026-03-03

multi-modal natural language processing model evaluation document information extraction multimodal llms ocr benchmarking error analysis

OCR还是不用OCR？在MLLMs时代基于真实世界大规模数据集重新思考文档信息提取 / OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

1️⃣ 一句话总结

这项研究发现，对于强大的多模态大语言模型来说，直接输入文档图像进行信息提取的效果已经可以媲美传统的OCR预处理后再分析的流程，这意味着未来处理文档时可能不再需要OCR步骤。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19223

arXiv 提交日期: 2026-02-22

multi-agents reinforcement learning systems multi-agent reinforcement learning energy management benchmarking urban energy systems key performance indicators

面向能源控制的多智能体强化学习特性分析：基于CityLearn环境的多关键绩效指标基准测试 / Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

1️⃣ 一句话总结

本研究通过在城市能源管理模拟环境CityLearn中引入多维度关键绩效指标进行系统性的基准测试，揭示了去中心化训练与执行模式在平均和最差性能上均优于中心化训练，并提出了能提升电池可持续性和系统鲁棒性的新评估指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09329

arXiv 提交日期: 2026-02-10

benchmark data model evaluation outlier detection tabular data benchmarking anomaly detection statistical evaluation

MacrOData：用于表格异常检测的数千个数据集新基准 / MacrOData: New Benchmarks of Thousands of Datasets for Tabular Outlier Detection

1️⃣ 一句话总结

这篇论文提出了一个名为MacrOData的大规模基准套件，它包含了超过2400个精心设计的表格数据集，旨在解决现有异常检测基准规模小、多样性不足的问题，从而为更全面、更可靠地评估不同异常检测方法提供了强大的工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09717

arXiv 提交日期: 2026-02-10

model training model evaluation systems spiking neural networks energy efficiency edge computing model pruning benchmarking

从轻量级CNN到脉冲网络：基于剪枝脉冲SqueezeNet的精度-能耗权衡基准测试 / From Lightweight CNNs to SpikeNets: Benchmarking Accuracy-Energy Tradeoffs with Pruned Spiking SqueezeNet

1️⃣ 一句话总结

这项研究首次系统性地将多种轻量级卷积神经网络转换为脉冲神经网络，发现经过剪枝优化的脉冲版SqueezeNet能在保持与原始网络相近精度的同时，大幅降低近90%的能耗，为边缘设备提供了高性能、低功耗的智能解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10477

1️⃣ 一句话总结

arXiv ID: 2603.10963

1️⃣ 一句话总结

arXiv ID: 2603.09548

1️⃣ 一句话总结

arXiv ID: 2603.07659

1️⃣ 一句话总结

arXiv ID: 2603.03175

1️⃣ 一句话总结

arXiv ID: 2603.02949

1️⃣ 一句话总结

arXiv ID: 2603.02789

1️⃣ 一句话总结

arXiv ID: 2602.19223

1️⃣ 一句话总结

arXiv ID: 2602.09329

1️⃣ 一句话总结

arXiv ID: 2602.09717

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10477 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10963 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09548 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02949 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09329 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09717 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10477

arXiv ID: 2603.10963

arXiv ID: 2603.09548

arXiv ID: 2603.07659

arXiv ID: 2603.03175

arXiv ID: 2603.02949

arXiv ID: 2603.02789

arXiv ID: 2602.19223

arXiv ID: 2602.09329

arXiv ID: 2602.09717