arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: LUMINA-26: Low-Light Understanding for Modeling and Interpreting Night-time Actions 06-23

arXiv ID: 2606.23118

arXiv 提交日期: 2026-06-22

computer vision video benchmark action recognition low-light video dataset mixture-of-experts illumination adaptation

LUMINA-26：面向夜间动作建模与理解的低光照识别数据集与方法 / LUMINA-26: Low-Light Understanding for Modeling and Interpreting Night-time Actions

1️⃣ 一句话总结

本文提出了一个名为LUMINA-26的夜间低光照动作识别数据集，包含6784个视频片段和26类动作，并设计了自适应光照增强的混合专家网络Illumi-Net，在低光照条件下显著提升了动作识别的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22873

arXiv 提交日期: 2026-06-22

multi-modal llm model evaluation guardrail safety policy adaptation reinforcement learning benchmark

SingGuard：一种具有动态推理能力的策略自适应多模态大模型护栏 / SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning

1️⃣ 一句话总结

本文提出了一种名为SingGuard的多模态AI安全护栏，它能根据运行时输入的文本规则动态调整审查策略，灵活检测文本和图像组合中的安全风险，并在多个基准测试中达到最优性能，有效解决了现有方法无法适应不同场景下安全规则变化的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23092

arXiv 提交日期: 2026-06-22

multi-modal benchmark model evaluation interpersonal relationship social reasoning visual cues multimodal llm psychology

PIVOTSBench：评估多模态大语言模型在细粒度人际关系推理中的能力 / PIVOTSBench: Evaluating Fine-Grained Interpersonal Relationship Reasoning in Multimodal Large Language Models

1️⃣ 一句话总结

该论文提出了PIVOTS基准测试，通过整合视频、对话和心理学维度，首次系统评估多模态大语言模型在双向、细微人际关系判断上的表现，并分析了视觉线索和社交角色对推理的影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22925

arXiv 提交日期: 2026-06-22

benchmark machine learning systems eeg task specification benchmark construction foundation models reproducibility

脑电图基准测试需要一个任务规范层：NeuroDoc——基于规则手册的可执行基准构建方法 / EEG Benchmarking Needs a Task Specification Layer: NeuroDoc for Rulebook-Guided, Executable Benchmark Construction

1️⃣ 一句话总结

本文提出NeuroDoc框架，通过一套统一的规则手册和任务描述语言，将不同来源的脑电图数据转换为标准化的、可重复使用的基准测试单元，解决了现有数据集缺乏通用任务规范、依赖人工解读的问题，并验证了该方法在多种脑电图模型上的可执行性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23032

arXiv 提交日期: 2026-06-22

llm finance agents evaluation benchmark retrieval rubric generation ipo due diligence

IPO金融智能体：超越Finance Agent v2的LLM金融分析师评估——以SpaceX（SPCX）首次公开募股为例的自动评分标准生成 / IPO Finance Agent: Evaluation of LLM Financial Analysts beyond Finance Agent v2, with Automated Rubric Generation -- the Case of the SpaceX (SPCX) IPO

1️⃣ 一句话总结

本文提出了一个名为IPO Finance Agent的评估框架，专门用于测试大语言模型在首次公开募股（IPO）尽职调查任务上的表现，通过改进文档检索技术、构建包含1000道问题的数据集以及引入自动生成评分标准的流程，发现阿里云Qwen 3.7 Max模型以每次查询0.30美元的成本达到了79.4%的准确率，远超现有基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22807

arXiv 提交日期: 2026-06-22

systems model training model evaluation reranking encoder-decoder efficiency matryoshka embedding benchmark

KaLM-Reranker-V1：快速但不晚交互的压缩文档重排序 / KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

1️⃣ 一句话总结

本文提出了一种名为KaLM-Reranker-V1的新型文档重排序模型，通过将查询和文档的计算过程分离（编码器预编码文档，解码器处理查询意图），再使用交叉注意力机制捕捉相关性，从而在保持高效推理速度的同时，实现了与顶尖模型相当的重排序性能，并且小模型也能达到大型嵌入模型的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22737

arXiv 提交日期: 2026-06-22

agents model evaluation agent evaluation stateful agents evidence grounding benchmark llm-as-judge

GroundEval：面向有状态智能体评估的确定性替代方案，取代大语言模型担任裁判 / GroundEval: A Deterministic Replacement for LLM-as-Judge in Stateful Agent Evaluation

1️⃣ 一句话总结

该论文提出了一种名为GroundEval的新评估框架，通过核查智能体实际搜索、获取和引用的证据轨迹，而不是仅依赖大语言模型对最终答案的主观打分，从而更准确地检测智能体是否基于真实依据而非貌似合理的表面信息给出回答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23096

arXiv 提交日期: 2026-06-22

theory machine learning benchmark minimax quantile interactive decision making privacy bandits lower bounds

交互式统计决策中带隐私保护的极小化分位数下界 / Minimax Quantile Lower Bounds for Interactive Statistical Decision Making with Privacy

1️⃣ 一句话总结

本文提出了一套基于分位数而非期望值的理论框架，用于分析交互式统计决策中的最坏情况风险，并推导出在高隐私保护要求下，高斯均值估计和K臂老虎机问题所需样本量的明确下界，揭示了隐私保护与探索成本之间的权衡关系。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22792

arXiv 提交日期: 2026-06-22

llm machine learning model evaluation uncertainty quantification stochasticity taxonomy benchmark empirical study

随机性的起源：大型语言模型不确定性量化的综合研究 / The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一套更精细的不确定性分类体系，将大语言模型的不确定性拆解为输入、参数、词元和解码过程四个来源，并据此评估了21种主流量化方法，发现基于共识的方法（如Deg和Eig）效果最好，且模型越大不确定性越低，相当于发现了不确定性随模型规模变化的经验规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.20045

arXiv 提交日期: 2026-06-18

vision-language navigation robotics uav uav-vln target-reaching fine-grained grounding 3d waypoint prediction benchmark

看见即到达：面向无人机的视场内的精准视觉语言导航 / See-and-Reach: Precise Vision-Language Navigation for UAVs within the Field of View

1️⃣ 一句话总结

本文提出了一种针对无人机的视觉语言导航新任务和框架，专门解决无人机在目标进入视野后如何精准识别并飞抵目标的问题，通过结合动态3D方向线索和高分辨率图像，使导航成功率和精准度大幅提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.23118

1️⃣ 一句话总结

arXiv ID: 2606.22873

1️⃣ 一句话总结

arXiv ID: 2606.23092

1️⃣ 一句话总结

arXiv ID: 2606.22925

1️⃣ 一句话总结

arXiv ID: 2606.23032

1️⃣ 一句话总结

arXiv ID: 2606.22807

1️⃣ 一句话总结

arXiv ID: 2606.22737

1️⃣ 一句话总结

arXiv ID: 2606.23096

1️⃣ 一句话总结

arXiv ID: 2606.22792

1️⃣ 一句话总结

arXiv ID: 2606.20045

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.23118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23092 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22925 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23032 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22807 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23096 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22792 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.20045 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.23118

arXiv ID: 2606.22873

arXiv ID: 2606.23092

arXiv ID: 2606.22925

arXiv ID: 2606.23032

arXiv ID: 2606.22807

arXiv ID: 2606.22737

arXiv ID: 2606.23096

arXiv ID: 2606.22792

arXiv ID: 2606.20045