arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos 03-18

arXiv ID: 2602.21698

arXiv 提交日期: 2026-02-25

multi-modal model evaluation aigc e-commerce posters quality assessment chinese content chain-of-thought benchmark

E-comIQ-ZH：一个用于电商海报细粒度评估的、符合人类判断的数据集与基准框架 / E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

1️⃣ 一句话总结

这篇论文针对中文电商海报质量缺乏有效自动化评估工具的问题，创建了一个包含多维评分和专家推理说明的大规模数据集，并基于此训练了一个能像人类专家一样评判海报质量的专用模型，为电商海报生成提供了首个可扩展的自动化评估基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21978

arXiv 提交日期: 2026-02-25

llm natural language processing model evaluation linguistic minimal-pair construction grammar semantic interpretation benchmark form-meaning pairing

CxMP：一个用于评估语言模型构式理解能力的语言学最小对基准 / CxMP: A Linguistic Minimal-Pair Benchmark for Evaluating Constructional Understanding in Language Models

1️⃣ 一句话总结

这篇论文提出了一个基于构式语法的语言学基准CxMP，通过最小对比测试发现，尽管大型语言模型能较早掌握句法规则，但对语法形式所传达的深层语义关系的理解能力发展缓慢且存在明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21858

arXiv 提交日期: 2026-02-25

agents benchmark multi-modal mobile agents proactive intelligence multimodal llm evaluation benchmark function calling

ProactiveMobile：一个用于提升移动设备主动智能的综合基准 / ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices

1️⃣ 一句话总结

这篇论文提出了一个名为ProactiveMobile的综合性基准测试，旨在推动移动设备从被动执行指令向主动预测用户需求并执行行动的智能范式转变，并通过实验证明当前主流模型在此能力上普遍不足，但可以通过学习来提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22013

arXiv 提交日期: 2026-02-25

multi-modal natural language processing model evaluation retrieval-augmented generation vision-language models robustness causal representation learning benchmark

RobustVisRAG：视觉退化下基于因果感知的视觉检索增强生成 / RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

1️⃣ 一句话总结

这篇论文提出了一个名为RobustVisRAG的新框架，它通过因果推理将图像中的语义信息和退化失真（如模糊、噪声）分离开来，从而显著提升了视觉检索增强生成系统在图像质量不佳时的稳定性和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21137

arXiv 提交日期: 2026-02-24

video benchmark multi-modal video question answering spatio-temporal reasoning urban traffic dataset privacy preservation

UDVideoQA：一个用于城市动态多目标时空推理的交通视频问答数据集 / UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

1️⃣ 一句话总结

这篇论文提出了一个名为UDVideoQA的新数据集，它基于真实城市交通视频，通过大量问答对来系统评估AI模型在视觉理解和因果推理方面的能力，并发现当前先进模型在基础感知和复杂推理之间存在明显差距，而使用该数据集微调较小的模型可以有效弥补这一不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20636

arXiv 提交日期: 2026-02-24

computer vision medical systems surgical attention tracking temporal modeling heatmap prediction robotic guidance benchmark

SurgAtt-Tracker：通过时序提议重排序与运动感知精细化实现在线手术注意力追踪 / SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

1️⃣ 一句话总结

这篇论文提出了一种名为SurgAtt-Tracker的新方法，通过分析视频序列中外科医生注意力的时空变化来实时追踪手术视野焦点，并建立了一个大规模数据集用于训练和评估，该方法在多种干扰下表现稳健，能为手术机器人的自动视野规划提供直接指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20976

arXiv 提交日期: 2026-02-24

llm model evaluation agents risk awareness safety evaluation ecological impact proactive safeguards benchmark

评估大型语言模型的前瞻性风险意识 / Evaluating Proactive Risk Awareness of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个评估框架，发现当前主流大语言模型在回答可能引发潜在生态危害的日常问题时，普遍缺乏提前预警的风险意识，尤其是在回答简短、跨语言和多模态物种保护场景下存在明显盲区。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20714

arXiv 提交日期: 2026-02-24

benchmark systems model evaluation computational fluid dynamics surrogate modeling geometric deep learning hydraulic engineering 3d shape representation

WeirNet：一个用于钢琴键堰几何代理建模的大规模三维计算流体力学基准数据集 / WeirNet: A Large-Scale 3D CFD Benchmark for Geometric Surrogate Modeling of Piano Key Weirs

1️⃣ 一句话总结

这项研究创建了一个名为WeirNet的大规模公开数据集和基准，它通过数千个三维流体力学模拟，为钢琴键堰的设计提供了快速预测其水力性能的替代模型，从而显著加速了水利工程中的早期设计探索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20743

arXiv 提交日期: 2026-02-24

natural language processing llm systems text anonymization privacy-utility trade-off prompt optimization language models benchmark

自适应文本匿名化：通过提示优化学习隐私与效用的权衡 / Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

1️⃣ 一句话总结

这篇论文提出了一种能自动适应不同场景需求的自适应文本匿名化框架，通过优化提示让语言模型在保护隐私和保留文本可用性之间找到最佳平衡点，效果优于传统固定方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21044

arXiv 提交日期: 2026-02-24

llm benchmark model evaluation logical reasoning multi-path reasoning neuro-symbolic evaluation framework reasoning depth

LogicGraph：通过神经符号生成与验证对多路径逻辑推理进行基准测试 / LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification

1️⃣ 一句话总结

这篇论文提出了首个名为LogicGraph的基准测试，用于系统评估大语言模型探索多种有效推理路径的能力，揭示了当前模型倾向于过早锁定单一思路而忽略其他可能性的普遍缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21698

1️⃣ 一句话总结

arXiv ID: 2602.21978

1️⃣ 一句话总结

arXiv ID: 2602.21858

1️⃣ 一句话总结

arXiv ID: 2602.22013

1️⃣ 一句话总结

arXiv ID: 2602.21137

1️⃣ 一句话总结

arXiv ID: 2602.20636

1️⃣ 一句话总结

arXiv ID: 2602.20976

1️⃣ 一句话总结

arXiv ID: 2602.20714

1️⃣ 一句话总结

arXiv ID: 2602.20743

1️⃣ 一句话总结

arXiv ID: 2602.21044

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21698 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21137 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20636 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20976 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20714 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20743 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21044 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21698

arXiv ID: 2602.21978

arXiv ID: 2602.21858

arXiv ID: 2602.22013

arXiv ID: 2602.21137

arXiv ID: 2602.20636

arXiv ID: 2602.20976

arXiv ID: 2602.20714

arXiv ID: 2602.20743

arXiv ID: 2602.21044