arXiv最新AI论文速览速学

🔍

标签: #benchmark dataset ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: New Benchmarking Shows Limited Generalization Power of TCR Antigenic Epitope Prediction Models 06-04

arXiv ID: 2606.04994

arXiv 提交日期: 2026-06-03

biology machine learning benchmark tcr epitope prediction generalization benchmark dataset model evaluation

新基准测试显示TCR抗原表位预测模型的泛化能力有限 / New Benchmarking Shows Limited Generalization Power of TCR Antigenic Epitope Prediction Models

1️⃣ 一句话总结

本文通过构建两套全新的、严格定义的基准数据集，系统性地评估了现有T细胞受体（TCR）抗原特异性预测模型的性能，结果发现这些模型在面对未见过的数据时泛化能力很差，远未达到实际应用所需的灵敏度和特异性，从而为下一代算法的开发奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27486

arXiv 提交日期: 2026-05-26

machine learning systems data federated learning time series anomaly detection industrial automation benchmark dataset cyclic behavior

面向工业自动化的多变量时间序列异常检测中的联邦学习方法 / Federated Learning for Multivariate Time Series Anomaly Detection in Industrial Automation

1️⃣ 一句话总结

本文针对联邦学习中多变量时间序列异常检测的数据挑战，专门设计了一个包含循环动态特性的工业自动化数据集，并在此数据集和公开基准上评估了多种检测方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25353

arXiv 提交日期: 2026-05-25

machine learning benchmark pde inverse problems neural networks benchmark dataset design space exploration training strategies

PDEInvBench：面向偏微分方程逆问题的神经网络综合数据集与设计空间探索 / PDEInvBench: A Comprehensive Dataset and Design Space Exploration of Neural Networks for PDE Inverse Problems

1️⃣ 一句话总结

该论文提出了一个名为PDEInvBench的公开基准数据集，涵盖多种偏微分方程的逆问题场景，并系统性地探索了神经网络在训练方式、网络结构设计以及模型与数据规模扩展三个关键维度上的最优策略，揭示了“先监督预训练再基于方程残差微调”、“将偏导数作为输入特征”以及“增加初始条件多样性比扩大参数范围更有效”等实用发现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10394

arXiv 提交日期: 2026-05-11

computer vision multi-modal multi-agents sensational detection benchmark dataset multimodal llm news images disinformation

Sens-VisualNews：用于检测耸动图像的基准数据集 / Sens-VisualNews: A Benchmark Dataset for Sensational Image Detection

1️⃣ 一句话总结

该论文提出了一个名为Sens-VisualNews的新数据集，包含9576张新闻图片，用于训练和评估模型检测图片中是否含有刻意引发强烈情绪或震惊感的耸动内容，并借此研究了多种多模态大语言模型在零样本和微调场景下的检测性能与鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24370

arXiv 提交日期: 2026-04-27

machine learning data tree species classification multispectral lidar point cloud benchmark dataset boreal forest

用于树种分类的多光谱机载激光扫描数据集：MS-ALS-SPECIES / Multispectral airborne laser scanning dataset for tree species classification: MS-ALS-SPECIES

1️⃣ 一句话总结

该论文发布了一个开放的多光谱激光雷达数据集，包含芬兰南部九种树种的6326个单木点云，结合高密度直升机和较低密度飞机扫描数据，并展示了点云模型在识别小树和稀有树种上的优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19888

arXiv 提交日期: 2026-04-21

computer vision multi-modal machine learning gaze estimation driver monitoring transformer attention benchmark dataset point-of-gaze

SGAP-Gaze：基于场景网格注意力的驾驶员注视点估计网络 / SGAP-Gaze: Scene Grid Attention Based Point-of-Gaze Estimation Network for Driver Gaze

1️⃣ 一句话总结

该论文提出了一种结合驾驶员面部信息和周围交通场景图像的新型注视点估计模型SGAP-Gaze，通过引入基于Transformer的场景网格注意力机制，将视觉线索与场景上下文融合，在真实驾驶环境下显著提升了注视点预测的精度，特别是在场景边缘区域也有更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04634

arXiv 提交日期: 2026-04-06

video model evaluation aigc video forensics ai-generated video detection native-scale processing forgery artifacts benchmark dataset

保留伪造痕迹：原生尺度下的AI生成视频检测 / Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale

1️⃣ 一句话总结

这篇论文针对现有AI生成视频检测方法会因固定尺寸预处理而丢失关键伪造痕迹的问题，提出了一个包含海量视频的新数据集和一个能在视频原始分辨率下直接分析、从而有效保留高频伪造特征的新型检测框架，显著提升了检测准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00927

arXiv 提交日期: 2026-04-01

computer vision multi-modal model evaluation motion retrieval video analysis quantization skeleton pose benchmark dataset

用于舞蹈指纹识别的量化结构保持运动表征学习 / Learning Quantised Structure-Preserving Motion Representations for Dance Fingerprinting

1️⃣ 一句话总结

这篇论文提出了一个名为DANCEMATCH的端到端框架，它能将舞蹈视频中的动作转化为紧凑、可解释的‘数字指纹’，从而高效地从海量视频中快速检索出动作相似的舞蹈片段。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29842

arXiv 提交日期: 2026-03-31

biology medical computer vision benchmark dataset light-sheet microscopy whole-brain imaging cell annotation 3d microscopy

迈向具有高分辨率光片数据的可泛化全脑表征 / Toward Generalizable Whole Brain Representations with High-Resolution Light-Sheet Data

1️⃣ 一句话总结

本研究发布了一个名为CANVAS的高分辨率全脑光片显微成像基准数据集，旨在解决现有AI模型难以分析和泛化这类海量、复杂脑数据的问题，以推动相关基础模型的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22977

arXiv 提交日期: 2026-03-24

natural language processing data model evaluation misinformation detection low-resource language multimodal classification harm assessment benchmark dataset

DariMis：用于YouTube达里语虚假信息检测的危害感知建模 / DariMis: Harm-Aware Modeling for Dari Misinformation Detection on YouTube

1️⃣ 一句话总结

这篇论文创建了首个达里语虚假信息数据集，并发现虚假信息通常伴随着高危害性，同时提出了一种能有效提升检测准确性的双输入编码模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04994

1️⃣ 一句话总结

arXiv ID: 2605.27486

1️⃣ 一句话总结

arXiv ID: 2605.25353

1️⃣ 一句话总结

arXiv ID: 2605.10394

1️⃣ 一句话总结

arXiv ID: 2604.24370

1️⃣ 一句话总结

arXiv ID: 2604.19888

1️⃣ 一句话总结

arXiv ID: 2604.04634

1️⃣ 一句话总结

arXiv ID: 2604.00927

1️⃣ 一句话总结

arXiv ID: 2603.29842

1️⃣ 一句话总结

arXiv ID: 2603.22977

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04994 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27486 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25353 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10394 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24370 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19888 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04634 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00927 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29842 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22977 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04994

arXiv ID: 2605.27486

arXiv ID: 2605.25353

arXiv ID: 2605.10394

arXiv ID: 2604.24370

arXiv ID: 2604.19888

arXiv ID: 2604.04634

arXiv ID: 2604.00927

arXiv ID: 2603.29842

arXiv ID: 2603.22977