arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 33 72小时内新更新论文 72h更新 110 最新: XekRung Technical Report 05-04

arXiv ID: 2604.08184

arXiv 提交日期: 2026-04-09

audio benchmark model evaluation audio deepfake detection multimedia forensics generalization evaluation challenge synthetic audio

AT-ADD：全类型音频深度伪造检测挑战赛评估方案 / AT-ADD: All-Type Audio Deepfake Detection Challenge Evaluation Plan

1️⃣ 一句话总结

这篇论文提出了一个名为AT-ADD的挑战赛，旨在推动音频深度伪造检测技术从仅针对语音扩展到所有类型的音频，并提升其在真实复杂场景下的鲁棒性和通用性，以应对合成音频技术快速发展带来的安全和信任挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07763

arXiv 提交日期: 2026-04-09

multi-modal model evaluation computer vision deepfake detection modality generalization forensics benchmark cross-modal learning

超越表面痕迹：捕获跨模态的共享潜在伪造知识 / Beyond Surface Artifacts: Capturing Shared Latent Forgery Knowledge Across Modalities

1️⃣ 一句话总结

这篇论文提出了一个名为MAF的、不依赖具体模态的伪造检测新框架，它通过剥离不同模态（如图像、音频）的表面特征，提取出所有伪造内容共有的、深层的‘伪造痕迹’，从而能有效识别出未知类型的深度伪造攻击，解决了现有检测技术泛化能力差的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07967

arXiv 提交日期: 2026-04-09

llm natural language processing model evaluation fact verification adversarial evaluation claim decomposition validity scoring benchmark

AtomEval：事实核查中对抗性主张的原子化评估 / AtomEval: Atomic Evaluation of Adversarial Claims in Fact Verification

1️⃣ 一句话总结

这篇论文提出了一个名为AtomEval的新评估框架，它通过将事实主张拆解成原子成分并检查其真实性是否被破坏，从而更可靠地评估对抗性改写对事实核查系统的攻击效果，研究发现更强的AI模型未必能生成更有效的对抗性主张。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07907

arXiv 提交日期: 2026-04-09

systems theory benchmark verification theorem chess endgames tablebase retrograde analysis formal verification

捕获-静止分解：国际象棋残局库的验证定理 / Capture-Quiet Decomposition: A Verification Theorem for Chess Endgame Tablebases

1️⃣ 一句话总结

这篇论文提出了一个名为‘捕获-静止分解’的定理，通过将棋盘位置分为三类并建立验证规则，从根本上解决了国际象棋残局库结果标签的准确性验证难题，避免了传统方法可能出现的循环论证问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07953

arXiv 提交日期: 2026-04-09

machine learning model evaluation systems time series classification model pruning energy efficiency sustainable ai benchmark

面向可持续时间序列分类的剪枝扩展与效率权衡 / Pruning Extensions and Efficiency Trade-Offs for Sustainable Time Series Classification

1️⃣ 一句话总结

这篇论文提出了一个评估框架，通过对主流时间序列分类模型进行剪枝，在保证预测精度损失很小的前提下，最高可降低80%的能耗，推动了该领域向可持续、高效的方向发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06945

arXiv 提交日期: 2026-04-08

video benchmark model evaluation video restoration bitstream corruption artifact removal spatial-temporal artifacts challenge report

NTIRE 2026 比特流损坏视频修复挑战赛：方法与结果 / NTIRE 2026 Challenge on Bitstream-Corrupted Video Restoration: Methods and Results

1️⃣ 一句话总结

这篇论文介绍了NTIRE 2026比特流损坏视频修复挑战赛，它通过提供一个公共基准来推动从损坏视频流中恢复高质量视频的研究，并总结了当前的技术趋势和未来方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07413

arXiv 提交日期: 2026-04-08

multi-modal model evaluation benchmark manufacturing multimodal llms fine-grained evaluation domain adaptation visual grounding

FORGE：面向制造场景的细粒度多模态评估 / FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为FORGE的评估框架，通过构建包含真实2D图像和3D点云的细粒度标注数据集，评估了多模态大模型在制造业任务中的表现，发现其核心瓶颈并非视觉理解能力，而是缺乏领域专业知识，并证明了利用该数据集进行微调能显著提升模型在制造业场景下的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06902

arXiv 提交日期: 2026-04-08

llm natural language processing data causal discovery text generation inverse design annotation benchmark

iTAG：基于精确因果图标注的自然文本生成逆向设计 / iTAG: Inverse Design for Natural Text Generation with Accurate Causal Graph Annotations

1️⃣ 一句话总结

这篇论文提出了一种名为iTAG的新方法，它通过逆向设计和思维链推理，能够自动生成既自然又带有高精度因果图标注的文本数据，从而为基于文本的因果发现算法提供了可扩展且可靠的基准测试数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07035

arXiv 提交日期: 2026-04-08

llm model evaluation benchmark mixture-of-experts reasoning models accuracy-efficiency tradeoff inference performance model comparison

Gemma 4、Phi-4与Qwen3：稠密与MoE推理语言模型在精度与效率间的权衡 / Gemma 4, Phi-4, and Qwen3: Accuracy-Efficiency Tradeoffs in Dense and MoE Reasoning Language Models

1️⃣ 一句话总结

这篇论文通过系统对比七种主流推理大模型发现，在真实资源限制下，模型的实际表现不仅取决于稀疏激活的MoE架构，更受任务类型、提示策略与架构设计的共同影响，其中Gemma-4-E4B模型在综合精度与内存效率上取得了最佳平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07240

arXiv 提交日期: 2026-04-08

agents benchmark theory automated theorem proving competitive analysis potential function mathematical discovery k-server problem

k-服务器基准测试：为k-服务器猜想实现潜力函数发现的自动化 / $k$-server-bench: Automating Potential Discovery for the $k$-Server Conjecture

1️⃣ 一句话总结

这篇论文提出了一个基于代码的自动化数学发现挑战，旨在通过寻找满足特定不等式系统的潜力函数来辅助证明或逼近著名的k-服务器猜想，同时该任务本身也构成了一个能有效评估智能体发现能力的新基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.08184

1️⃣ 一句话总结

arXiv ID: 2604.07763

1️⃣ 一句话总结

arXiv ID: 2604.07967

1️⃣ 一句话总结

arXiv ID: 2604.07907

1️⃣ 一句话总结

arXiv ID: 2604.07953

1️⃣ 一句话总结

arXiv ID: 2604.06945

1️⃣ 一句话总结

arXiv ID: 2604.07413

1️⃣ 一句话总结

arXiv ID: 2604.06902

1️⃣ 一句话总结

arXiv ID: 2604.07035

1️⃣ 一句话总结

arXiv ID: 2604.07240

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.08184 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07967 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07907 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06945 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07413 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06902 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07035 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07240 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.08184

arXiv ID: 2604.07763

arXiv ID: 2604.07967

arXiv ID: 2604.07907

arXiv ID: 2604.07953

arXiv ID: 2604.06945

arXiv ID: 2604.07413

arXiv ID: 2604.06902

arXiv ID: 2604.07035

arXiv ID: 2604.07240