arXiv最新AI论文速览速学

🔍

标签: #benchmark evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 189 最新: UniBlendNet: Unified Global, Multi-Scale, and Region-Adaptive Modeling for Ambient Lighting Normalization 04-18

arXiv ID: 2604.13383

arXiv 提交日期: 2026-04-15

computer vision model training systems image restoration lighting normalization multi-scale modeling attention mechanisms benchmark evaluation

UniBlendNet：用于环境光照归一化的统一全局、多尺度及区域自适应建模 / UniBlendNet: Unified Global, Multi-Scale, and Region-Adaptive Modeling for Ambient Lighting Normalization

1️⃣ 一句话总结

这篇论文提出了一个名为UniBlendNet的新方法，它能通过同时考虑整体光照、多尺度细节和局部区域自适应调整，更有效地修复因复杂、不均匀光照而变差的图像，使其看起来更自然和清晰。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11225

arXiv 提交日期: 2026-04-13

natural language processing computer vision multi-modal sign language recognition vision language models zero-shot learning visual-semantic alignment benchmark evaluation

大语言模型时代的手语识别 / Sign Language Recognition in the Age of LLMs

1️⃣ 一句话总结

这篇论文研究了当前先进的视觉语言模型是否能在不经过专门训练的情况下，直接识别孤立的手语动作，结果发现虽然大型专有模型表现尚可，但开源模型在零样本设置下仍远不如传统的有监督分类器。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01702

arXiv 提交日期: 2026-04-02

llm model training model evaluation chain-of-thought reasoning patterns supervised fine-tuning generalization benchmark evaluation

论推理模式在长思维链监督微调泛化差异中的作用 / On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

1️⃣ 一句话总结

这篇论文研究发现，在训练大语言模型进行复杂推理时，使用逻辑收敛、演绎式的思维链数据比使用发散、分支探索式的数据更能提升模型的泛化能力，即使后者在训练时看起来更容易学习。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01657

arXiv 提交日期: 2026-04-02

llm model evaluation natural language processing claim verification reasoning analysis dataset bias benchmark evaluation evidence extraction

事实核查数据集究竟在测试什么？一项推理路径分析 / What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis

1️⃣ 一句话总结

这篇论文通过分析九个主流事实核查数据集发现，现有基准测试主要考察的是信息检索和简单匹配能力，而真正需要多句信息整合、数值推理等复杂推理能力的任务则严重不足，导致模型的高分并不能反映其真正的推理水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28088

arXiv 提交日期: 2026-03-30

agents multi-modal model evaluation agent framework multimodal generation memory systems skill learning benchmark evaluation

GEMS：具备记忆与技能的、以智能体为核心的多模态生成框架 / GEMS: Agent-Native Multimodal Generation with Memory and Skills

1️⃣ 一句话总结

这篇论文提出了一个名为GEMS的智能体框架，它通过引入多智能体协作循环、长期记忆存储和可扩展的专业技能库，显著提升了多模态生成模型在复杂指令和特定任务上的表现，甚至能让轻量级模型超越更强大的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28046

arXiv 提交日期: 2026-03-30

systems machine learning agents swarm optimization metaheuristic algorithm path planning benchmark evaluation constrained optimization

狗斗搜索：一种基于群体智能的优化算法，用于复杂工程优化与山地地形路径规划 / Dogfight Search: A Swarm-Based Optimization Algorithm for Complex Engineering Optimization and Mountainous Terrain Path Planning

1️⃣ 一句话总结

本文受战斗机协同战术启发，提出了一种名为‘狗斗搜索’的新型高效优化算法，该算法在多种标准测试、实际工程问题及复杂地形路径规划任务中，性能均显著优于其他先进算法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25351

arXiv 提交日期: 2026-03-26

computer vision model evaluation model training image rotation estimation circular regression orientation prediction transfer learning benchmark evaluation

图像旋转角度估计：基于圆形感知方法的比较研究 / Image Rotation Angle Estimation: Comparing Circular-Aware Methods

1️⃣ 一句话总结

这篇论文系统比较了五种处理图像旋转角度估计中“圆形边界”难题的方法，发现基于概率的圆形高斯分布方法在不同神经网络架构中表现最稳健，而分类方法在匹配的架构上精度最高但稳定性较差，并在多个数据集上取得了优于先前研究的精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24058

arXiv 提交日期: 2026-03-25

llm multi-modal model evaluation object hallucination attention imbalance vision-language models decoding-time intervention benchmark evaluation

通过注意力失衡矫正缓解大型视觉语言模型中的物体幻觉问题 / Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification

1️⃣ 一句话总结

这篇论文发现大型视觉语言模型产生‘物体幻觉’（即描述图片中不存在的物体）的根本原因是模型注意力分配失衡，并据此提出了一种轻量级的解码时干预方法，通过重新分配注意力权重来有效减少幻觉，同时还能提升模型在其他视觉语言任务上的综合表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18447

arXiv 提交日期: 2026-03-19

agents systems benchmark web data extraction multi-agent system queryable databases benchmark evaluation information integration

SODIUM：从开放网络数据到可查询数据库 / SODIUM: From Open Web Data to Queryable Databases

1️⃣ 一句话总结

这篇论文提出了一个名为SODIUM的新任务，旨在自动从开放的互联网中探索、提取并整合多源数据以构建可查询的数据库，并开发了一个性能远超现有方法的智能代理系统来解决该问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15594

arXiv 提交日期: 2026-03-16

llm agents data search agents training data synthesis multi-hop reasoning open-source benchmark evaluation

OpenSeeker：通过完全开源训练数据，让前沿搜索智能体技术大众化 / OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

1️⃣ 一句话总结

这篇论文提出了一个名为OpenSeeker的完全开源搜索智能体，它通过创新的数据合成方法，仅用少量数据就达到了行业顶尖的搜索性能，旨在打破大公司垄断，推动该领域研究的开放与协作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.13383

1️⃣ 一句话总结

arXiv ID: 2604.11225

1️⃣ 一句话总结

arXiv ID: 2604.01702

1️⃣ 一句话总结

arXiv ID: 2604.01657

1️⃣ 一句话总结

arXiv ID: 2603.28088

1️⃣ 一句话总结

arXiv ID: 2603.28046

1️⃣ 一句话总结

arXiv ID: 2603.25351

1️⃣ 一句话总结

arXiv ID: 2603.24058

1️⃣ 一句话总结

arXiv ID: 2603.18447

1️⃣ 一句话总结

arXiv ID: 2603.15594

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.13383 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11225 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28088 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28046 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25351 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24058 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18447 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15594 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.13383

arXiv ID: 2604.11225

arXiv ID: 2604.01702

arXiv ID: 2604.01657

arXiv ID: 2603.28088

arXiv ID: 2603.28046

arXiv ID: 2603.25351

arXiv ID: 2603.24058

arXiv ID: 2603.18447

arXiv ID: 2603.15594