arXiv最新AI论文速览速学

🔍

标签: #benchmark evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: UniBlendNet: Unified Global, Multi-Scale, and Region-Adaptive Modeling for Ambient Lighting Normalization 04-18

arXiv ID: 2602.08699

arXiv 提交日期: 2026-02-09

computer vision video model training low-light enhancement video decomposition spatial-temporal modeling neural networks benchmark evaluation

一种有效的时空分解范式下的低光视频增强 / Low-Light Video Enhancement with An Effective Spatial-Temporal Decomposition Paradigm

1️⃣ 一句话总结

这篇论文提出了一种名为VLLVE++的新方法，通过将视频内容智能分解为不同部分并分别处理，有效提升了昏暗、有噪点视频的画质，尤其在处理真实世界动态场景时表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04294

arXiv 提交日期: 2026-02-04

llm natural language processing model evaluation jailbreak attacks prompt-based defenses few-shot learning safety alignment benchmark evaluation

少量示例如何影响基于提示的防御对抗大语言模型越狱攻击 / How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks

1️⃣ 一句话总结

这项研究发现，在基于提示的防御策略中，加入少量示例对两种主流方法有截然相反的效果：它能通过强化角色认同来提升角色导向提示的防御能力，却会因分散注意力而削弱任务导向提示的防御效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03293

arXiv 提交日期: 2026-02-03

machine learning model evaluation data anomaly detection unsupervised learning mean shift density estimation benchmark evaluation

基于均值漂移密度增强的异常检测 / Anomaly Detection via Mean Shift Density Enhancement

1️⃣ 一句话总结

这篇论文提出了一种名为MSDE的全新无监督异常检测方法，其核心思想是利用正常样本和异常样本在密度驱动的迭代演化过程中表现出的稳定性差异来识别异常，实验证明该方法在各种真实数据和噪声环境下都表现出了强大且稳健的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01854

arXiv 提交日期: 2026-02-02

multi-modal model evaluation agents misinformation detection deepfake detection multimodal fact-checking benchmark evaluation multi-agent systems

事实还是伪造？评估深度伪造检测器在多模态虚假信息检测中的作用 / Fact or Fake? Assessing the Role of Deepfake Detectors in Multimodal Misinformation Detection

1️⃣ 一句话总结

这篇论文通过系统研究发现，在多模态虚假信息检测中，专注于像素级伪造的深度伪造检测器不仅作用有限，反而可能因误导性的真实性假设而降低事实核查系统的整体性能，而基于语义理解和外部证据的核查方法效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21714

arXiv 提交日期: 2026-01-29

llm agents systems agent memory episodic context multi-agent system reasoning benchmark evaluation

E-mem：基于多智能体的情景化上下文重建用于大语言模型智能体记忆 / E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory

1️⃣ 一句话总结

这篇论文提出了一个名为E-mem的新框架，它通过模拟生物记忆的运作方式，让多个AI助手分别保存完整的对话历史片段，并由一个中央主智能体协调，从而在解决复杂问题时能更好地保持逻辑连贯性，同时显著降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03872

arXiv 提交日期: 2026-01-07

llm agents systems tool orchestration model routing multi-domain reasoning reinforcement learning benchmark evaluation

Atlas：为多领域复杂推理编排异构模型与工具 / Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为ATLAS的智能框架，它能像一位经验丰富的指挥家一样，根据不同的复杂任务（如数学、编程或视觉推理），自动选择最合适的大语言模型和外部工具进行组合与协作，从而在多项测试中超越了GPT-4o等顶尖模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03986

arXiv 提交日期: 2026-01-07

llm benchmark model evaluation benchmark evaluation ranking consistency discriminability capability alignment test set reduction

基准的基准：对大语言模型评测基准的系统性评估 / Benchmark^2: Systematic Evaluation of LLM Benchmarks

1️⃣ 一句话总结

这篇论文提出了一个名为Benchmark^2的框架，用于评估现有大语言模型评测基准本身的质量好坏，发现不同基准质量差异很大，并证明用他们的方法筛选题目能大幅减少测试题量而不影响评估效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24873

arXiv 提交日期: 2025-12-31

llm agents systems agentic learning policy optimization training ecosystem interaction-based alignment benchmark evaluation

任其流动：在开放智能体学习生态系统中构建摇滚乐与ROME模型 / Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

1️⃣ 一句话总结

这篇论文提出了一个名为ALE的开放智能体学习生态系统，并基于此训练出名为ROME的开源智能体模型，通过整合数据合成、新型训练算法和评估基准，解决了当前智能体开发缺乏标准化、端到端基础设施的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23412

arXiv 提交日期: 2025-12-29

agents multi-modal model training tool-integrated reasoning multimodal chain-of-thought autonomous agents benchmark evaluation agent training infrastructure

MindWatcher：迈向更智能的多模态工具集成推理 / MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MindWatcher的新型智能体，它能够像人一样自主思考、调用各种工具（如图像搜索）来解决复杂的跨领域问题，其核心创新在于让模型在推理过程中随时切换思考和工具调用，并通过高效训练实现了比更大模型更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22047

arXiv 提交日期: 2025-12-26

agents systems model training gui agents device-cloud collaboration online reinforcement learning mobile navigation benchmark evaluation

MAI-UI技术报告：面向真实世界的通用图形用户界面智能体 / MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MAI-UI的系列通用图形界面智能体，它通过创新的数据生成、设备与云端协同执行以及在线强化学习框架，有效解决了智能体在真实复杂环境中操作图形界面的四大核心难题，并在多项基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.08699

1️⃣ 一句话总结

arXiv ID: 2602.04294

1️⃣ 一句话总结

arXiv ID: 2602.03293

1️⃣ 一句话总结

arXiv ID: 2602.01854

1️⃣ 一句话总结

arXiv ID: 2601.21714

1️⃣ 一句话总结

arXiv ID: 2601.03872

1️⃣ 一句话总结

arXiv ID: 2601.03986

1️⃣ 一句话总结

arXiv ID: 2512.24873

1️⃣ 一句话总结

arXiv ID: 2512.23412

1️⃣ 一句话总结

arXiv ID: 2512.22047

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.08699 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04294 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03293 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01854 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21714 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03986 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23412 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22047 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.08699

arXiv ID: 2602.04294

arXiv ID: 2602.03293

arXiv ID: 2602.01854

arXiv ID: 2601.21714

arXiv ID: 2601.03872

arXiv ID: 2601.03986

arXiv ID: 2512.24873

arXiv ID: 2512.23412

arXiv ID: 2512.22047