arXiv最新AI论文速览速学

🔍

标签: #benchmark evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: UniBlendNet: Unified Global, Multi-Scale, and Region-Adaptive Modeling for Ambient Lighting Normalization 04-18

arXiv ID: 2511.00405

arXiv 提交日期: 2025-11-01

multi-modal model training model evaluation multimodal embeddings generative reasoning reinforcement learning benchmark evaluation embedding fusion

UME-R1：探索推理驱动的生成式多模态嵌入 / UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

1️⃣ 一句话总结

这项研究提出了一种新的多模态嵌入方法UME-R1，通过结合推理驱动的生成式学习，显著提升了图像、视频等多媒体任务的处理性能，并揭示了生成式嵌入相比传统方法的优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26909

arXiv 提交日期: 2025-10-30

robotics computer vision natural language processing embodied navigation vision-language models benchmark evaluation trajectory prediction spatial grounding

NaviTrace：评估视觉语言模型的具身导航能力 / NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为NaviTrace的新型评测基准，通过模拟不同机器人形态在1000多个场景中的导航轨迹，系统评估了八种先进视觉语言模型的导航能力，发现它们在空间定位和目标识别方面仍显著落后于人类水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21618

arXiv 提交日期: 2025-10-24

agents llm systems reasoning agents tool usage memory management reinforcement learning benchmark evaluation

DeepAgent：一种具备可扩展工具集的通用推理智能体 / DeepAgent: A General Reasoning Agent with Scalable Toolsets

1️⃣ 一句话总结

这篇论文提出了一个名为DeepAgent的通用推理智能体，它能够在一个统一的推理过程中自主思考、发现工具并执行动作，同时通过创新的记忆压缩和强化学习技术有效解决了长序列任务中的上下文爆炸和错误累积问题，在多种工具使用和实际应用场景中显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20579

arXiv 提交日期: 2025-10-23

video multi-modal model training video reasoning spatio-temporal grounding reinforcement learning benchmark evaluation evidence localization

Open-o3 视频：基于显式时空证据的视频推理 / Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

1️⃣ 一句话总结

这篇论文提出了一个视频推理模型，它不仅能回答问题，还能自动标出视频中关键证据发生的时间和位置，通过专门构建的数据集和强化学习策略，在多个视频理解任务上取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20286

arXiv 提交日期: 2025-10-23

agents natural language processing model training gui grounding instruction reasoning multi-perspective learning reinforcement learning benchmark evaluation

UI-Ins：通过多视角指令即推理增强图形用户界面定位能力 / UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

1️⃣ 一句话总结

这篇论文提出了一种将用户指令视为动态推理路径的新方法，通过多视角训练和强化学习优化路径选择，显著提升了图形界面中语言指令到可操作元素的定位准确率，并在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.19600

arXiv 提交日期: 2025-10-22

agents multi-modal systems multi-agent system paper-to-page generation human-agent collaboration content verification benchmark evaluation

人机协作的论文到网页制作，成本低于0.1美元 / Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

1️⃣ 一句话总结

这篇论文提出了一个名为AutoPage的多智能体系统，通过人机协作的方式，将学术论文自动转化为高质量、可交互的网页，整个过程只需不到15分钟且成本低于0.1美元，同时通过检查机制确保内容的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.17853

arXiv 提交日期: 2025-10-15

llm natural language processing model evaluation citation attribution retrieval-augmented validation faithfulness evaluation scientific writing benchmark evaluation

CiteGuard：通过检索增强验证实现大语言模型的忠实引用归属 / CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

1️⃣ 一句话总结

这项研究提出了一个名为CiteGuard的系统，它通过结合检索技术来验证大语言模型生成的引用是否与人类作者的选择一致，从而显著提高了引用的准确性，性能接近人类水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10395

arXiv 提交日期: 2025-10-12

multi-modal video model training audiovisual captioning temporal alignment video understanding reward functions benchmark evaluation

AVoCaDO：基于时序编排的音视频字幕生成器 / AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

1️⃣ 一句话总结

这篇论文提出了一个名为AVoCaDO的音视频字幕生成模型，它通过两阶段训练方法有效整合视觉与听觉信息，生成时间上精确对齐的描述，在多个评测基准上显著优于现有开源模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.07793

arXiv 提交日期: 2025-10-09

biology llm agents single-cell biology multimodal integration benchmark evaluation foundation models biological annotation

LLM4Cell：面向单细胞生物学的大语言与智能体模型综述 / LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology

1️⃣ 一句话总结

这篇论文首次系统综述了58种应用于单细胞生物学研究的大语言与智能体模型，通过整合多模态数据和评估标准，揭示了该领域在数据整合、模型解释性及伦理安全方面的挑战与进展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.06607

arXiv 提交日期: 2025-10-08

agents systems llm computer-use agents security threats system hacking mitre att&ck benchmark evaluation

代码代理可成为端到端系统黑客：评估计算机使用代理在现实世界中的威胁 / Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent

1️⃣ 一句话总结

这篇论文通过构建首个基于真实攻击策略的基准测试AdvCUA，发现当前主流的计算机使用代理在操作系统控制方面存在严重安全漏洞，能够被缺乏经验的攻击者利用来执行复杂的端到端企业入侵，从而引发社会对AI代理安全责任的担忧。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.00405

1️⃣ 一句话总结

arXiv ID: 2510.26909

1️⃣ 一句话总结

arXiv ID: 2510.21618

1️⃣ 一句话总结

arXiv ID: 2510.20579

1️⃣ 一句话总结

arXiv ID: 2510.20286

1️⃣ 一句话总结

arXiv ID: 2510.19600

1️⃣ 一句话总结

arXiv ID: 2510.17853

1️⃣ 一句话总结

arXiv ID: 2510.10395

1️⃣ 一句话总结

arXiv ID: 2510.07793

1️⃣ 一句话总结

arXiv ID: 2510.06607

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.00405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26909 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20579 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20286 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.19600 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.17853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.07793 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.06607 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.00405

arXiv ID: 2510.26909

arXiv ID: 2510.21618

arXiv ID: 2510.20579

arXiv ID: 2510.20286

arXiv ID: 2510.19600

arXiv ID: 2510.17853

arXiv ID: 2510.10395

arXiv ID: 2510.07793

arXiv ID: 2510.06607