arXiv最新AI论文速览速学

🔍

标签: #benchmark evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: UniBlendNet: Unified Global, Multi-Scale, and Region-Adaptive Modeling for Ambient Lighting Normalization 04-18

arXiv ID: 2512.20182

arXiv 提交日期: 2025-12-23

llm model evaluation natural language processing faithfulness hallucination detection and explanation synthetic data reinforcement learning benchmark evaluation

FaithLens：一个用于检测和解释大语言模型忠实性幻觉的高效模型 / FaithLens: Detecting and Explaining Faithfulness Hallucination

1️⃣ 一句话总结

本文提出了FaithLens，一个高效、低成本的模型，它不仅能检测大语言模型输出中的忠实性幻觉，还能同时提供相应的解释，在多个任务上超越了GPT-4o等先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16144

arXiv 提交日期: 2025-12-18

llm model training systems mixture-of-experts reinforcement learning open-source infrastructure large-scale training benchmark evaluation

INTELLECT-3：技术报告 / INTELLECT-3: Technical Report

1️⃣ 一句话总结

这篇论文介绍了INTELLECT-3，一个拥有1060亿参数的高效混合专家模型，它通过大规模强化学习训练，在数学、代码、科学和推理等多个基准测试中取得了同规模模型的最佳性能，并且作者开源了完整的模型及配套的训练基础设施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13607

arXiv 提交日期: 2025-12-15

llm model training agents reinforcement learning reasoning models cascaded rl alignment benchmark evaluation

Nemotron-Cascade：为通用推理模型扩展级联强化学习 / Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一种名为“级联强化学习”的新方法，通过分领域、分阶段地训练AI模型，有效解决了通用推理模型在训练中面临的复杂性和效率问题，最终训练出的模型在多项编程和推理基准测试中超越了现有先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.11798

arXiv 提交日期: 2025-12-12

computer vision 3d vision model training 3d object articulation kinematic structure transformer network mesh processing benchmark evaluation

Particulate：一种用于三维物体关节结构推断的前馈方法 / Particulate: Feed-Forward 3D Object Articulation

1️⃣ 一句话总结

这篇论文提出了一个名为Particulate的前馈式AI模型，它能直接从单个静态3D物体模型中，快速推断出该物体的所有可动关节结构，包括部件划分、运动连接关系和约束条件，从而快速生成完整的可动3D模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.10359

arXiv 提交日期: 2025-12-11

multi-modal video agents video question answering spatiotemporal reasoning tool-augmented agents large multimodal models benchmark evaluation

STAR：一种用于视频问答的时空推理框架 / Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

1️⃣ 一句话总结

本文提出了一种名为STAR的免训练、用户友好的智能体推理框架，通过为大型多模态模型配备一个全面的视频工具包，并采用时空工具交替调用的策略，来渐进式定位视频中的关键三维区域，从而显著提升了复杂视频问答任务的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04987

arXiv 提交日期: 2025-12-04

agents systems model training agent training environment generation data pipeline tool use benchmark evaluation

Nex-N1：基于统一智能体生态系统的智能体规模化训练 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

1️⃣ 一句话总结

本文提出了一个名为Nex-N1的智能体模型，其核心贡献在于构建了一个统一的Nex生态系统，通过NexAU、NexA4A和NexGAP三个正交维度自动化生成多样化、复杂且保真的智能体交互环境与数据，解决了高质量训练数据稀缺的问题，并在多项基准测试中取得了超越开源SOTA模型、媲美前沿闭源模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20647

arXiv 提交日期: 2025-11-25

video generation aigc model training diverse generation determinantal point processes policy optimization text-to-video benchmark evaluation

基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为DPP-GRPO的新方法，通过结合行列式点过程和群体相对策略优化技术，有效提升了文本生成视频模型的输出多样性，确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20573

arXiv 提交日期: 2025-11-25

computer vision multi-modal model training visual question answering visual answering data generation benchmark evaluation image editing

VQ-VA World框架：面向视觉问答-视觉回答任务的数据中心化解决方案 / VQ-VA World: Towards High-Quality Visual Question-Visual Answering

1️⃣ 一句话总结

本文提出了VQ-VA World框架，通过智能数据构建管道收集180万高质量图像-文本样本，并发布IntelligentBench人工策划基准，显著提升了开源模型在视觉问答-视觉回答任务上的性能，缩小了与专有模型的差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18538

arXiv 提交日期: 2025-11-23

llm model training systems code generation software development model lifecycle benchmark evaluation fine-tuning

从代码基础模型到智能体与应用：代码智能实用指南 / From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

1️⃣ 一句话总结

这篇论文系统地梳理了代码大语言模型从数据准备到实际应用的全过程，通过一系列实验分析，为如何构建和优化能理解、生成代码的AI模型提供了实用指南，并指出了学术研究与实际软件开发需求之间的差距及未来方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16334

arXiv 提交日期: 2025-11-20

multi-modal model training model evaluation multimodal reasoning supervised fine-tuning reinforcement learning benchmark evaluation data curation

OpenMMReasoner：通过开放通用方法推动多模态推理前沿 / OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

1️⃣ 一句话总结

这项研究提出了一个完全透明的两阶段训练方法，通过精心构建的数据集和强化学习显著提升了多模态推理能力，在多个基准测试中比现有领先模型性能提升11.6%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.20182

1️⃣ 一句话总结

arXiv ID: 2512.16144

1️⃣ 一句话总结

arXiv ID: 2512.13607

1️⃣ 一句话总结

arXiv ID: 2512.11798

1️⃣ 一句话总结

arXiv ID: 2512.10359

1️⃣ 一句话总结

arXiv ID: 2512.04987

1️⃣ 一句话总结

arXiv ID: 2511.20647

1️⃣ 一句话总结

arXiv ID: 2511.20573

1️⃣ 一句话总结

arXiv ID: 2511.18538

1️⃣ 一句话总结

arXiv ID: 2511.16334

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.20182 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16144 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13607 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.11798 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.10359 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04987 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20647 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20573 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18538 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16334 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.20182

arXiv ID: 2512.16144

arXiv ID: 2512.13607

arXiv ID: 2512.11798

arXiv ID: 2512.10359

arXiv ID: 2512.04987

arXiv ID: 2511.20647

arXiv ID: 2511.20573

arXiv ID: 2511.18538

arXiv ID: 2511.16334