arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 05-03

arXiv ID: 2511.11005

arXiv 提交日期: 2025-11-14

multi-modal agents model evaluation visual grounding hallucination reduction vqa image captioning utilization metric

借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts

1️⃣ 一句话总结

这项研究提出了一种新方法，通过量化模型对图像信息的依赖程度并引入视觉专家反馈，有效减少了大型视觉语言模型在回答时凭空捏造内容的问题，从而提高了答案的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.10899

arXiv 提交日期: 2025-11-14

llm model evaluation agents tool-augmented reasoning reasoning hallucinations code interpreter mathematical reasoning preference optimization

从证明到程序：揭示大型语言模型中工具引发的推理幻觉 / From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

1️⃣ 一句话总结

这项研究发现，尽管使用代码解释器等外部工具能提升语言模型的答案准确率，但会导致模型过度依赖工具输出而忽视逻辑推理过程，产生看似正确但缺乏合理性的解决方案，研究者通过优化方法成功改善了这一问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.09611

arXiv 提交日期: 2025-11-12

multi-modal model training model evaluation diffusion models cross-modal alignment reasoning-aware generation reinforcement learning benchmark evaluation

MMaDA-并行：用于思维感知编辑与生成的多模态大扩散语言模型 / MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

1️⃣ 一句话总结

这项研究提出了一种并行多模态扩散框架，通过让文本和图像在生成过程中持续双向交互，有效解决了传统序列模型因错误传播导致的图文不一致问题，显著提升了思维感知图像合成的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.09554

arXiv 提交日期: 2025-11-12

computer vision model training model evaluation object detection neural architecture search real-time detection transformers accuracy-latency tradeoff

RF-DETR：面向实时检测Transformer的神经架构搜索 / RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

1️⃣ 一句话总结

这篇论文提出了RF-DETR，一种通过神经架构搜索自动寻找最佳速度和精度平衡的轻量级目标检测模型，在多个数据集上显著超越了现有实时检测方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07885

arXiv 提交日期: 2025-11-11

llm systems model evaluation energy efficiency local inference performance benchmarking edge computing model acceleration

智能每瓦特：衡量本地人工智能的智能效率 / Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

1️⃣ 一句话总结

这篇论文提出用‘智能每瓦特’作为核心指标，证明通过小型语言模型和本地硬件协同处理AI任务，能够高效分担云端计算压力，并显著提升能效和实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07413

arXiv 提交日期: 2025-11-10

agents model training model evaluation mobile control dataset benchmark evaluation protocols ai agents

DigiData：通用移动控制智能体的训练与评估 / DigiData: Training and Evaluating General-Purpose Mobile Control Agents

1️⃣ 一句话总结

这篇论文提出了一个高质量、多样化的移动控制智能体训练数据集DigiData，并创建了配套的评估基准DigiData-Bench，通过更可靠的动态和AI驱动评估方法，推动能执行复杂任务的通用移动控制智能体的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07250

arXiv 提交日期: 2025-11-10

multi-modal model evaluation benchmark multi-video understanding multimodal llms evaluation benchmark video reasoning cross-video analysis

MVU-Eval：面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了首个多视频理解评估基准MVU-Eval，通过涵盖近5000个视频的1800多个问题，系统评估多模态大模型在跨视频感知与推理方面的能力，揭示了现有模型在处理多视频任务时的显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07137

arXiv 提交日期: 2025-11-10

multi-modal model evaluation computer vision music-visual coherence perceptual assessment preference optimization cross-modal fusion dataset creation

MPJudge：面向音乐诱导绘画的感知评估 / MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

1️⃣ 一句话总结

本文提出了一种评估音乐与绘画感知一致性的新方法MPJudge，通过构建首个大规模专家标注数据集和引入偏好优化训练，有效解决了现有方法依赖情绪识别而忽略更广泛感知线索的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07025

arXiv 提交日期: 2025-11-10

natural language processing model training model evaluation text embedding multilingual cross-lingual synthetic data contrastive learning

Llama-Embed-Nemotron-8B：面向多语言与跨语言任务的通用文本嵌入模型 / Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

1️⃣ 一句话总结

这篇论文提出了一个开源的通用文本嵌入模型，通过在多语言任务中实现顶尖性能并公开模型权重与训练细节，为检索、分类等任务提供了灵活高效的解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.06805

arXiv 提交日期: 2025-11-10

multi-modal model training model evaluation mathematical reasoning multimodal llms iterative refinement reward modeling self-evolving learning

MathSE：通过自演进迭代反思与奖励引导微调提升多模态数学推理能力 / MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

1️⃣ 一句话总结

这篇论文提出了一个名为MathSE的自演进框架，通过推理、反思和奖励反馈的循环迭代，显著提升了多模态大语言模型在复杂数学问题上的解决能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.11005

1️⃣ 一句话总结

arXiv ID: 2511.10899

1️⃣ 一句话总结

arXiv ID: 2511.09611

1️⃣ 一句话总结

arXiv ID: 2511.09554

1️⃣ 一句话总结

arXiv ID: 2511.07885

1️⃣ 一句话总结

arXiv ID: 2511.07413

1️⃣ 一句话总结

arXiv ID: 2511.07250

1️⃣ 一句话总结

arXiv ID: 2511.07137

1️⃣ 一句话总结

arXiv ID: 2511.07025

1️⃣ 一句话总结

arXiv ID: 2511.06805

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.11005 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.10899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.09611 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.09554 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07885 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07413 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07250 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07137 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.06805 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.11005

arXiv ID: 2511.10899

arXiv ID: 2511.09611

arXiv ID: 2511.09554

arXiv ID: 2511.07885

arXiv ID: 2511.07413

arXiv ID: 2511.07250

arXiv ID: 2511.07137

arXiv ID: 2511.07025

arXiv ID: 2511.06805