arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 05-03

arXiv ID: 2604.11274

arXiv 提交日期: 2026-04-13

systems machine learning model evaluation approximate nearest neighbor streaming index vector search graph algorithms high-dimensional data

菌丝体索引：一种具有菌丝边缘衰减、流量驱动强化和自适应活体层次结构的流式近似最近邻索引 / Mycelium-Index: A Streaming Approximate Nearest Neighbor Index with Myelial Edge Decay, Traffic-Driven Reinforcement, and Adaptive Living Hierarchy

1️⃣ 一句话总结

这篇论文受生物菌丝体启发，提出了一种新型的流式近似最近邻索引，它通过动态调整内部连接结构，在保持高查询准确率的同时，大幅降低了内存占用并提升了查询速度，尤其适合处理持续变化的高维数据流。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12115

arXiv 提交日期: 2026-04-13

llm multi-modal model evaluation hallucination mitigation vision-language models decoding calibration training-free method hesitation detection

HTDC：基于犹豫触发的差分校准，用于减轻大型视觉语言模型中的幻觉问题 / HTDC: Hesitation-Triggered Differential Calibration for Mitigating Hallucination in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为HTDC的新方法，它通过智能检测模型在生成回答时的‘犹豫’信号，只在模型可能产生幻觉的关键步骤进行轻量级校准，从而有效减少大型视觉语言模型‘胡说八道’的问题，同时保持了计算效率和回答的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12128

arXiv 提交日期: 2026-04-13

llm theory model evaluation self-reference internal dynamics attention mechanism matrix analysis model stability

当自指涉无法闭合时：大语言模型中的矩阵级动态 / When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models

1️⃣ 一句话总结

这篇论文研究发现，当大语言模型处理无法得出确定真值的自指涉语句时，其内部注意力机制等矩阵动态会发生显著重组和异常，而非简单的崩溃，这揭示了模型处理特定逻辑悖论时的内在工作机制与潜在故障模式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11589

arXiv 提交日期: 2026-04-13

llm model evaluation multi-modal evaluation bias multimodal llm benchmark self-preference ensemble methods

MLLM作为评判者表现出模型偏好偏见 / MLLM-as-a-Judge Exhibits Model Preference Bias

1️⃣ 一句话总结

这项研究发现，使用多模态大语言模型自动评估其他模型时，会存在明显的‘自恋’偏见，即倾向于给与自己同源或相似的模型打高分，从而可能扭曲模型比较结果，而作者提出的简单集成方法能有效缓解这种偏见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12137

arXiv 提交日期: 2026-04-13

medical machine learning model evaluation causal inference survival analysis observational data confounding adjustment treatment effect estimation

通过其效应观测未观测的混杂：从真实世界生存数据中获取类随机试验估计 / Observing the unobserved confounding through its effects: toward randomized trial-like estimates from real-world survival data

1️⃣ 一句话总结

该研究提出了一种新方法，通过从患者生存时间差异中推断一个隐藏的预后因子并进行平衡，有效减少了真实世界观察性数据中未观测混杂因素的影响，从而让治疗效果估计更接近随机对照试验的结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11468

arXiv 提交日期: 2026-04-13

computer vision model training model evaluation image denoising data-centric training test-time augmentation self-ensemble restormer

超越模型设计：面向高斯彩色图像去噪的数据中心化训练与自集成方法 / Beyond Model Design: Data-Centric Training and Self-Ensemble for Gaussian Color Image Denoising

1️⃣ 一句话总结

这篇论文没有设计新模型，而是通过使用更大规模的多样化数据集进行两阶段训练，并在测试时采用几何自集成技术，显著提升了现有成熟图像去噪模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11036

arXiv 提交日期: 2026-04-13

natural language processing llm model evaluation fact-checking uncertainty quantification evidence retrieval scientific claims interpretability

基于不确定性感知与网络条件约束的科学事实核查 / Uncertainty-Aware Web-Conditioned Scientific Fact-Checking

1️⃣ 一句话总结

这篇论文提出了一种新的科学事实核查方法，它将复杂的科学论断拆解成原子事实进行逐一验证，并引入一个基于不确定度评估的智能开关，仅在必要时才去联网搜索权威证据，从而在保证核查准确性和可解释性的同时，有效控制了计算成本和响应延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11025

arXiv 提交日期: 2026-04-13

multi-modal llm model evaluation multimodal reasoning test-time scaling perceptual uncertainty visual grounding iterative refinement

测试时感知扩展：解决“图像思维”中的定位悖论 / Test-time Scaling over Perception: Resolving the Grounding Paradox in Thinking with Images

1️⃣ 一句话总结

这篇论文提出了一种名为TTSP的新方法，通过让AI模型在推理时像人类一样“多角度观察、筛选信息、整合知识并聚焦疑点”，有效解决了现有多模态模型在需要精细视觉推理时面临的“先看哪里”的决策困境，从而显著提升了其理解和分析复杂图像的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11560

arXiv 提交日期: 2026-04-13

biology audio model evaluation bioacoustics deep learning software package model benchmarking audio embeddings

bacpipe：一个使生物声学深度学习模型易于使用的Python软件包 / bacpipe: a Python package to make bioacoustic deep learning models accessible

1️⃣ 一句话总结

这篇论文介绍了一个名为bacpipe的Python工具包，它通过图形和编程界面整合了先进的生物声学深度学习模型与评估流程，旨在让生态学家和计算机科学家都能轻松使用这些模型来分析海量的自然声音数据，从而推动生态学研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11287

arXiv 提交日期: 2026-04-13

llm medical model evaluation exercise prescription output consistency clinical validation safety evaluation ai reliability

AI生成运动处方的稳定性：一项使用大语言模型的重复生成研究 / Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

1️⃣ 一句话总结

这项研究发现，大语言模型生成的个性化运动处方在整体语义上很稳定，但在关键的强度、时长等具体数值上存在波动，其可靠性高度依赖于提问方式，因此需要额外约束和专家审核才能用于临床。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.11274

1️⃣ 一句话总结

arXiv ID: 2604.12115

1️⃣ 一句话总结

arXiv ID: 2604.12128

1️⃣ 一句话总结

arXiv ID: 2604.11589

1️⃣ 一句话总结

arXiv ID: 2604.12137

1️⃣ 一句话总结

arXiv ID: 2604.11468

1️⃣ 一句话总结

arXiv ID: 2604.11036

1️⃣ 一句话总结

arXiv ID: 2604.11025

1️⃣ 一句话总结

arXiv ID: 2604.11560

1️⃣ 一句话总结

arXiv ID: 2604.11287

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.11274 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12115 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12128 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11589 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12137 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11468 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11025 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11560 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11287 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.11274

arXiv ID: 2604.12115

arXiv ID: 2604.12128

arXiv ID: 2604.11589

arXiv ID: 2604.12137

arXiv ID: 2604.11468

arXiv ID: 2604.11036

arXiv ID: 2604.11025

arXiv ID: 2604.11560

arXiv ID: 2604.11287