arXiv最新AI论文速览速学

🔍

标签: #robustness ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: MultiHedge: Adaptive Coordination via Retrieval-Augmented Control 05-02

arXiv ID: 2602.03415

arXiv 提交日期: 2026-02-03

theory machine learning model evaluation adversarial examples convolutional networks robustness random networks fourier analysis

大多数卷积神经网络都受到微小对抗性扰动的影响 / Most Convolutional Networks Suffer from Small Adversarial Perturbations

1️⃣ 一句话总结

这篇论文证明，即使是微小的、几乎无法察觉的输入扰动，也足以欺骗随机构建的卷积神经网络，并且这种‘对抗性攻击’可以通过简单的梯度下降一步实现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03689

arXiv 提交日期: 2026-02-03

llm natural language processing model training retrieval-augmented generation evidence selection reinforcement learning robustness question answering

重新思考重排序器：面向鲁棒检索增强生成的边界感知证据选择 / Rethinking the Reranker: Boundary-Aware Evidence Selection for Robust Retrieval-Augmented Generation

1️⃣ 一句话总结

这篇论文提出了一个名为BAR-RAG的新方法，它通过让重排序器像‘边界感知’的裁判一样，专门为文本生成器挑选‘难度适中’的参考资料，并利用生成器的反馈来训练这个选择器，从而显著提升了检索增强生成系统在面临不完美检索结果时的鲁棒性和最终答案质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01973

arXiv 提交日期: 2026-02-02

computer vision model evaluation machine learning ai-generated image detection distributional shift calibration bayesian decision theory robustness

你的AI生成图像检测器，如果经过校准，可以秘密地达到最先进的准确率 / Your AI-Generated Image Detector Can Secretly Achieve SOTA Accuracy, If Calibrated

1️⃣ 一句话总结

这篇论文发现现有的AI生成图像检测器在遇到新的生成方法时容易出错，并提出了一种无需重新训练、只需少量验证数据就能自动校准决策边界的方法，从而显著提升了检测器在实际应用中的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21653

arXiv 提交日期: 2026-01-29

machine learning theory model evaluation representation geometry feature curvature gauge invariance robustness geometric deep learning

规范不变的表征和乐 / Gauge-invariant representation holonomy

1️⃣ 一句话总结

这篇论文提出了一种名为‘表征和乐’的新方法，它通过测量神经网络内部特征在输入空间微小路径上的变化程度，来揭示传统相似性度量方法无法捕捉到的模型几何结构差异，并发现这种差异与模型的鲁棒性密切相关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19947

arXiv 提交日期: 2026-01-24

machine learning model training model evaluation noisy label learning sharpness-aware minimization loss landscape generalization robustness

面向噪声标签学习的噪声补偿锐度感知最小化方法 / NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning

1️⃣ 一句话总结

这篇论文提出了一种名为NCSAM的新方法，它通过理论分析和实验证明，巧妙地利用损失函数的平坦性来补偿训练数据中的标签噪声，从而在多个任务上比现有先进方法更鲁棒、泛化性能更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17087

arXiv 提交日期: 2026-01-23

llm agents benchmark agent evaluation user simulation evaluation bias human-ai interaction robustness

迷失在模拟中：LLM模拟用户在智能体评估中并非人类用户的可靠代理 / Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

1️⃣ 一句话总结

这篇论文通过跨国用户研究发现，用大语言模型模拟用户来评估AI助手性能并不可靠，它会错误估计AI的真实能力，并且对不同语言和文化背景的人群存在系统性偏差，可能导致评估结果失真。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16725

arXiv 提交日期: 2026-01-23

llm agents model training mixture of experts agentic reasoning reinforcement learning tool use robustness

LongCat-Flash-Thinking-2601 技术报告 / LongCat-Flash-Thinking-2601 Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为LongCat-Flash-Thinking-2601的先进开源大模型，它通过创新的混合专家架构和统一的训练框架，在理解和执行复杂任务、使用多种工具方面表现出色，并且特别擅长处理现实世界中混乱、多步骤的交互场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.12042

arXiv 提交日期: 2026-01-17

multi-modal model evaluation systems vision-language models adversarial attack token compression security vulnerability robustness

少即是多——直到它崩溃：大型视觉语言模型中视觉令牌压缩的安全隐患 / Less Is More -- Until It Breaks: Security Pitfalls of Vision Token Compression in Large Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，为了提高效率而在大型视觉语言模型中压缩视觉令牌，会严重削弱模型的抗干扰能力，使其在面对微小、不易察觉的输入扰动时更容易出错，从而揭示了一个此前被忽视的效率与安全之间的权衡问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09173

arXiv 提交日期: 2026-01-14

model evaluation machine learning theory representation analysis robustness geometric stability model auditing safety monitoring

几何稳定性：表征中缺失的维度 / Geometric Stability: The Missing Axis of Representations

1️⃣ 一句话总结

这篇论文提出了‘几何稳定性’这一新概念，用于衡量表征结构在受到扰动时的鲁棒性，并证明它与传统的相似性度量无关，为评估和改进机器学习及生物系统的表征提供了新的视角和实用工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.09028

arXiv 提交日期: 2026-01-13

llm natural language processing model evaluation retrieval-augmented generation document quality robustness query performance prediction noisy context

OpenDecoder：开放大语言模型解码以在RAG中融入文档质量 / OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG

1️⃣ 一句话总结

这篇论文提出了一种名为OpenDecoder的新方法，通过显式评估检索到的文档质量（如相关度、排名等指标）来指导大语言模型生成答案，从而提升检索增强生成系统的鲁棒性和效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.03415

1️⃣ 一句话总结

arXiv ID: 2602.03689

1️⃣ 一句话总结

arXiv ID: 2602.01973

1️⃣ 一句话总结

arXiv ID: 2601.21653

1️⃣ 一句话总结

arXiv ID: 2601.19947

1️⃣ 一句话总结

arXiv ID: 2601.17087

1️⃣ 一句话总结

arXiv ID: 2601.16725

1️⃣ 一句话总结

arXiv ID: 2601.12042

1️⃣ 一句话总结

arXiv ID: 2601.09173

1️⃣ 一句话总结

arXiv ID: 2601.09028

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.03415 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21653 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19947 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17087 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16725 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.12042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.09028 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.03415

arXiv ID: 2602.03689

arXiv ID: 2602.01973

arXiv ID: 2601.21653

arXiv ID: 2601.19947

arXiv ID: 2601.17087

arXiv ID: 2601.16725

arXiv ID: 2601.12042

arXiv ID: 2601.09173

arXiv ID: 2601.09028