arXiv最新AI论文速览速学

🔍

标签: #error analysis ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 54 72小时内新更新论文 72h更新 54 最新: Reasoning as Pattern Matching: Shared Mechanisms in Human and LLM Everyday Reasoning 06-12

arXiv ID: 2606.13607

arXiv 提交日期: 2026-06-11

llm cognitive science reasoning pattern matching common-sense reasoning human comparison attention mechanism error analysis

推理即模式匹配：人类与大语言模型在日常推理中的共享机制 / Reasoning as Pattern Matching: Shared Mechanisms in Human and LLM Everyday Reasoning

1️⃣ 一句话总结

该论文通过实验发现，人类和大型语言模型在日常推理中都会犯类似的错误，并且这些错误源于一种基于表面信息（如无关关键词）的模式匹配机制，而非人们通常认为的抽象世界模型推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09662

arXiv 提交日期: 2026-06-08

llm model evaluation behavior instruction following reasoning models error analysis constraint types activation patching

内置思考何时有益或有害：指令遵循中的约束级错误偏移 / When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following

1️⃣ 一句话总结

该研究发现，大型推理模型的“思考”模式虽然整体上对指令遵循的准确率影响不大，但会导致不同类型的约束错误发生系统性偏移：对涉及全局规划和结构的约束（如计数、协调）有所改善，对要求精确局部形式的约束（如特定格式）反而变差，且这一现象在不同模型中普遍存在。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.21260

arXiv 提交日期: 2026-05-20

llm theory chain of thought learning theory error analysis reasoning risk

链式思维的成本与收益：一个学习理论视角 / On the Cost and Benefit of Chain of Thought: A Learning-Theoretic Perspective

1️⃣ 一句话总结

本文从学习理论角度建立了一个框架，将链式思维分解为“收益”（通过优化推理路径降低风险）和“成本”（错误在推理链中累积），并严格证明了当模型或推理规则不稳定时，成本可能无限大，而稳定性则决定了错误是线性增长还是指数爆炸，从而揭示了链式思维何时有效、何时失效的根本条件。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17745

arXiv 提交日期: 2026-05-18

machine learning model training model evaluation quantization error analysis low-precision networks training stability

神经网络的统计量化器优化方法 / StatQAT: Statistical Quantizer Optimization for Deep Networks

1️⃣ 一句话总结

这篇论文提出了一套基于统计误差分析的方法，能够自动为深度神经网络选择最优的量化参数（如整数或浮点精度），从而在降低计算开销的同时提升模型训练的准确性和稳定性，使低精度推理更加高效可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27533

arXiv 提交日期: 2026-04-30

natural language processing model evaluation audio speech recognition rescoring language models error analysis semantic metrics

语音识别中语言模型重新评分方法的定性评估 / Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

1️⃣ 一句话总结

本文提出两种新的评估指标——词性错误率和嵌入错误率，分别从语法和语义角度分析语言模型在语音识别后处理中的实际贡献，弥补了传统词错误率仅关注替换、删除和插入错误数量而忽略语言质量的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18555

arXiv 提交日期: 2026-04-20

model training theory machine learning quantization error analysis randomized algorithms compression

关于TurboQuant与早期DRIVE/EDEN系列工作的说明 / A Note on TurboQuant and the Earlier DRIVE/EDEN Line of Work

1️⃣ 一句话总结

这篇论文澄清了近期TurboQuant量化方法与早期EDEN系列工作的关系，指出TurboQuant是EDEN在特定参数下的子集或次优组合，并通过实验证明优化后的EDEN方法在精度上全面优于TurboQuant。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07955

arXiv 提交日期: 2026-04-09

llm model training machine learning quantization weight compensation model compression error analysis large language models

重新思考基于补偿的大语言模型量化中的残差误差 / Rethinking Residual Errors in Compensation-based LLM Quantization

1️⃣ 一句话总结

这篇论文发现并修正了现有大语言模型量化方法中一个关键的校准目标偏差，通过将量化模型的输出更精确地对齐原始高精度模型，并引入“补偿感知误差”的概念，显著提升了量化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12133

arXiv 提交日期: 2026-03-12

llm benchmark model evaluation topological reasoning spatial reasoning chain of thought error analysis puzzle solving

TopoBench：针对大语言模型在复杂拓扑推理任务上的基准测试 / TopoBench: Benchmarking LLMs on Hard Topological Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为TopoBench的基准测试，用于评估大语言模型在解决涉及连通性、环路闭合等复杂空间关系的拓扑谜题时的能力，研究发现当前最先进的模型在难题上表现不佳，其核心瓶颈主要在于从空间表示中提取约束条件，而非对这些约束进行推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09232

arXiv 提交日期: 2026-03-10

audio model evaluation natural language processing contrastive decoding audio language models error analysis inference optimization transition matrix

对比解码如何增强大型音频语言模型？ / How Contrastive Decoding Enhances Large Audio Language Models?

1️⃣ 一句话总结

这项研究通过系统评估发现，对比解码技术能有效纠正大型音频语言模型中‘否认音频存在’或‘依赖猜测’的错误，但无法修正逻辑推理错误，从而为根据模型自身错误特点选择合适的增强策略提供了清晰指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09095

arXiv 提交日期: 2026-03-10

multi-modal llm model evaluation modality gap visual text understanding self-distillation benchmark error analysis

阅读而非思考：理解并弥合多模态大语言模型中文本图像化时的模态鸿沟 / Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

1️⃣ 一句话总结

这篇论文发现，当文本以图像形式输入时，多模态大语言模型会因字体、分辨率等视觉因素导致“阅读”能力下降，尤其是在数学任务上，而通过一种自蒸馏训练方法，可以让模型基于图像输入恢复出接近纯文本模式的推理能力，从而显著提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13607

1️⃣ 一句话总结

arXiv ID: 2606.09662

1️⃣ 一句话总结

arXiv ID: 2605.21260

1️⃣ 一句话总结

arXiv ID: 2605.17745

1️⃣ 一句话总结

arXiv ID: 2604.27533

1️⃣ 一句话总结

arXiv ID: 2604.18555

1️⃣ 一句话总结

arXiv ID: 2604.07955

1️⃣ 一句话总结

arXiv ID: 2603.12133

1️⃣ 一句话总结

arXiv ID: 2603.09232

1️⃣ 一句话总结

arXiv ID: 2603.09095

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13607 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09662 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.21260 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17745 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18555 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07955 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12133 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09232 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09095 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13607

arXiv ID: 2606.09662

arXiv ID: 2605.21260

arXiv ID: 2605.17745

arXiv ID: 2604.27533

arXiv ID: 2604.18555

arXiv ID: 2604.07955

arXiv ID: 2603.12133

arXiv ID: 2603.09232

arXiv ID: 2603.09095