arXiv最新AI论文速览速学

🔍

标签: #arithmetic reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 127 72小时内新更新论文 72h更新 227 最新: Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks 06-03

arXiv ID: 2606.03606

arXiv 提交日期: 2026-06-02

llm natural language processing model evaluation arithmetic reasoning robustness adversarial attack generalization benchmark

测试大语言模型算术推理的泛化能力：基于自动数值重映射的攻击方法 / Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks

1️⃣ 一句话总结

本文提出了一种自动化的数值重映射攻击方法，通过在不改变问题逻辑结构的前提下替换其中的数字，来评估大语言模型在算术推理任务中的脆弱性；实验发现，模型在复杂数据集（如GSM8K）上表现显著下降，而在更简洁的数据集上则保持稳定，表明模型的数值推理泛化能力依赖于数据集的结构复杂度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.22870

arXiv 提交日期: 2026-05-20

llm model evaluation chain-of-thought arithmetic reasoning positional shortcut answer copying faithfulness

读出捷径：在小语言模型的算术思维链中，位置数字复制主导了答案提取 / The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models

1️⃣ 一句话总结

该研究发现，在小型语言模型处理算术问题时，所谓的“思维链”推理过程其实并未真正用于计算，模型只是通过一种位置捷径——直接复制出现在答案分隔符之前的最后一个数字——来给出最终答案，这一复制行为在绝大多数情况下决定了正确性，而中间推理步骤的实际逻辑作用微乎其微。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18203

arXiv 提交日期: 2026-04-20

llm multi-modal model evaluation arithmetic reasoning multimodal benchmark computation vs perception heuristic analysis multi-digit multiplication

多模态大语言模型中的乘法运算：基于文本、图像和音频输入的计算 / Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

1️⃣ 一句话总结

这篇论文发现，尽管多模态大模型能准确识别不同形式（如文字、图片、声音）的数字，但在执行精确的多位数乘法运算时却普遍失败，其根本原因在于模型的计算能力不足，而非感知能力有缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23004

arXiv 提交日期: 2026-03-24

llm model evaluation systems constrained optimization optimal power flow reasoning evaluation structured input arithmetic reasoning

大型语言模型能在约束条件下进行推理和优化吗？ / Can Large Language Models Reason and Optimize Under Constraints?

1️⃣ 一句话总结

这篇论文通过测试大型语言模型解决电力系统最优潮流这一复杂的约束优化问题，发现当前最先进的模型在结构化推理和约束处理方面存在显著不足，揭示了它们在应对现实世界工程优化任务时的能力缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.03606

1️⃣ 一句话总结

arXiv ID: 2605.22870

1️⃣ 一句话总结

arXiv ID: 2604.18203

1️⃣ 一句话总结

arXiv ID: 2603.23004

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.03606 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.22870 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23004 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.03606

arXiv ID: 2605.22870

arXiv ID: 2604.18203

arXiv ID: 2603.23004