arXiv最新AI论文速览速学

🔍

natural language processing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: A Quantitative Confirmation of the Currier Language Distinction 05-03

arXiv ID: 2604.03877

arXiv 提交日期: 2026-04-04

llm natural language processing model evaluation analogical reasoning probing internal representations narrative understanding abstraction

当模型所知多于所言：探究大语言模型中的类比推理能力 / When Models Know More Than They Say: Probing Analogical Reasoning in LLMs

1️⃣ 一句话总结

这篇论文通过比较大语言模型内部表征与提示回答的表现，发现模型在某些类比推理任务中，其内部实际掌握的信息远超其通过常规提示所能表达出来的内容，揭示了模型信息提取能力与任务类型密切相关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01562

arXiv 提交日期: 2026-04-02

audio natural language processing model evaluation voice cloning accent preservation speaker similarity intelligibility perceptual evaluation

标准与带口音中文语音及其语音克隆之间的声学与感知差异 / Acoustic and perceptual differences between standard and accented Chinese speech and their voice clones

1️⃣ 一句话总结

这项研究发现，语音克隆技术在处理带口音的普通话时，虽然客观声学差异不大，但克隆语音在听感上与原声的相似度会降低，同时其清晰度反而会得到比标准语音更大的提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01924

arXiv 提交日期: 2026-04-02

medical natural language processing multi-modal mortality prediction multimodal fusion clinical text electronic health records transformer models

仅有临床文本足够吗？关于心力衰竭患者死亡率预测的多模态研究 / Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients

1️⃣ 一句话总结

这项研究发现，在预测心力衰竭患者短期死亡率时，结合临床文本和结构化数据的多模态模型效果最好，而当前的大型语言模型在临床应用上仍有局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02280

arXiv 提交日期: 2026-04-02

agents systems natural language processing memory management forgetting mechanisms conversational agents long-horizon reasoning adaptive memory

面向自主AI智能体的新型记忆遗忘技术：平衡相关性与效率 / Novel Memory Forgetting Techniques for Autonomous AI Agents: Balancing Relevance and Efficiency

1️⃣ 一句话总结

这篇论文提出了一种自适应的、有预算的记忆遗忘框架，通过智能地选择性地遗忘不重要的旧记忆，让长期对话AI在保持推理能力的同时，避免因记忆无限增长而导致的性能下降和错误记忆问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01652

arXiv 提交日期: 2026-04-02

llm model evaluation natural language processing claim verification reasoning models interpretability model fine-tuning fact-checking

ThinknCheck：基于紧凑、推理驱动且可解释模型的事实核查 / ThinknCheck: Grounded Claim Verification with Compact, Reasoning-Driven, and Interpretable Models

1️⃣ 一句话总结

这篇论文提出了一个名为ThinknCheck的小型AI模型，它通过先生成简短推理步骤再给出结论的方式，能够高效、准确地验证事实陈述，并且在性能和可解释性上超越了更大的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01657

arXiv 提交日期: 2026-04-02

llm model evaluation natural language processing claim verification reasoning analysis dataset bias benchmark evaluation evidence extraction

事实核查数据集究竟在测试什么？一项推理路径分析 / What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis

1️⃣ 一句话总结

这篇论文通过分析九个主流事实核查数据集发现，现有基准测试主要考察的是信息检索和简单匹配能力，而真正需要多句信息整合、数值推理等复杂推理能力的任务则严重不足，导致模型的高分并不能反映其真正的推理水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01989

arXiv 提交日期: 2026-04-02

multi-modal model evaluation natural language processing visual attention hallucination mitigation multimodal llms cognitive inference attention analysis

静止的注意力保持静止：打破视觉惯性以缓解认知幻觉 / Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation

1️⃣ 一句话总结

这篇论文发现多模态大语言模型中的视觉注意力存在‘惯性’问题，即注意力一旦在解码初期固定就难以动态转移，导致模型难以进行物体间关系推理而产生‘认知幻觉’，并提出了一种无需训练的方法来打破这种惯性，有效缓解了此类幻觉。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02324

arXiv 提交日期: 2026-04-02

llm model training natural language processing vocabulary extension token initialization embedding learning generative recommendation fine-tuning

面向生成式推荐的语言模型新词汇表接地初始化 / Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation

1️⃣ 一句话总结

这篇论文发现，用均值初始化语言模型的新词汇会导致其语义特征模糊，难以被后续微调有效区分，并提出了一种简单有效的‘接地初始化’方法，即利用语言描述将新词汇预先映射到有意义的语义空间位置，从而在生成式推荐任务中显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02230

arXiv 提交日期: 2026-04-02

llm model evaluation natural language processing abstention reasoning trace hallucination detection query misalignment model reliability

回答错误的问题：基于推理轨迹反演的大语言模型弃答机制 / Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为‘推理轨迹反演’的新方法，通过比较大语言模型实际回答的问题与原始问题的差异，来更准确地判断模型何时应该‘弃答’（即不回答），从而显著提升了模型在复杂任务中的自知之明和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01957

arXiv 提交日期: 2026-04-02

llm benchmark natural language processing translation quality automated evaluation dataset cleaning comet metric multilingual benchmarks

诊断翻译基准：对EU20基准套件的自动化质量保证研究 / Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite

1️⃣ 一句话总结

这篇论文通过一套自动化质量保证方法，系统地评估了机器翻译基准数据集的质量，发现翻译质量较低的基准数据集中包含更多错误，并发布了清洗后的数据集和工具，为大规模验证翻译可靠性提供了实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.03877

1️⃣ 一句话总结

arXiv ID: 2604.01562

1️⃣ 一句话总结

arXiv ID: 2604.01924

1️⃣ 一句话总结

arXiv ID: 2604.02280

1️⃣ 一句话总结

arXiv ID: 2604.01652

1️⃣ 一句话总结

arXiv ID: 2604.01657

1️⃣ 一句话总结

arXiv ID: 2604.01989

1️⃣ 一句话总结

arXiv ID: 2604.02324

1️⃣ 一句话总结

arXiv ID: 2604.02230

1️⃣ 一句话总结

arXiv ID: 2604.01957

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.03877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01562 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01924 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02280 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01652 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01989 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02324 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01957 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.03877

arXiv ID: 2604.01562

arXiv ID: 2604.01924

arXiv ID: 2604.02280

arXiv ID: 2604.01652

arXiv ID: 2604.01657

arXiv ID: 2604.01989

arXiv ID: 2604.02324

arXiv ID: 2604.02230

arXiv ID: 2604.01957