arXiv最新AI论文速览速学

🔍

natural language processing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: What Kind of Language is Easy to Language-Model Under Curriculum Learning? 05-02

arXiv ID: 2604.25737

arXiv 提交日期: 2026-04-28

llm agents natural language processing multi-agent code editing benchmark hallucination reduction iterative refinement

SAFEdit：多智能体分解能否解决指令式代码编辑的可靠性挑战？ / SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?

1️⃣ 一句话总结

本研究提出SAFEdit，一个由规划、编辑和验证三个专门智能体协作的多智能体框架，通过将代码编辑任务分解为不同角色并引入结构化错误诊断机制，显著提升了指令式代码编辑的可靠性，在EditBench基准上将成功率从低于60%提升至68.6%，并有效减少了代码编辑中的指令幻觉问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25325

arXiv 提交日期: 2026-04-28

natural language processing agents model training text-to-sql ranking resampling execution accuracy candidate generation

R³-SQL：基于排序奖励与重采样的文本到SQL框架 / R$^3$-SQL: Ranking Reward and Resampling for Text-to-SQL

1️⃣ 一句话总结

该论文提出了一种名为R³-SQL的新方法，通过将执行结果相同的候选SQL语句分组评分，并智能判断何时需要重新生成更多候选方案，解决了现有文本转SQL系统中评分不一致和正确答案缺失的问题，在多个测试基准上取得了领先效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25130

arXiv 提交日期: 2026-04-28

natural language processing model evaluation llm summarization question-answering evaluation metric feedback-driven refinement long document

LongSumEval：基于问答的长文档摘要评估与反馈驱动改进方法 / LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization

1️⃣ 一句话总结

本论文提出一个统一框架，通过问答形式来评估长文档摘要的质量，不仅能给出分数，还能提供具体改进建议，帮助模型自动修正错误，从而让摘要更准确、更可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25441

arXiv 提交日期: 2026-04-28

audio natural language processing machine learning text-to-speech indic tts voice-prompt recovery phoneme space lora adapter

Praxy Voice：基于冻结的非印度语言基座模型，零商业训练数据实现商业级印度语言语音合成 / Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

1️⃣ 一句话总结

本研究提出了一种方法，仅通过改进文本编码和语音提示恢复策略，无需训练新的声学解码器或使用任何商业语音数据，就能让一个原本不支持印度语言的强大多语言语音合成模型（Chatterbox）在泰卢固语、泰米尔语和印地语上达到甚至超过商业系统的音质水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25423

arXiv 提交日期: 2026-04-28

llm natural language processing multi-modal embodied cognition cultural variation demonstratives cross-linguistic evaluation

大语言模型能否捕捉具身认知与文化差异？来自指示词的跨语言证据 / Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

1️⃣ 一句话总结

该研究通过对比人类（英语和汉语母语者）与大语言模型在使用“这个/那个”类指示词时的空间认知差异，发现大语言模型不仅无法理解基础的远近空间概念，也缺乏人类特有的跨文化视角切换能力，揭示了当前模型在具身认知和文化理解上的深层局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25297

arXiv 提交日期: 2026-04-28

llm natural language processing model training legal domain korean domain specialization dataset construction use-case driven

LegalMidm：基于用例驱动的韩国法律领域大语言模型专业化方法 / LegalMidm: Use-Case-Driven Legal Domain Specialization for Korean Large Language Model

1️⃣ 一句话总结

针对法律领域对精准性和可靠性的高要求，本文提出了一种面向韩国法律的实际用例驱动训练框架，通过与法律专家合作构建高质量数据集和优化训练流程，开发了专用大语言模型LegalMidm，有效提升了法律关键任务的实际表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25665

arXiv 提交日期: 2026-04-28

llm natural language processing evaluation summarization self-evaluation benchmark legal document meta-evaluation

LLM-ReSum：一种通过自我评估实现大语言模型反思式摘要的框架 / LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

1️⃣ 一句话总结

本研究通过系统评估14种摘要评价指标，发现传统指标与人工判断相关性弱，而基于大语言模型的评估器更准确，并据此提出LLM-ReSum框架——让模型在无需微调的情况下，通过自我评估和反馈循环不断改进生成的摘要，在事实准确性和内容覆盖率上分别提升高达33%和39%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25580

arXiv 提交日期: 2026-04-28

natural language processing llm model evaluation toxicity measurement perspective api benchmark dependency reproducibility measurement infrastructure

告别Perspective API：NLP、CSS与LLM评估中测量基础设施的教训 / Bye Bye Perspective API: Lessons for Measurement Infrastructure in NLP, CSS and LLM Evaluation

1️⃣ 一句话总结

本文以Perspective API关闭为契机，批判性地分析了NLP、CSS和LLM评估领域过度依赖单一商业毒性测量工具所带来的不可复现、概念模糊及标准失当等问题，并呼吁建立独立、有效、可适应、可复现的新型测量基础设施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24361

arXiv 提交日期: 2026-04-27

llm natural language processing benchmark machine translation culture-aware evaluation framework dataset translation strategies

大型语言模型中的文化感知机器翻译：基准测试与探究 / Culture-Aware Machine Translation in Large Language Models: Benchmarking and Investigation

1️⃣ 一句话总结

本研究提出了一个专门用于评估机器翻译中文化感知能力的数据集CanMT和一套多维评价框架，通过系统测试多种大语言模型发现，模型在处理文化特有词汇时存在显著性能差异，且虽然能识别文化知识，但难以正确将其应用于翻译输出，而加入参考翻译能显著提升评估可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.23993

arXiv 提交日期: 2026-04-27

reinforcement learning natural language processing agents e-commerce product mapping model distillation parameter-efficient fine-tuning reasoning

EPM-RL：面向电商内部部署的产品映射强化学习方法 / EPM-RL: Reinforcement Learning for On-Premise Product Mapping in E-Commerce

1️⃣ 一句话总结

本文提出EPM-RL框架，通过强化学习将昂贵的大模型推理能力蒸馏到小型本地模型中，在保证产品映射准确性的同时大幅降低部署成本和延迟，使得电商平台可以安全、高效地在内部服务器上运行产品匹配系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25737

1️⃣ 一句话总结

arXiv ID: 2604.25325

1️⃣ 一句话总结

arXiv ID: 2604.25130

1️⃣ 一句话总结

arXiv ID: 2604.25441

1️⃣ 一句话总结

arXiv ID: 2604.25423

1️⃣ 一句话总结

arXiv ID: 2604.25297

1️⃣ 一句话总结

arXiv ID: 2604.25665

1️⃣ 一句话总结

arXiv ID: 2604.25580

1️⃣ 一句话总结

arXiv ID: 2604.24361

1️⃣ 一句话总结

arXiv ID: 2604.23993

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25325 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25441 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25423 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25297 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25580 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24361 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.23993 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25737

arXiv ID: 2604.25325

arXiv ID: 2604.25130

arXiv ID: 2604.25441

arXiv ID: 2604.25423

arXiv ID: 2604.25297

arXiv ID: 2604.25665

arXiv ID: 2604.25580

arXiv ID: 2604.24361

arXiv ID: 2604.23993