arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: MultiHedge: Adaptive Coordination via Retrieval-Augmented Control 05-02

arXiv ID: 2604.25120

arXiv 提交日期: 2026-04-28

medical llm agents clinical trials table reasoning hybrid planning ellm planning

诊断：糟糕的规划与推理；治疗：SCOPE——面向临床试验数据的混合查询规划方案 / Diagnosis, Bad Planning & Reasoning. Treatment, SCOPE -- Planning for Hybrid Querying over Clinical Trial Data

1️⃣ 一句话总结

本文针对大型语言模型在处理临床试验表格时因缺乏显式规划而导致推理错误的问题，提出了一种名为SCOPE的多智能体规划框架，通过将任务拆解为行选择、结构化规划与执行三个步骤，显著提升了在复杂属性推理上的准确率与效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25423

arXiv 提交日期: 2026-04-28

llm natural language processing multi-modal embodied cognition cultural variation demonstratives cross-linguistic evaluation

大语言模型能否捕捉具身认知与文化差异？来自指示词的跨语言证据 / Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

1️⃣ 一句话总结

该研究通过对比人类（英语和汉语母语者）与大语言模型在使用“这个/那个”类指示词时的空间认知差异，发现大语言模型不仅无法理解基础的远近空间概念，也缺乏人类特有的跨文化视角切换能力，揭示了当前模型在具身认知和文化理解上的深层局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25297

arXiv 提交日期: 2026-04-28

llm natural language processing model training legal domain korean domain specialization dataset construction use-case driven

LegalMidm：基于用例驱动的韩国法律领域大语言模型专业化方法 / LegalMidm: Use-Case-Driven Legal Domain Specialization for Korean Large Language Model

1️⃣ 一句话总结

针对法律领域对精准性和可靠性的高要求，本文提出了一种面向韩国法律的实际用例驱动训练框架，通过与法律专家合作构建高质量数据集和优化训练流程，开发了专用大语言模型LegalMidm，有效提升了法律关键任务的实际表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25665

arXiv 提交日期: 2026-04-28

llm natural language processing evaluation summarization self-evaluation benchmark legal document meta-evaluation

LLM-ReSum：一种通过自我评估实现大语言模型反思式摘要的框架 / LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

1️⃣ 一句话总结

本研究通过系统评估14种摘要评价指标，发现传统指标与人工判断相关性弱，而基于大语言模型的评估器更准确，并据此提出LLM-ReSum框架——让模型在无需微调的情况下，通过自我评估和反馈循环不断改进生成的摘要，在事实准确性和内容覆盖率上分别提升高达33%和39%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25419

arXiv 提交日期: 2026-04-28

llm reinforcement learning rlvr label-free formal verification mathematical reasoning code generation

JURY-RL：投票提出答案，证明决定奖励——无标签的强化学习验证框架 / JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR

1️⃣ 一句话总结

本文提出JURY-RL方法，在不需要人工标注答案的情况下，通过让模型自己投票选出候选答案，再使用形式化验证器（如Lean）判断该答案是否正确，仅在验证成功时才给予奖励，从而稳定地提升了大型语言模型在数学推理等任务上的推理能力，效果接近使用标准答案进行训练的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25580

arXiv 提交日期: 2026-04-28

natural language processing llm model evaluation toxicity measurement perspective api benchmark dependency reproducibility measurement infrastructure

告别Perspective API：NLP、CSS与LLM评估中测量基础设施的教训 / Bye Bye Perspective API: Lessons for Measurement Infrastructure in NLP, CSS and LLM Evaluation

1️⃣ 一句话总结

本文以Perspective API关闭为契机，批判性地分析了NLP、CSS和LLM评估领域过度依赖单一商业毒性测量工具所带来的不可复现、概念模糊及标准失当等问题，并呼吁建立独立、有效、可适应、可复现的新型测量基础设施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24905

arXiv 提交日期: 2026-04-27

llm systems machine learning retrieval-augmented robustness decision-making coordination modular systems

MultiHedge：通过检索增强控制实现自适应协调 / MultiHedge: Adaptive Coordination via Retrieval-Augmented Control

1️⃣ 一句话总结

本文提出了一种名为MultiHedge的混合系统，它让大型语言模型（LLM）通过检索历史成功案例来做出更稳健的决策，并结合经典金融策略执行，实验表明这种“记忆增强”的方法比单纯扩大模型规模更能提升系统在不确定环境下的稳定性和适应性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24198

arXiv 提交日期: 2026-04-27

agents llm model evaluation process reward model data analysis silent error detection agentic reasoning reinforcement learning

奖励科学过程：面向智能体数据分析的过程级奖励建模 / Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

1️⃣ 一句话总结

本文提出了一种名为DataPRM的智能奖励模型，它能像经验丰富的导师一样，在数据分析任务中逐步识别AI助手的潜在错误（比如逻辑漏洞而非语法错误），同时学会区分“合理的探索尝试”和“真正的失误”，从而显著提升AI在复杂科学数据任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24826

arXiv 提交日期: 2026-04-27

llm agents model evaluation security guardrails benchmark risk detection comparative evaluation

AI智能体安全防护栏的对比评估 / A Comparative Evaluation of AI Agent Security Guardrails

1️⃣ 一句话总结

本文通过对比评测DKnownAI Guard与AWS、Azure、Lakera三款主流AI安全防护产品，发现DKnownAI Guard在识别针对智能体自身的攻击和有害内容请求时，达到了96.5%的最高召回率和90.4%的最高真负率，综合表现最佳。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24361

arXiv 提交日期: 2026-04-27

llm natural language processing benchmark machine translation culture-aware evaluation framework dataset translation strategies

大型语言模型中的文化感知机器翻译：基准测试与探究 / Culture-Aware Machine Translation in Large Language Models: Benchmarking and Investigation

1️⃣ 一句话总结

本研究提出了一个专门用于评估机器翻译中文化感知能力的数据集CanMT和一套多维评价框架，通过系统测试多种大语言模型发现，模型在处理文化特有词汇时存在显著性能差异，且虽然能识别文化知识，但难以正确将其应用于翻译输出，而加入参考翻译能显著提升评估可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25120

1️⃣ 一句话总结

arXiv ID: 2604.25423

1️⃣ 一句话总结

arXiv ID: 2604.25297

1️⃣ 一句话总结

arXiv ID: 2604.25665

1️⃣ 一句话总结

arXiv ID: 2604.25419

1️⃣ 一句话总结

arXiv ID: 2604.25580

1️⃣ 一句话总结

arXiv ID: 2604.24905

1️⃣ 一句话总结

arXiv ID: 2604.24198

1️⃣ 一句话总结

arXiv ID: 2604.24826

1️⃣ 一句话总结

arXiv ID: 2604.24361

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25423 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25297 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25419 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25580 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24905 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24198 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24826 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24361 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25120

arXiv ID: 2604.25423

arXiv ID: 2604.25297

arXiv ID: 2604.25665

arXiv ID: 2604.25419

arXiv ID: 2604.25580

arXiv ID: 2604.24905

arXiv ID: 2604.24198

arXiv ID: 2604.24826

arXiv ID: 2604.24361