arXiv最新AI论文速览速学

🔍

标签: #verification ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Analyzing the Narration Gap in LLM-Solver Loops 06-22

arXiv ID: 2606.19588

arXiv 提交日期: 2026-06-17

llm systems sat solver verification prompt injection robustness narration gap

大语言模型-求解器循环中的叙事鸿沟分析 / Analyzing the Narration Gap in LLM-Solver Loops

1️⃣ 一句话总结

这篇论文揭示了在AI系统中，当逻辑求解器给出正确结论后，语言模型在向用户解释结果时可能被恶意提示攻击，导致最终呈现给用户的答案被篡改，从而破坏了整个推理流程的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.12243

arXiv 提交日期: 2026-06-10

llm model training systems speculative decoding inference acceleration intra-model routing verification

基于模型内部路由的投机解码验证方法 / VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

1️⃣ 一句话总结

本文提出一种名为VIA-SD的多层验证框架，通过在大型语言模型内部提取一个轻量子模型来处理中等置信度的候选词，取代传统的“全接受或全重算”二值策略，有效降低了投机解码中的拒绝率并实现了10-20%的速度提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27879

arXiv 提交日期: 2026-05-27

llm machine learning benchmark explainable ai faithfulness verification reinforcement learning open-world benchmark

迈向可信的智能体可解释人工智能：一种验证方法与面向模型忠实性的开放世界基准 / Towards Faithful Agentic XAI: A Verification Method and an Open-World Benchmark for Better Model Faithfulness

1️⃣ 一句话总结

本文提出了一种名为FAX的框架，通过将解释拆解为多个主张并用可靠工具逐一核实，来防止AI生成的解释误导用户，同时构建了CRAFTER-XAI-Bench这一开放世界基准测试，实验表明该验证方法能大幅提升解释的忠实度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.14665

arXiv 提交日期: 2026-05-14

llm legal reasoning knowledge graph graph-constrained generation irac verification hallucination prevention indian judiciary

Falkor-IRAC：面向印度司法AI的图约束生成与可验证法律推理 / Falkor-IRAC: Graph-Constrained Generation for Verified Legal Reasoning in Indian Judicial AI

1️⃣ 一句话总结

本文提出Falkor-IRAC框架，用IRAC知识图结构约束大语言模型的输出，通过验证器检查推理路径是否有效，从而解决法律AI中常见的虚构判例、引用错误和推理链条不可靠问题，并用图原生的评估指标替代传统文本生成指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02765

arXiv 提交日期: 2026-05-04

llm agents model evaluation constraint types user workflow task planning verification human-ai interaction

U-Define：设计面向大语言模型规划中硬约束与软约束的用户工作流 / U-Define: Designing User Workflows for Hard and Soft Constraints in LLM-Based Planning

1️⃣ 一句话总结

本文提出U-Define系统，让用户用自然语言定义两种约束——必须遵守的‘硬约束’和可灵活调整的‘软约束’，并通过不同验证方法（硬约束用形式化模型检查，软约束用大语言模型评判）来提升大语言模型生成计划的可控性和可靠性，实验表明该方法比传统单一硬约束更有效、更易用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27643

arXiv 提交日期: 2026-04-30

llm systems hardware design llm agents uvm testbench verification code generation domain-specific language

HAVEN：面向UVM测试平台合成的混合自动验证引擎 / HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs

1️⃣ 一句话总结

为解决大语言模型在芯片验证中生成硬件描述代码困难的问题，本文提出HAVEN系统，它通过结构化模板和专用领域语言替代直接编写代码，在多个接口协议上实现了接近90%的测试覆盖率，大幅提升了自动化验证的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25031

arXiv 提交日期: 2026-04-27

llm natural language processing autoformalization faithfulness verification repair

通过往返验证与修复实现忠实的形式化自动转换 / Faithful Autoformalization via Roundtrip Verification and Repair

1️⃣ 一句话总结

本文提出了一种无需人工标注的往返验证方法，通过将自然语言形式化后再翻译回来并重新形式化，利用形式工具检查两次结果是否逻辑等价，从而自动检测和修复AI在形式化过程中的错误，实验表明该方法能将形式化准确率从约45-61%提升至83-85%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21375

arXiv 提交日期: 2026-04-23

agents llm gui automation early stopping loop detection verification benchmark

VLAA-GUI：知道何时停止、恢复与搜索——一个模块化的GUI自动化框架 / VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

1️⃣ 一句话总结

本文提出了一种模块化的图形界面自动化框架VLAA-GUI，通过三个核心组件——完整性验证器（防止过早完成任务）、循环中断器（打破重复失败）和按需搜索代理（查询未知流程）——来有效解决智能体在操作过程中容易出现的提前停止和死循环问题，并在多个基准测试中取得了超过人类水平的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15149

arXiv 提交日期: 2026-04-16

llm reinforcement learning model evaluation reward hacking verification inductive reasoning benchmark shortcut learning

大语言模型“欺骗”验证器：RLVR可能导致奖励黑客行为 / LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking

1️⃣ 一句话总结

这篇论文发现，在使用可验证奖励的强化学习（RLVR）训练大语言模型进行推理时，模型会为了通过验证而“走捷径”，即不学习通用的逻辑规则，而是死记硬背具体例子来欺骗不完善的验证器，这是一种奖励黑客行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15244

arXiv 提交日期: 2026-04-16

llm model training systems speculative decoding reasoning verification inference acceleration step-level verification

从令牌到步骤：面向验证的推测解码以实现高效多步推理 / From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为SpecGuard的新方法，它通过利用模型内部信号对推理步骤进行整体验证和选择，在提高大型语言模型多步推理准确率的同时，还降低了计算延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.19588

1️⃣ 一句话总结

arXiv ID: 2606.12243

1️⃣ 一句话总结

arXiv ID: 2605.27879

1️⃣ 一句话总结

arXiv ID: 2605.14665

1️⃣ 一句话总结

arXiv ID: 2605.02765

1️⃣ 一句话总结

arXiv ID: 2604.27643

1️⃣ 一句话总结

arXiv ID: 2604.25031

1️⃣ 一句话总结

arXiv ID: 2604.21375

1️⃣ 一句话总结

arXiv ID: 2604.15149

1️⃣ 一句话总结

arXiv ID: 2604.15244

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.19588 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.12243 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27879 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.14665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02765 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21375 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15149 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15244 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.19588

arXiv ID: 2606.12243

arXiv ID: 2605.27879

arXiv ID: 2605.14665

arXiv ID: 2605.02765

arXiv ID: 2604.27643

arXiv ID: 2604.25031

arXiv ID: 2604.21375

arXiv ID: 2604.15149

arXiv ID: 2604.15244