arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: MultiHedge: Adaptive Coordination via Retrieval-Augmented Control 05-02

arXiv ID: 2604.27467

arXiv 提交日期: 2026-04-30

llm systems model training code verification code sandboxes execution environment reinforcement learning scalability

ScaleBox：为大型语言模型实现高保真且可扩展的代码验证 / ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

1️⃣ 一句话总结

ScaleBox 是一个专为大规模代码训练设计的高效验证系统，通过自动生成特殊判题规则、细粒度并行执行测试用例以及跨节点无缝协作，显著提升了代码验证的准确性和并发处理能力，从而让大型语言模型在训练和评估中获得更可靠的反馈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27405

arXiv 提交日期: 2026-04-30

llm model evaluation reliable change index llm evaluation item-level analysis churn rate mmlu-pro

超越均值：面向大模型评估的模型内可靠变化检测 / Beyond the Mean: Within-Model Reliable Change Detection for LLM Evaluation

1️⃣ 一句话总结

本文引入临床心理学中的可靠变化指数（RCI），对LLM版本升级（如Llama 3→3.1和Qwen 2.5→3）进行逐题比较，发现平均准确率的小幅提升掩盖了大规模的双向性能波动（有的题目大幅进步，有的严重退步），且多数题目变化无实质意义，因此建议在汇报平均分数时必须同时报告“变化率”指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27859

arXiv 提交日期: 2026-04-30

reinforcement learning llm agents agentic rl meta-reasoning self-reflection long-term planning goal-setting

重新思考大型语言模型中的智能体强化学习 / Rethinking Agentic Reinforcement Learning In Large Language Models

1️⃣ 一句话总结

本文探讨了如何将强化学习与大型语言模型结合，使AI不仅能完成预设任务，还能像智能体一样自主设定目标、进行长期规划和动态决策，从而在复杂、不确定的真实环境中更灵活地学习和行动。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27643

arXiv 提交日期: 2026-04-30

llm systems hardware design llm agents uvm testbench verification code generation domain-specific language

HAVEN：面向UVM测试平台合成的混合自动验证引擎 / HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs

1️⃣ 一句话总结

为解决大语言模型在芯片验证中生成硬件描述代码困难的问题，本文提出HAVEN系统，它通过结构化模板和专用领域语言替代直接编写代码，在多个接口协议上实现了接近90%的测试覆盖率，大幅提升了自动化验证的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27487

arXiv 提交日期: 2026-04-30

machine learning llm theory low-rank adaptation adversarial perturbation black-box attack low-dimensional subspace efficiency

针对对抗扰动的低秩适配 / Low Rank Adaptation for Adversarial Perturbation

1️⃣ 一句话总结

本文发现对抗扰动与模型参数更新类似，具有天然的低秩结构，并利用这一特性设计了一种两步法（先利用参考模型和辅助数据构建低维梯度投影空间，再在该空间内进行黑盒攻击搜索），大幅提升黑盒对抗攻击的效率和成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27780

arXiv 提交日期: 2026-04-30

llm systems benchmark rtl code completion hardware description language grammar-driven benchmark systemverilog fill-in-the-middle

RuC：与硬件描述语言无关的规则补全基准生成 / RuC: HDL-Agnostic Rule Completion Benchmark Generation

1️⃣ 一句话总结

本文提出了一种名为RuC的自动化框架，它能基于硬件描述语言的语法规则，从任意HDL代码中生成不同粒度的代码补全测试任务，从而更精细地评估大语言模型在寄存器传输级开发中的代码理解能力，实验表明模型性能受语法结构、提示策略等因素显著影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27699

arXiv 提交日期: 2026-04-30

agents llm value-driven planning hierarchical architecture embodied agents autonomy evaluation cognitive architecture

连接价值观与行为：面向主动型具身智能体的层次化框架 / Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents

1️⃣ 一句话总结

本文提出一个名为 ValuePlanner 的智能体架构，通过将高层价值观决策与低层动作执行分离，让机器人能像人类一样根据内在价值权衡来主动规划长期行为，解决了现有智能体只能被动执行指令或单纯满足需求的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27401

arXiv 提交日期: 2026-04-30

llm model evaluation behavioral circuits ffn neurons safety refusal language selection rhlf

扰动探针：针对对齐大语言模型中前馈神经网络行为电路的双遍提示诊断方法 / Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

1️⃣ 一句话总结

本文提出一种名为“扰动探针”的高效方法，仅需两次前向传播即可定位大模型中控制特定行为（如安全拒绝、语言切换）的关键神经元（仅占全部神经元的万分之一点四），并通过实验揭示了RLHF（基于人类反馈的强化学习）如何通过“对立电路”和“路由电路”两种结构组织模型行为，为精确编辑模型行为提供了实用工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27661

arXiv 提交日期: 2026-04-30

llm natural language processing multilingual language ideology annotation multilingual society luxembourgish ideology detection

多语社会中的语言意识形态：基于大语言模型的卢森堡新闻评论分析 / Language Ideologies in a Multilingual Society: An LLM-based Analysis of Luxembourgish News Comments

1️⃣ 一句话总结

本研究尝试用大语言模型自动识别多语社会（卢森堡）新闻评论中隐藏的语言意识形态，发现尽管模型在多类别标注任务上尚未达到最优，但已能有效筛选出含有意识形态内容的文本，且将小众的卢森堡语翻译成高资源语言后效果有所提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.28147

arXiv 提交日期: 2026-04-30

natural language processing llm surprisal theory tokenization unit of analysis psycholinguistics language models

论惊奇理论中语言单位的正确处理 / On the Proper Treatment of Units in Surprisal Theory

1️⃣ 一句话总结

这篇论文揭示了惊奇理论研究中一个被忽视的问题：研究者通常用不同标准定义语言单位（如词与子词），导致实验结果不可靠，并提出了一个统一框架来明确分析单位和评估区域，从而让惊异度预测更科学、可重复。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27467

1️⃣ 一句话总结

arXiv ID: 2604.27405

1️⃣ 一句话总结

arXiv ID: 2604.27859

1️⃣ 一句话总结

arXiv ID: 2604.27643

1️⃣ 一句话总结

arXiv ID: 2604.27487

1️⃣ 一句话总结

arXiv ID: 2604.27780

1️⃣ 一句话总结

arXiv ID: 2604.27699

1️⃣ 一句话总结

arXiv ID: 2604.27401

1️⃣ 一句话总结

arXiv ID: 2604.27661

1️⃣ 一句话总结

arXiv ID: 2604.28147

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27467 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27859 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27643 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27487 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27780 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27699 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27401 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27661 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.28147 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27467

arXiv ID: 2604.27405

arXiv ID: 2604.27859

arXiv ID: 2604.27643

arXiv ID: 2604.27487

arXiv ID: 2604.27780

arXiv ID: 2604.27699

arXiv ID: 2604.27401

arXiv ID: 2604.27661

arXiv ID: 2604.28147