arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2604.27780

arXiv 提交日期: 2026-04-30

llm systems benchmark rtl code completion hardware description language grammar-driven benchmark systemverilog fill-in-the-middle

RuC：与硬件描述语言无关的规则补全基准生成 / RuC: HDL-Agnostic Rule Completion Benchmark Generation

1️⃣ 一句话总结

本文提出了一种名为RuC的自动化框架，它能基于硬件描述语言的语法规则，从任意HDL代码中生成不同粒度的代码补全测试任务，从而更精细地评估大语言模型在寄存器传输级开发中的代码理解能力，实验表明模型性能受语法结构、提示策略等因素显著影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27279

arXiv 提交日期: 2026-04-30

audio machine learning medical stuttering prediction cnn on-device deployment clinical severity evaluation

基于三秒音频预测即将发生的口吃事件：分层评估揭示严重程度选择性前兆，模型完全部署于设备端 / Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device

1️⃣ 一句话总结

本文首次实现了一种轻量级的音频模型（61.6万参数），能够仅凭3秒的语音片段预测接下来是否会发生口吃（尤其是重度口吃，如声音重复或言语阻塞），该模型准确率达到0.60以上的AUC，且可直接在手机等设备上以极低延迟（0.25-0.55毫秒）运行，无需联网或远程处理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27445

arXiv 提交日期: 2026-04-30

machine learning agents multi-modal intent inference bayesian methods non-speaking agents product-of-experts context prior

上下文作为先验：针对非语言智能体基于贝叶斯启发的意图推断——以家猫测试平台为例 / Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed

1️⃣ 一句话总结

本文提出了一种受贝叶斯思想启发的概率模型CatSignal，通过将环境上下文视为先验知识、行为观测视为证据，来推断无法用语言交流的智能体（如家猫）的意图，实验证明该方法比传统融合方式更准确，并能有效减少因过度依赖上下文而导致的错误预测。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27586

arXiv 提交日期: 2026-04-30

agents system evaluation multi-agent information contamination trace analysis workflow robustness uncertainty injection

多智能体系统中信息污染的痕迹级分析 / Trace-Level Analysis of Information Contamination in Multi-Agent Systems

1️⃣ 一句话总结

本文通过向多智能体工作流中的人工制品（如PDF、表格）注入可控不确定性，系统研究了信息如何“污染”智能体的决策轨迹，发现即使工作流路径严重偏离也能得到正确答案，反之亦然，并据此提出了三种污染类型、一套痕迹测量框架及其对验证防御设计的启示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27361

arXiv 提交日期: 2026-04-30

computer vision machine learning aigc 3d indoor scene synthesis cascaded diffusion layout generation relation graph controllability

CasLayout：基于隐式关系建模的级联三维布局扩散框架用于室内场景合成 / CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

1️⃣ 一句话总结

本文提出了一种名为CasLayout的级联扩散框架，通过将室内场景生成分解为四个有序子任务（物体数量与类别预测、尺寸与特征优化、空间关系建模、边界框生成），并结合稀疏关系图和条件约束（如墙壁、门窗），在降低数据需求的同时，显著提升了生成布局的真实性、多样性和可控性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27699

arXiv 提交日期: 2026-04-30

agents llm value-driven planning hierarchical architecture embodied agents autonomy evaluation cognitive architecture

连接价值观与行为：面向主动型具身智能体的层次化框架 / Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents

1️⃣ 一句话总结

本文提出一个名为 ValuePlanner 的智能体架构，通过将高层价值观决策与低层动作执行分离，让机器人能像人类一样根据内在价值权衡来主动规划长期行为，解决了现有智能体只能被动执行指令或单纯满足需求的局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27724

arXiv 提交日期: 2026-04-30

medical multi-modal retrieval augmented generation medical qa visual retrieval iterative reasoning page-level retrieval benchmark

迭代式多模态检索增强生成用于医疗问答 / Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering

1️⃣ 一句话总结

本文提出了一种名为MED-VRAG的新框架，它通过直接检索医学文献中的整页图像（而非仅提取文本），并利用视觉语言模型进行多轮推理和记忆累积，在多个医疗问答基准测试上显著提升了准确率，证明了图像信息对医疗知识问答的重要价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27553

arXiv 提交日期: 2026-04-30

multi-modal model evaluation large visual language model text style attribute description style leakage visual text

揭示视觉文本样式对大型视觉语言模型生成属性描述的影响 / Revealing the Impact of Visual Text Style on Attribute-based Descriptions Produced by Large Visual Language Models

1️⃣ 一句话总结

本研究通过实验发现，即使大型视觉语言模型能正确识别图片中的文字内容，文字的视觉样式（如字体、颜色、大小）仍会显著影响模型对该文字所指概念生成的属性描述，表明模型存在“样式泄漏”问题，亟需引入样式感知的评估与缓解策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27892

arXiv 提交日期: 2026-04-30

machine learning semi-supervised inference theory mixture of experts prediction-powered inference variance reduction confidence intervals m-estimation

基于专家混合的预测驱动推理 / Prediction-powered Inference by Mixture of Experts

1️⃣ 一句话总结

本文提出了一种利用多种现有预测模型（像一群专家）混合协作的新方法，在只有少量标注数据但有大量未标注数据时，能更高效、更可靠地进行统计推断（如估计平均值或构建置信区间），通过自动选择或组合专家模型来获得比单独使用任何一个模型都更准确的结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27401

arXiv 提交日期: 2026-04-30

llm model evaluation behavioral circuits ffn neurons safety refusal language selection rhlf

扰动探针：针对对齐大语言模型中前馈神经网络行为电路的双遍提示诊断方法 / Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

1️⃣ 一句话总结

本文提出一种名为“扰动探针”的高效方法，仅需两次前向传播即可定位大模型中控制特定行为（如安全拒绝、语言切换）的关键神经元（仅占全部神经元的万分之一点四），并通过实验揭示了RLHF（基于人类反馈的强化学习）如何通过“对立电路”和“路由电路”两种结构组织模型行为，为精确编辑模型行为提供了实用工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.27780

1️⃣ 一句话总结

arXiv ID: 2604.27279

1️⃣ 一句话总结

arXiv ID: 2604.27445

1️⃣ 一句话总结

arXiv ID: 2604.27586

1️⃣ 一句话总结

arXiv ID: 2604.27361

1️⃣ 一句话总结

arXiv ID: 2604.27699

1️⃣ 一句话总结

arXiv ID: 2604.27724

1️⃣ 一句话总结

arXiv ID: 2604.27553

1️⃣ 一句话总结

arXiv ID: 2604.27892

1️⃣ 一句话总结

arXiv ID: 2604.27401

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.27780 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27279 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27445 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27586 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27361 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27699 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27553 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27401 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.27780

arXiv ID: 2604.27279

arXiv ID: 2604.27445

arXiv ID: 2604.27586

arXiv ID: 2604.27361

arXiv ID: 2604.27699

arXiv ID: 2604.27724

arXiv ID: 2604.27553

arXiv ID: 2604.27892

arXiv ID: 2604.27401