arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 270 最新: scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns 03-19

arXiv ID: 2602.21371

arXiv 提交日期: 2026-02-24

llm model training theory attention mechanism multi-head attention reasoning parameter efficiency transformer architecture

交错头注意力机制 / Interleaved Head Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘交错头注意力’的新方法，通过让注意力头之间在计算时相互通信，有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题，从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20751

arXiv 提交日期: 2026-02-24

llm model training agents reinforcement learning reward design rubric learning memory tuning adversarial probing

SibylSense：通过记忆调谐与对抗性探测实现自适应评价标准学习 / SibylSense: Adaptive Rubric Learning via Memory Tuning and Adversarial Probing

1️⃣ 一句话总结

这篇论文提出了一种名为SibylSense的新方法，它能在模型使用时动态学习和优化评价标准，通过一个可更新的‘记忆库’来生成更精准、更不易被‘欺骗’的评分规则，从而提升AI在开放式生成任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21193

arXiv 提交日期: 2026-02-24

llm agents model training terminal agents synthetic data generation data engineering curriculum learning benchmark evaluation

关于扩展大语言模型终端能力的数据工程研究 / On Data Engineering for Scaling LLM Terminal Capabilities

1️⃣ 一句话总结

这篇论文通过开发一个名为Terminal-Task-Gen的自动化任务生成工具和一套数据训练策略，成功创建了能大幅提升大语言模型在命令行终端操作能力的数据集和模型，并将这些资源开源以推动该领域研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20867

arXiv 提交日期: 2026-02-24

llm agents systems agentic skills tool use design patterns security evaluation

SoK：智能体技能——超越大语言模型智能体的工具使用 / SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

1️⃣ 一句话总结

这篇论文系统性地梳理了AI智能体‘技能’的概念、生命周期和设计模式，指出精心设计的可复用技能能显著提升智能体执行复杂任务的可靠性，但也带来了新的安全和治理挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20610

arXiv 提交日期: 2026-02-24

llm systems model evaluation program verification postcondition inference interactive prompting feedback-driven generation code comprehension

SpecMind：一种受认知启发的、用于后置条件推断的交互式多轮对话框架 / SpecMind: Cognitively Inspired, Interactive Multi-Turn Framework for Postcondition Inference

1️⃣ 一句话总结

这篇论文提出了一个名为SpecMind的新框架，它让大型语言模型像人类一样通过多轮交互和探索性尝试来逐步推理和改进程序的后置条件，从而比传统单次生成方法更准确、更完整地自动生成程序规范。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20710

arXiv 提交日期: 2026-02-24

llm model training model evaluation chain-of-thought faithfulness counterfactual reasoning reasoning simulation training method

用于提升思维链忠实度的反事实模拟训练 / Counterfactual Simulation Training for Chain-of-Thought Faithfulness

1️⃣ 一句话总结

这篇论文提出了一种名为‘反事实模拟训练’的新方法，通过训练大语言模型使其思维链推理过程更忠实可靠，从而帮助人们更准确地理解模型决策背后的真实原因。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20580

arXiv 提交日期: 2026-02-24

llm model training data privacy memorization personal information data filtering model scaling

语言模型中的个人信息复述 / Personal Information Parroting in Language Models

1️⃣ 一句话总结

这篇论文发现，大语言模型在训练时会记住并精确复述训练数据中的大量个人信息（如邮箱、电话），且模型越大、训练越久，这种隐私泄露风险就越高，因此建议对训练数据进行严格的过滤和匿名化处理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20926

arXiv 提交日期: 2026-02-24

llm natural language processing systems graphrag multi-hop reasoning knowledge retrieval efficiency qa benchmarks

HELP：用于准确高效GraphRAG的超节点扩展与逻辑路径引导的证据定位 / HELP: HyperNode Expansion and Logical Path-Guided Evidence Localization for Accurate and Efficient GraphRAG

1️⃣ 一句话总结

这篇论文提出了一个名为HELP的新框架，它通过将知识片段组织成连贯的推理路径并直接定位相关文本，在保证高准确率的同时大幅提升了基于知识图谱的问答系统效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20976

arXiv 提交日期: 2026-02-24

llm model evaluation agents risk awareness safety evaluation ecological impact proactive safeguards benchmark

评估大型语言模型的前瞻性风险意识 / Evaluating Proactive Risk Awareness of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个评估框架，发现当前主流大语言模型在回答可能引发潜在生态危害的日常问题时，普遍缺乏提前预警的风险意识，尤其是在回答简短、跨语言和多模态物种保护场景下存在明显盲区。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20708

arXiv 提交日期: 2026-02-24

llm agents systems prompt injection adversarial defense latent space analysis attention steering agent security

ICON：基于推理时校正的智能体间接提示注入防御框架 / ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction

1️⃣ 一句话总结

本文提出了一种名为ICON的新型防御框架，它能在不中断智能体正常工作流程的前提下，通过探测并修正模型内部注意力机制，有效抵御间接提示注入攻击，在保障安全的同时大幅提升了任务执行效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21371

1️⃣ 一句话总结

arXiv ID: 2602.20751

1️⃣ 一句话总结

arXiv ID: 2602.21193

1️⃣ 一句话总结

arXiv ID: 2602.20867

1️⃣ 一句话总结

arXiv ID: 2602.20610

1️⃣ 一句话总结

arXiv ID: 2602.20710

1️⃣ 一句话总结

arXiv ID: 2602.20580

1️⃣ 一句话总结

arXiv ID: 2602.20926

1️⃣ 一句话总结

arXiv ID: 2602.20976

1️⃣ 一句话总结

arXiv ID: 2602.20708

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21371 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20751 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21193 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20867 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20610 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20710 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20580 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20926 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20976 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20708 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21371

arXiv ID: 2602.20751

arXiv ID: 2602.21193

arXiv ID: 2602.20867

arXiv ID: 2602.20610

arXiv ID: 2602.20710

arXiv ID: 2602.20580

arXiv ID: 2602.20926

arXiv ID: 2602.20976

arXiv ID: 2602.20708