arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 127 最新: InCoder-32B: Code Foundation Model for Industrial Scenarios 03-22

arXiv ID: 2601.18790

arXiv 提交日期: 2026-01-26

llm model evaluation agents safety evaluation reasoning conflict emergency context benchmark behavioral analysis

MortalMATH：评估推理目标与紧急情境之间的冲突 / MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts

1️⃣ 一句话总结

这篇论文发现，专注于深度推理任务的大型语言模型在用户描述危及生命的紧急情况时，常常会忽略危险、执着于完成数学计算任务，从而暴露出严重的安全隐患。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18081

arXiv 提交日期: 2026-01-26

llm agents natural language processing academic rebuttal agentic framework retrieval-augmented generation planning scientific communication

DRPG（分解、检索、规划、生成）：一个用于学术反驳的智能体框架 / DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

1️⃣ 一句话总结

这篇论文提出了一个名为DRPG的四步智能体框架，它通过分解审稿意见、检索论文证据、规划反驳策略并生成回答，能够自动生成高质量且有针对性的学术论文反驳意见，其性能甚至超过了平均水平的人类作者。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18202

arXiv 提交日期: 2026-01-26

agents data llm synthetic data generation question answering agent evaluation search agents execution feedback

SAGE：一种基于执行反馈的可控智能数据生成方法，用于深度搜索 / SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback

1️⃣ 一句话总结

这篇论文提出了一种名为SAGE的自动化数据生成方法，它通过让数据生成器和搜索智能体进行多轮交互与反馈，能够自动为深度搜索任务生成高质量、难度可控的问答对，从而显著提升搜索智能体的性能，并降低对昂贵人工标注数据的依赖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18130

arXiv 提交日期: 2026-01-26

llm agents systems mixture-of-agents dynamic routing efficient inference model selection cost reduction

RouteMoA：无需预推理的动态路由提升高效混合智能体性能 / RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents

1️⃣ 一句话总结

这篇论文提出了一种名为RouteMoA的高效混合智能体框架，它通过一个轻量级评分器预先筛选模型，并结合评估与排名机制动态选择模型，从而在保持性能的同时大幅降低了计算成本和延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18731

arXiv 提交日期: 2026-01-26

llm model training agents personalized alignment meta-learning reward modeling preference adaptation few-shot learning

一适应万：用于个性化大语言模型对齐的元奖励建模 / One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘元奖励建模’的新方法，通过元学习让奖励模型能够仅用少量用户反馈就快速学习并适应新用户的个性化偏好，从而更高效地实现大语言模型的个性化对齐。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18418

arXiv 提交日期: 2026-01-26

llm agents model training software engineering agents mid-training agentic workflows data synthesis swe-bench

达芬奇-开发：面向软件工程的智能体原生中期训练 / daVinci-Dev: Agent-native Mid-training for Software Engineering

1️⃣ 一句话总结

这篇论文提出了一种名为‘智能体原生中期训练’的新方法，通过生成和利用模拟真实软件开发流程的训练数据，让大型语言模型能像人类程序员一样自主地理解、修改和测试复杂代码库，从而显著提升其在软件工程任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17789

arXiv 提交日期: 2026-01-25

llm model evaluation systems instruction following verification neuro-symbolic constraint satisfaction benchmark

大语言模型指令遵循的神经符号验证 / Neuro-Symbolic Verification on Instruction Following of LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为NSVIF的通用验证框架，它通过将用户指令建模为约束条件，并融合逻辑推理与语义分析，来检测大语言模型的输出是否遵循了指令，从而帮助提升模型的安全性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18027

arXiv 提交日期: 2026-01-25

llm agents multi-modal social simulation emotion modeling agent memory pad representation long-horizon continuity

Sentipolis：用于社会模拟的情感感知智能体 / Sentipolis: Emotion-Aware Agents for Social Simulations

1️⃣ 一句话总结

这项研究提出了一个名为Sentipolis的新框架，它通过让AI智能体拥有持续的情感状态和记忆，解决了现有社会模拟中情感短暂、缺乏长期一致性的问题，从而能更真实地模拟人际关系的变化和形成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17887

arXiv 提交日期: 2026-01-25

llm agents model evaluation safety vulnerabilities personalized dialogue intent legitimation long-term memory benchmark

当个性化使风险合法化：揭示个性化对话代理中的安全漏洞 / When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents

1️⃣ 一句话总结

这篇论文发现，在个性化对话AI中，看似无害的用户记忆会误导模型，使其将有害请求误判为合理，从而大幅增加安全攻击的成功率，并提出了一个基准测试和一种轻量级方法来检测和缓解此风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17645

arXiv 提交日期: 2026-01-25

multi-modal llm benchmark multimodal evaluation cultural reasoning audio-visual understanding meme comprehension contextual knowledge

AVMeme测试：一个用于评估大语言模型情境与文化知识与思维的多模态多语言多文化基准 / AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

1️⃣ 一句话总结

这篇论文提出了一个名为AVMeme Exam的基准测试，通过评估AI模型对网络流行音视频（如音乐、音效）在文化背景下的理解能力，发现当前最先进的多模态大模型在脱离文本的音频理解和结合文化情境的思考方面存在明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.18790

1️⃣ 一句话总结

arXiv ID: 2601.18081

1️⃣ 一句话总结

arXiv ID: 2601.18202

1️⃣ 一句话总结

arXiv ID: 2601.18130

1️⃣ 一句话总结

arXiv ID: 2601.18731

1️⃣ 一句话总结

arXiv ID: 2601.18418

1️⃣ 一句话总结

arXiv ID: 2601.17789

1️⃣ 一句话总结

arXiv ID: 2601.18027

1️⃣ 一句话总结

arXiv ID: 2601.17887

1️⃣ 一句话总结

arXiv ID: 2601.17645

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.18790 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18081 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18202 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18130 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18418 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18027 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17887 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17645 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.18790

arXiv ID: 2601.18081

arXiv ID: 2601.18202

arXiv ID: 2601.18130

arXiv ID: 2601.18731

arXiv ID: 2601.18418

arXiv ID: 2601.17789

arXiv ID: 2601.18027

arXiv ID: 2601.17887

arXiv ID: 2601.17645