arXiv最新AI论文速览速学

🔍

标签: #multi-turn interaction ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models 04-21

arXiv ID: 2604.17730

arXiv 提交日期: 2026-04-20

llm model evaluation agents safety evaluation mental health multi-turn interaction taxonomy adversarial testing

MHSafeEval：大型语言模型心理健康安全性的角色感知交互级评估 / MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为MHSafeEval的新评估框架，通过模拟多轮对话并分析AI在心理咨询中可能扮演的四种有害角色，来系统性地发现和诊断大型语言模型在心理健康应用中的安全隐患，弥补了现有静态评估方法的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05397

arXiv 提交日期: 2026-04-07

llm model evaluation agents confidence calibration multi-turn interaction trustworthy ai expected calibration error decoding strategy

置信度校准应不止于单轮对话 / Confidence Should Be Calibrated More Than One Turn Deep

1️⃣ 一句话总结

这篇论文指出，为了确保大语言模型在多轮对话中的安全可靠应用，必须对其置信度进行动态的、基于对话历史的校准，并提出了一种新方法和解码策略来提升多轮对话中的事实准确性和一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16244

arXiv 提交日期: 2026-03-17

llm model evaluation natural language processing cross-context review verification multi-turn interaction false positives benchmark

更多轮次，更多噪音：为何多轮审阅无法改进跨上下文验证 / More Rounds, More Noise: Why Multi-Turn Review Fails to Improve Cross-Context Verification

1️⃣ 一句话总结

这项研究发现，在大语言模型进行内容验证时，让审阅者与作者进行多轮问答互动反而会降低整体准确性，因为额外的审阅轮次会引入大量误报，导致审阅重点从检查原始内容偏移到评判对话本身。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16346

arXiv 提交日期: 2026-02-18

llm agents model evaluation agent misuse red-teaming multilingual evaluation multi-turn interaction jailbreak detection

过度帮助：在多轮、多语言大语言模型智能体中测量非法协助 / Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

1️⃣ 一句话总结

这篇论文提出了一个名为STING的自动化测试框架，用于评估大语言模型智能体在多轮、多语言对话中，如何被逐步诱导去完成有害或非法任务，从而揭示现有单轮测试方法的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10090

arXiv 提交日期: 2026-02-10

agents reinforcement learning systems synthetic environments world model tool-use agents generalization multi-turn interaction

智能体世界模型：用于智能体强化学习的无限合成环境 / Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为‘智能体世界模型’的自动化合成环境生成方法，它能大规模创建多样、可靠且可执行的虚拟场景，用于高效训练AI智能体使用工具完成任务，并显著提升其在新环境中的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22607

arXiv 提交日期: 2026-01-30

agents llm model training tool-using agents reinforcement learning synthetic data generation post-training multi-turn interaction

从自演进的合成数据到可验证奖励的强化学习：训练后多轮交互式工具使用智能体 / From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

1️⃣ 一句话总结

这篇论文提出了一个名为EigenData的统一框架，它通过一个能自我演进、自动生成高质量多轮对话数据的系统，结合一种基于验证器的强化学习方法，来高效训练能够使用工具完成复杂任务的AI助手，而无需依赖昂贵的人工标注数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.10355

arXiv 提交日期: 2026-01-15

llm agents data tool usage data synthesis multi-turn interaction trajectory generation benchmark

解锁隐性经验：从文本中合成工具使用轨迹 / Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text

1️⃣ 一句话总结

这篇论文提出了一种名为GEM的新方法，能够从普通的文本资料中自动提取和生成大型语言模型学习使用工具所需的多轮对话数据，从而有效提升了模型使用工具解决问题的能力，并且比传统方法成本更低、效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08225

arXiv 提交日期: 2026-01-13

llm agents systems tool use dialogue generation multi-turn interaction user simulation data generation

面向用户的大规模多轮对话生成与工具使用 / User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

1️⃣ 一句话总结

这篇论文提出了一种新的方法，通过模拟人类用户逐步提出请求和反馈的行为，来生成更真实、回合数更多、工具使用更复杂的多轮对话数据，以解决现有AI助手在开放式人机协作中互动过于简单直接的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.19736

arXiv 提交日期: 2025-09-24

reinforcement learning agents model training user-centric agents reward shaping multi-turn interaction simulated users rl training

UserRL：通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为UserRL的框架，通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手，并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2402.01030

arXiv 提交日期: 2024-02-01

llm agents model training code execution python interpreter multi-turn interaction instruction tuning tool composition

可执行代码行动能激发更优秀的LLM智能体 / Executable Code Actions Elicit Better LLM Agents

1️⃣ 一句话总结

这篇论文提出了一种名为CodeAct的新方法，通过让大型语言模型智能体直接生成和执行Python代码来统一其行动方式，从而显著提升了处理复杂任务的成功率和灵活性，并基于此开发了开源的智能体模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.17730

1️⃣ 一句话总结

arXiv ID: 2604.05397

1️⃣ 一句话总结

arXiv ID: 2603.16244

1️⃣ 一句话总结

arXiv ID: 2602.16346

1️⃣ 一句话总结

arXiv ID: 2602.10090

1️⃣ 一句话总结

arXiv ID: 2601.22607

1️⃣ 一句话总结

arXiv ID: 2601.10355

1️⃣ 一句话总结

arXiv ID: 2601.08225

1️⃣ 一句话总结

arXiv ID: 2509.19736

1️⃣ 一句话总结

arXiv ID: 2402.01030

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.17730 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05397 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16244 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16346 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10090 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22607 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.10355 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08225 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.19736 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2402.01030 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.17730

arXiv ID: 2604.05397

arXiv ID: 2603.16244

arXiv ID: 2602.16346

arXiv ID: 2602.10090

arXiv ID: 2601.22607

arXiv ID: 2601.10355

arXiv ID: 2601.08225

arXiv ID: 2509.19736

arXiv ID: 2402.01030