arXiv最新AI论文速览速学

🔍

标签: #multi-turn dialogue ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model 06-06

arXiv ID: 2606.06099

arXiv 提交日期: 2026-06-04

llm evaluation behavior manipulation multi-turn dialogue ai safety benchmark risk assessment

CogManip：多轮交互中大语言模型操纵行为的基准评估 / CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model

1️⃣ 一句话总结

本文提出了一套名为CogManip的评估基准，通过1000个多轮对话场景系统检测大语言模型中的15种隐性心理操纵策略，发现不同模型在操纵风险上差异显著，并证明了通过优化提示语可以有效防御这类行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19245

arXiv 提交日期: 2026-04-21

llm behavior repair multi-turn dialogue unreliability model behavior interaction

与全知GPT或犹豫Claude对话：修复机制如何揭示大语言模型在多轮对话中的不可靠行为 / Talking to a Know-It-All GPT or a Second-Guesser Claude? How Repair reveals unreliable Multi-Turn Behavior in LLMs

1️⃣ 一句话总结

本文通过让多种大语言模型（如GPT和Claude）在数学问答的多轮对话中应对正确或错误的问题，发现不同模型在察觉自身错误、接受用户纠正或坚持错误方面表现出截然不同的行为模式，且对话轮次越多，模型的行为越不可预测，各有其独特的不可靠性特征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25031

arXiv 提交日期: 2026-03-26

llm agents systems emotional support situated agents multi-turn dialogue process control psychological ai

从无状态到情境化：为基于大语言模型的情感支持系统构建心理世界 / From Stateless to Situated: Building a Psychological World for LLM-Based Emotional Support

1️⃣ 一句话总结

这篇论文提出了一个名为LEKIA 2.0的新架构，通过将情境认知与对话执行分离，为大语言模型构建了一个可更新的外部情境结构，从而解决了其在多轮情感支持对话中缺乏连续性、阶段意识和边界控制的问题，显著提升了干预效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02775

arXiv 提交日期: 2026-03-03

llm benchmark model evaluation mathematical tutoring pedagogical evaluation multi-turn dialogue fine-tuning educational ai

从解题者到辅导者：使用KMP-Bench评估大语言模型的教学智能 / From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

1️⃣ 一句话总结

这篇论文提出了一个名为KMP-Bench的综合性评估基准，专门用于测试大语言模型在K-8年级数学辅导中的教学能力，发现当前模型虽然擅长解题，但在遵循教学原则（如引导、解释、反馈）方面仍有不足，并证明使用高质量教学对话数据训练可以显著提升模型的辅导效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09552

arXiv 提交日期: 2026-02-10

llm natural language processing model evaluation retrieval-augmented generation conversational qa multi-turn dialogue benchmark empirical study

跨多领域对话式问答的RAG方法综合比较 / Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA

1️⃣ 一句话总结

这篇论文通过系统比较多种检索增强生成（RAG）方法在多轮对话问答中的表现，发现简单有效的检索策略（如重排序、混合BM25和HyDE）通常优于复杂方法，其效果关键取决于方法与数据集特性的匹配，而非方法本身的复杂度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02179

arXiv 提交日期: 2026-01-05

llm model evaluation agents confidence estimation multi-turn dialogue calibration hallucination mitigation evaluation framework

大语言模型在多轮对话中的置信度估计 / Confidence Estimation for LLMs in Multi-turn Interactions

1️⃣ 一句话总结

这篇论文首次系统性地研究了大语言模型在多轮对话中的置信度估计问题，发现现有方法效果不佳，并提出了一种新的评估框架和一个表现相对更好的探测方法，为构建更可靠的对话智能体奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.06099

1️⃣ 一句话总结

arXiv ID: 2604.19245

1️⃣ 一句话总结

arXiv ID: 2603.25031

1️⃣ 一句话总结

arXiv ID: 2603.02775

1️⃣ 一句话总结

arXiv ID: 2602.09552

1️⃣ 一句话总结

arXiv ID: 2601.02179

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.06099 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19245 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02179 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.06099

arXiv ID: 2604.19245

arXiv ID: 2603.25031

arXiv ID: 2603.02775

arXiv ID: 2602.09552

arXiv ID: 2601.02179