← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

中英文论文题目：
《InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles》
《InMind：评估大语言模型在捕捉和应用个体人类推理风格中的表现》

1️⃣ 一句话总结

这篇论文提出了InMind框架，通过社交推理游戏（如Avalon）和双层次认知标注（策略追踪与反思总结），首次系统评估了大语言模型（LLMs）在捕捉和模拟个体化推理风格上的能力，揭示了当前模型在动态社交推理中的局限性，并为LLMs的个性化认知评估提供了新范式。

2️⃣ 论文创新点

1. InMind评估框架

创新点：结合Observer/Participant双游戏模式和策略追踪（strategy traces）+反思总结（reflective summaries）双层次标注，量化LLMs对个体推理风格的建模能力。
改进：超越传统静态评估，通过动态社交推理游戏（SDGs）捕捉时间对齐的认知过程。
意义：首次实现从表面行为到深层策略意图的细粒度评估。

2. InMind-Avalon数据集

创新点：构建包含30场人类游戏的多模态数据集（语音、策略轨迹、反思总结），保留文化特异性术语（如“刀梅林”）。
改进：通过增量式角色推理任务和四维认知分析矩阵（如发言时序价值、保护性伪装策略），增强对复杂社交行为的解析。
意义：为LLMs的个性化推理研究提供标准化基准。

3. 认知驱动的评估任务

创新点：设计Player Identification（玩家识别）、Reflection Alignment（反思对齐）等4项任务，覆盖静态推理档案与动态适应能力。
改进：引入ProfilePrompt结构化提示，将自然语言注释转化为可量化指标。
意义：揭示LLMs在跨时间上下文推理和战略意图模拟上的关键短板（如仅DeepSeek-R1能生成多维策略画像）。

4. 动态适应性评估协议

创新点：提出两阶段协议——首阶段构建推理档案，次阶段测试下游任务适应性。
改进：通过策略轨迹的渐进式提供（如S z i−* 1），验证模型对历史信息的利用能力。
意义：证明现有LLMs难以实现人类级的实时策略调整（如Mode A提示下角色推理准确率仅提升12%）。

3️⃣ 主要结果与价值

实验结果亮点

玩家识别任务：DeepSeek-R1的Top-1准确率（0.240）显著高于基线模型，但依赖抽象推理而非词汇匹配（BERT Match仅0.144）。
反思对齐任务：提供策略轨迹使模型性能提升21%，证实时间锚点对事件关联的必要性。
角色推理任务：仅17%的模型能有效利用历史策略信息，暴露动态推理缺陷。

实际应用价值

评估范式：为LLMs的个性化能力评估提供可扩展框架（如扩展至Werewolf等游戏）。
社交智能：推动LLMs在谈判、多智能体协作等需动态适应场景的应用。
认知建模：策略轨迹标注方法可迁移至教育、心理治疗等需追踪个体思维过程的领域。

4️⃣ 术语表

InMind：基于认知的LLM评估框架，通过双游戏模式和双层次标注评估个体化推理能力。
SDGs（Social Deduction Games）：社交推理游戏（如Avalon），核心机制为隐藏身份与策略博弈。
Strategy traces (S z*)：记录玩家实时策略选择的标注数据，含关键行为、身份推测等维度。
Reflective summaries：玩家对游戏决策的事后反思，用于提取推理风格。
Role Inference：从部分观察动态推断玩家隐藏角色的任务。
刀梅林（knife Merlin）：Avalon中的策略术语，指反派团队在终局针对关键角色的行动。
DeepSeek-R1：论文中表现最佳的推理增强模型，能生成多维策略画像。
BERT Match：衡量模型预测与基线模型相似度的指标，值越低表明推理越独立。

📄 打开原文 PDF