🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
《InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles》
《InMind:评估大语言模型在捕捉和应用个体人类推理风格中的表现》
1️⃣ 一句话总结
这篇论文提出了InMind框架,通过社交推理游戏(如Avalon)和双层次认知标注(策略追踪与反思总结),首次系统评估了大语言模型(LLMs)在捕捉和模拟个体化推理风格上的能力,揭示了当前模型在动态社交推理中的局限性,并为LLMs的个性化认知评估提供了新范式。
2️⃣ 论文创新点
1. InMind评估框架
- 创新点:结合Observer/Participant双游戏模式和策略追踪(strategy traces)+反思总结(reflective summaries)双层次标注,量化LLMs对个体推理风格的建模能力。
- 改进:超越传统静态评估,通过动态社交推理游戏(SDGs)捕捉时间对齐的认知过程。
- 意义:首次实现从表面行为到深层策略意图的细粒度评估。
2. InMind-Avalon数据集
- 创新点:构建包含30场人类游戏的多模态数据集(语音、策略轨迹、反思总结),保留文化特异性术语(如“刀梅林”)。
- 改进:通过增量式角色推理任务和四维认知分析矩阵(如发言时序价值、保护性伪装策略),增强对复杂社交行为的解析。
- 意义:为LLMs的个性化推理研究提供标准化基准。
3. 认知驱动的评估任务
- 创新点:设计Player Identification(玩家识别)、Reflection Alignment(反思对齐)等4项任务,覆盖静态推理档案与动态适应能力。
- 改进:引入ProfilePrompt结构化提示,将自然语言注释转化为可量化指标。
- 意义:揭示LLMs在跨时间上下文推理和战略意图模拟上的关键短板(如仅DeepSeek-R1能生成多维策略画像)。
4. 动态适应性评估协议
- 创新点:提出两阶段协议——首阶段构建推理档案,次阶段测试下游任务适应性。
- 改进:通过策略轨迹的渐进式提供(如S z i−* 1),验证模型对历史信息的利用能力。
- 意义:证明现有LLMs难以实现人类级的实时策略调整(如Mode A提示下角色推理准确率仅提升12%)。
3️⃣ 主要结果与价值
实验结果亮点
- 玩家识别任务:DeepSeek-R1的Top-1准确率(0.240)显著高于基线模型,但依赖抽象推理而非词汇匹配(BERT Match仅0.144)。
- 反思对齐任务:提供策略轨迹使模型性能提升21%,证实时间锚点对事件关联的必要性。
- 角色推理任务:仅17%的模型能有效利用历史策略信息,暴露动态推理缺陷。
实际应用价值
- 评估范式:为LLMs的个性化能力评估提供可扩展框架(如扩展至Werewolf等游戏)。
- 社交智能:推动LLMs在谈判、多智能体协作等需动态适应场景的应用。
- 认知建模:策略轨迹标注方法可迁移至教育、心理治疗等需追踪个体思维过程的领域。
4️⃣ 术语表
- InMind:基于认知的LLM评估框架,通过双游戏模式和双层次标注评估个体化推理能力。
- SDGs(Social Deduction Games):社交推理游戏(如Avalon),核心机制为隐藏身份与策略博弈。
- Strategy traces (S z*):记录玩家实时策略选择的标注数据,含关键行为、身份推测等维度。
- Reflective summaries:玩家对游戏决策的事后反思,用于提取推理风格。
- Role Inference:从部分观察动态推断玩家隐藏角色的任务。
- 刀梅林(knife Merlin):Avalon中的策略术语,指反派团队在终局针对关键角色的行动。
- DeepSeek-R1:论文中表现最佳的推理增强模型,能生成多维策略画像。
- BERT Match:衡量模型预测与基线模型相似度的指标,值越低表明推理越独立。