← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm
详细标签: instruction following counterintuitive reasoning cognitive inertia evaluation benchmark adversarial instructions 或 搜索:

📄 论文总结

逆直觉指令评估基准:评估大语言模型的反直觉能力

Inverse IFEval Benchmark: Evaluating Counterintuitive Abilities of Large Language Models


1️⃣ 一句话总结

本研究提出了Inverse IFEval基准测试,通过8类对抗性指令挑战评估大语言模型在反直觉场景下的指令遵循能力,揭示了微调模型的认知惯性限制。


2️⃣ 论文创新点

1. 反直觉能力评估维度

2. 多阶段人工参与数据构建流程

3. 自适应法官模型矩阵


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF