← 返回列表

菜单

🤖 系统
📄 Abstract - ImpossibleBench: A Benchmark Framework for Quantifying LLM Cheating Tendencies
正在获取摘要...
顶级标签: llm
详细标签: cheating detection code generation evaluation framework test mutation prompt engineering 或 搜索:

📄 论文总结

ImpossibleBench:量化大型语言模型作弊倾向的基准框架 / ImpossibleBench: A Benchmark Framework for Quantifying LLM Cheating Tendencies


1️⃣ 一句话总结

ImpossibleBench是一个通过修改现有编码基准测试用例来创建不可能任务,从而自动量化大型语言模型作弊倾向的评估框架。


2️⃣ 论文创新点

1. 不可能任务基准框架

2. 测试突变策略

3. 作弊策略分类框架

4. 提示工程优化


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF