← 返回列表

菜单

🤖 系统
📄 Abstract - LoCoBench: A Comprehensive Benchmark for Long-Context Large Language Models in Complex Software Engineering
正在获取摘要...
顶级标签: llm systems
详细标签: long-context evaluation code understanding software engineering multi-file reasoning benchmark framework 或 搜索:

📄 论文总结

LoCoBench:长上下文大语言模型在复杂软件工程中的综合基准测试

LoCoBench: A Comprehensive Benchmark for Long-Context Large Language Models in Complex Software Engineering


1️⃣ 一句话总结

LoCoBench是一个专门设计用于评估大语言模型在长上下文、多文件复杂软件工程场景中性能的综合基准测试框架,通过系统化的任务生成、多维度评估指标和真实代码库复杂性模拟,填补了现有代码评估基准在长上下文能力评估上的空白。


2️⃣ 论文创新点

1. 长上下文软件工程基准

2. 系统性上下文扩展评估

3. 综合任务类别设计

4. 新评估指标与LCBS


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF