📄 论文总结
AthenaBench:用于评估网络威胁情报中大型语言模型的动态基准 / AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
1️⃣ 一句话总结
这篇论文提出了一个名为AthenaBench的增强基准,用于评估大型语言模型在网络威胁情报任务中的表现,发现当前模型在推理密集型任务上仍有明显不足,强调需要开发专门针对该领域的模型。
请先 登录 后再提交论文
AthenaBench:用于评估网络威胁情报中大型语言模型的动态基准 / AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
这篇论文提出了一个名为AthenaBench的增强基准,用于评估大型语言模型在网络威胁情报任务中的表现,发现当前模型在推理密集型任务上仍有明显不足,强调需要开发专门针对该领域的模型。
CodeClash:面向目标的软件工程基准测试 / CodeClash: Benchmarking Goal-Oriented Software Engineering
这篇论文提出了一个名为CodeClash的基准测试平台,通过多轮竞赛评估语言模型在开放目标下自主优化代码的能力,发现当前模型在战略规划和长期代码维护方面存在明显不足,难以与人类程序员匹敌。
迈向通用视频检索:通过合成的多模态金字塔课程泛化视频嵌入 / Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
本研究提出了一个集评估、数据和模型于一体的通用视频检索框架,通过构建综合评测基准、生成大规模合成数据以及设计多模态学习课程,显著提升了视频检索模型在零样本场景下的跨任务和跨领域泛化能力。
视觉语言模型能否胜任测量任务?用MeasureBench基准测试视觉测量读数能力 / Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
这项研究提出了一个名为MeasureBench的视觉测量读数基准测试,发现当前最先进的视觉语言模型在读取仪表数据时普遍存在指针定位困难,导致数值误差较大,揭示了模型在精细空间感知能力上的根本局限。
AMO-Bench:大型语言模型在高中数学竞赛中仍表现不佳 / AMO-Bench: Large Language Models Still Struggle in High School Math Competitions
这篇论文提出了一个高难度的数学推理基准测试AMO-Bench,发现当前最先进的大型语言模型在解决奥林匹克级别数学问题时准确率仍然很低,最高仅为52.4%,表明AI在复杂数学推理方面仍有很大提升空间。
ChartAB:一个用于图表定位与密集对齐的基准测试 / ChartAB: A Benchmark for Chart Grounding & Dense Alignment
这篇论文提出了一个名为ChartAB的新基准测试,专门用于评估视觉语言模型在图表理解中的细节感知能力,包括数据提取、元素定位和多图表比较,揭示了现有模型的感知偏差和局限性。
RiddleBench:面向大语言模型的新型生成式推理基准 / RiddleBench: A New Generative Reasoning Benchmark for LLMs
这篇论文提出了一个名为RiddleBench的新型推理基准,包含1737个英语谜题,旨在评估大语言模型在逻辑、空间和约束整合等核心推理能力上的表现,结果发现即使顶尖模型也存在严重缺陷,如幻觉传播和自我修正能力差。
垄断交易:有界单边响应游戏的基准环境 / Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games
这篇论文提出了一种新型游戏类别——有界单边响应游戏,并通过改造《垄断交易》卡牌游戏创建了一个基准测试平台,展示了标准算法在该复杂策略环境中无需额外修改就能学习到有效策略。
视觉模型在图结构理解中被低估的能力 / The Underappreciated Power of Vision Models for Graph Structural Understanding
这项研究发现视觉模型在理解图结构方面具有被低估的强大能力,尤其在识别整体模式和适应不同图规模的任务上显著优于传统的图神经网络,为开发更有效的图基础模型开辟了新途径。
AstaBench:基于科学研究套件的AI智能体严谨基准测试 / AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
这篇论文提出了一个名为AstaBench的全面基准测试套件,用于科学评估AI智能体在科研任务中的实际能力,并通过大规模测试发现当前AI在整体科研辅助方面仍存在明显局限。