📄 论文总结
LiveSecBench:面向中文语境大语言模型的动态与文化相关AI安全基准 / LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
1️⃣ 一句话总结
这篇论文提出了一个专门针对中文应用场景的动态AI安全评测基准,从法律、伦理、事实性等六个维度评估大模型,并通过定期更新来应对新兴安全威胁。
请先 登录 后再提交论文
LiveSecBench:面向中文语境大语言模型的动态与文化相关AI安全基准 / LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
这篇论文提出了一个专门针对中文应用场景的动态AI安全评测基准,从法律、伦理、事实性等六个维度评估大模型,并通过定期更新来应对新兴安全威胁。
LTD-Bench:通过让大语言模型绘画来评估它们 / LTD-Bench: Evaluating Large Language Models by Letting Them Draw
这篇论文提出了一个名为LTD-Bench的创新评估基准,通过让大语言模型生成绘画来直观揭示它们在空间推理能力上的严重缺陷,弥补了传统数值评估方法的不足。
迈向稳健的数学推理 / Towards Robust Mathematical Reasoning
这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准,旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力,并展示了其模型在此基准上的优异表现。
TIR-Bench:面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
这篇论文提出了一个名为TIR-Bench的新基准测试,专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力,填补了现有测试在衡量高级视觉思维方面的不足。
环形巴士:一个用于评估视觉语言模型理解画谜能力的大型多样化多模态基准 / $\left|\,\circlearrowright\,\boxed{\text{BUS}}\,\right|$: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
这篇论文提出了一个包含1333个英文画谜的大型多样化评测基准,并设计了一种结合描述与代码推理的新方法,显著提升了各类视觉语言模型在理解这类需要综合认知能力的谜题上的表现。
UniREditBench:一个统一的基于推理的图像编辑基准 / UniREditBench: A Unified Reasoning-based Image Editing Benchmark
这篇论文提出了一个名为UniREditBench的综合性基准测试,用于系统评估图像编辑模型在需要复杂推理的各种场景下的表现,并通过引入多模态双参考评估方法和构建大规模合成数据集,显著提升了评估的准确性和模型的性能。
ROVER:面向全模态生成的互惠跨模态推理基准评测 / ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
这篇论文提出了一个名为ROVER的基准测试,用于评估统一多模态模型在图像和文本之间进行双向推理的能力,发现跨模态推理对生成质量至关重要,并揭示了模型在物理和符号推理上的表现差异。
AthenaBench:用于评估网络威胁情报中大型语言模型的动态基准 / AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
这篇论文提出了一个名为AthenaBench的增强基准,用于评估大型语言模型在网络威胁情报任务中的表现,发现当前模型在推理密集型任务上仍有明显不足,强调需要开发专门针对该领域的模型。
CodeClash:面向目标的软件工程基准测试 / CodeClash: Benchmarking Goal-Oriented Software Engineering
这篇论文提出了一个名为CodeClash的基准测试平台,通过多轮竞赛评估语言模型在开放目标下自主优化代码的能力,发现当前模型在战略规划和长期代码维护方面存在明显不足,难以与人类程序员匹敌。
迈向通用视频检索:通过合成的多模态金字塔课程泛化视频嵌入 / Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
本研究提出了一个集评估、数据和模型于一体的通用视频检索框架,通过构建综合评测基准、生成大规模合成数据以及设计多模态学习课程,显著提升了视频检索模型在零样本场景下的跨任务和跨领域泛化能力。