AlignBench:利用合成图像-描述对评估细粒度图文对齐的基准 / AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
1️⃣ 一句话总结
这篇论文提出了一个名为AlignBench的新基准测试,它通过评估由多种模型生成的详细图文对来更精细地衡量图像与文本的对齐程度,并发现当前主流模型在细粒度对齐上存在明显缺陷。
请先 登录 后再提交论文
AlignBench:利用合成图像-描述对评估细粒度图文对齐的基准 / AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
这篇论文提出了一个名为AlignBench的新基准测试,它通过评估由多种模型生成的详细图文对来更精细地衡量图像与文本的对齐程度,并发现当前主流模型在细粒度对齐上存在明显缺陷。
基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。
提升乒乓球分析:一种用于三维轨迹与旋转估计的鲁棒性实际应用 / Uplifting Table Tennis: A Robust, Real-World Application for 3D Trajectory and Spin Estimation
本研究提出了一种新的两阶段方法,通过结合真实世界视频的二维检测与物理模拟数据的三维重建,实现了对乒乓球轨迹和旋转的精确、鲁棒的三维分析,解决了现有方法在真实场景中泛化能力不足的问题。
Llama-Embed-Nemotron-8B:面向多语言与跨语言任务的通用文本嵌入模型 / Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
这篇论文提出了一个开源的通用文本嵌入模型,通过在多语言任务中实现顶尖性能并公开模型权重与训练细节,为检索、分类等任务提供了灵活高效的解决方案。
利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision
这篇论文提出了一个名为SynthAgent的框架,通过双重优化合成任务和行动轨迹来提升数据质量,从而帮助网络智能体更好地适应新网站环境,实验证明其效果优于现有方法。
Step-Audio-EditX 技术报告 / Step-Audio-EditX Technical Report
这篇论文提出了首个基于大语言模型的开源音频编辑工具Step-Audio-EditX,它通过创新的合成数据训练方法,实现了对音频情感、说话风格等细节的高表现力编辑和零样本语音生成,并在多项任务中超越了现有先进模型。
UniREditBench:一个统一的基于推理的图像编辑基准 / UniREditBench: A Unified Reasoning-based Image Editing Benchmark
这篇论文提出了一个名为UniREditBench的综合性基准测试,用于系统评估图像编辑模型在需要复杂推理的各种场景下的表现,并通过引入多模态双参考评估方法和构建大规模合成数据集,显著提升了评估的准确性和模型的性能。
阿里阿德涅:一个用于探索和扩展视觉语言模型推理边界的可控框架 / Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries
这篇论文提出了一个名为Ariadne的可控框架,通过使用合成迷宫进行强化学习训练,成功扩展了视觉语言模型在视觉主导的空间推理任务上的能力边界,并显著提升了模型在真实世界导航任务中的零样本泛化性能。
迈向通用视频检索:通过合成的多模态金字塔课程泛化视频嵌入 / Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum
本研究提出了一个集评估、数据和模型于一体的通用视频检索框架,通过构建综合评测基准、生成大规模合成数据以及设计多模态学习课程,显著提升了视频检索模型在零样本场景下的跨任务和跨领域泛化能力。
视觉语言模型能否胜任测量任务?用MeasureBench基准测试视觉测量读数能力 / Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
这项研究提出了一个名为MeasureBench的视觉测量读数基准测试,发现当前最先进的视觉语言模型在读取仪表数据时普遍存在指针定位困难,导致数值误差较大,揭示了模型在精细空间感知能力上的根本局限。