📄 论文总结
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
1️⃣ 一句话总结
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
请先 登录 后再提交论文
TiViBench:视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models
这篇论文提出了一个名为TiViBench的基准测试,专门用于评估视频生成模型在视频中进行复杂推理的能力,并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。
RLVE:通过自适应可验证环境扩展语言模型的强化学习 / RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments
这篇论文提出了一种名为RLVE的新方法,通过创建大量能自动调整题目难度的可验证环境来训练语言模型,显著提升了模型在多种推理任务上的表现,且比传统强化学习方法更高效。
小模型,大逻辑:多样性驱动优化激发VibeThinker-1.5B具备大模型推理能力 / Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
这篇论文通过一种名为‘频谱到信号原则’的新方法,成功让仅有15亿参数的小模型VibeThinker-1.5B在数学推理任务上超越了参数规模大数百倍的大型模型,证明小模型通过高效训练也能具备强大的逻辑推理能力,大幅降低了AI研发成本。
AthenaBench:用于评估网络威胁情报中大型语言模型的动态基准 / AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
这篇论文提出了一个名为AthenaBench的增强基准,用于评估大型语言模型在网络威胁情报任务中的表现,发现当前模型在推理密集型任务上仍有明显不足,强调需要开发专门针对该领域的模型。
通过头尾数据再平衡对抗LVLM自我改进中的马太效应 / Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
这项研究提出四种高效策略来解决大型视觉语言模型在自我改进过程中对简单问题过度优化而忽视复杂问题的马太效应,通过数据分布重塑和轨迹重采样方法显著提升了模型的视觉推理能力。
LLaMAX2:你的翻译增强模型在推理任务上同样表现出色 / LLaMAX2: Your Translation-Enhanced Model also Performs Well in Reasoning
这篇论文提出了一种新的翻译增强方法,通过指令模型和分层选择性调优,使模型在提升多语言翻译能力的同时,依然保持了强大的推理性能。
打破探索瓶颈:基于评分量规的强化学习用于通用大语言模型推理 / Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
这项研究提出了一种名为RuscaRL的新方法,通过使用评分量规作为指导来帮助大语言模型在推理任务中更有效地探索高质量答案,并利用这些量规提供可靠的奖励信号进行强化学习,从而显著提升了模型在复杂推理任务上的表现。