arXiv最新AI论文速览速学

🔍

标签: #reasoning capabilities ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models 11-30

arXiv ID: 2511.13704

arXiv 提交日期: 2025-11-17

video generation model evaluation benchmark video reasoning evaluation benchmark test-time optimization reasoning capabilities video generation models

TiViBench：视频生成模型中的视频内推理能力基准测试 / TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

1️⃣ 一句话总结

这篇论文提出了一个名为TiViBench的基准测试，专门用于评估视频生成模型在视频中进行复杂推理的能力，并介绍了一种无需额外训练即可提升模型推理性能的优化方法VideoTPO。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07317

arXiv 提交日期: 2025-11-10

reinforcement learning llm model training verifiable environments adaptive difficulty reasoning capabilities environment scaling procedural generation

RLVE：通过自适应可验证环境扩展语言模型的强化学习 / RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

1️⃣ 一句话总结

这篇论文提出了一种名为RLVE的新方法，通过创建大量能自动调整题目难度的可验证环境来训练语言模型，显著提升了模型在多种推理任务上的表现，且比传统强化学习方法更高效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.06221

arXiv 提交日期: 2025-11-09

model training model evaluation machine learning reasoning capabilities small models knowledge distillation mathematical reasoning training optimization

小模型，大逻辑：多样性驱动优化激发VibeThinker-1.5B具备大模型推理能力 / Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

1️⃣ 一句话总结

这篇论文通过一种名为‘频谱到信号原则’的新方法，成功让仅有15亿参数的小模型VibeThinker-1.5B在数学推理任务上超越了参数规模大数百倍的大型模型，证明小模型通过高效训练也能具备强大的逻辑推理能力，大幅降低了AI研发成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01144

arXiv 提交日期: 2025-11-03

llm benchmark evaluation cyber threat intelligence security analysis model evaluation reasoning capabilities workflow automation

AthenaBench：用于评估网络威胁情报中大型语言模型的动态基准 / AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

1️⃣ 一句话总结

这篇论文提出了一个名为AthenaBench的增强基准，用于评估大型语言模型在网络威胁情报任务中的表现，发现当前模型在推理密集型任务上仍有明显不足，强调需要开发专门针对该领域的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26474

arXiv 提交日期: 2025-10-30

natural language processing model training model evaluation self-improvement vision-language models data imbalance reasoning capabilities head-tail rebalancing

通过头尾数据再平衡对抗LVLM自我改进中的马太效应 / Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

1️⃣ 一句话总结

这项研究提出四种高效策略来解决大型视觉语言模型在自我改进过程中对简单问题过度优化而忽视复杂问题的马太效应，通过数据分布重塑和轨迹重采样方法显著提升了模型的视觉推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.09189

arXiv 提交日期: 2025-10-10

llm natural language processing model training multilingual translation reasoning capabilities layer-selective tuning low-resource languages instruction tuning

LLaMAX2：你的翻译增强模型在推理任务上同样表现出色 / LLaMAX2: Your Translation-Enhanced Model also Performs Well in Reasoning

1️⃣ 一句话总结

这篇论文提出了一种新的翻译增强方法，通过指令模型和分层选择性调优，使模型在提升多语言翻译能力的同时，依然保持了强大的推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.16949

arXiv 提交日期: 2025-08-23

llm reinforcement learning model training instructional scaffolding reasoning capabilities exploration bottleneck llm-as-a-judge rubric-guided learning

打破探索瓶颈：基于评分量规的强化学习用于通用大语言模型推理 / Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

1️⃣ 一句话总结

这项研究提出了一种名为RuscaRL的新方法，通过使用评分量规作为指导来帮助大语言模型在推理任务中更有效地探索高质量答案，并利用这些量规提供可靠的奖励信号进行强化学习，从而显著提升了模型在复杂推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.13704

1️⃣ 一句话总结

arXiv ID: 2511.07317

1️⃣ 一句话总结

arXiv ID: 2511.06221

1️⃣ 一句话总结

arXiv ID: 2511.01144

1️⃣ 一句话总结

arXiv ID: 2510.26474

1️⃣ 一句话总结

arXiv ID: 2510.09189

1️⃣ 一句话总结

arXiv ID: 2508.16949

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.13704 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.06221 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01144 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.09189 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.16949 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.13704

arXiv ID: 2511.07317

arXiv ID: 2511.06221

arXiv ID: 2511.01144

arXiv ID: 2510.26474

arXiv ID: 2510.09189

arXiv ID: 2508.16949