arXiv最新AI论文速览速学

🔍

llm ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 96 72小时内新更新论文 72h更新 150 最新: Sentipolis: Emotion-Aware Agents for Social Simulations 01-31

arXiv ID: 2512.16649

arXiv 提交日期: 2025-12-18

llm model training reinforcement learning rlhf scaling laws reasoning mathematical benchmarks minimal training

JustRL：用简单的强化学习配方扩展15亿参数大语言模型 / JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

1️⃣ 一句话总结

这篇论文提出了一个名为JustRL的极简强化学习方法，它仅使用单阶段训练和固定参数，就在两个15亿参数模型上取得了顶尖的数学推理性能，同时计算量减半，挑战了当前领域普遍认为需要复杂训练流程才能取得好效果的观念。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16378

arXiv 提交日期: 2025-12-18

llm natural language processing multi-modal speech-to-text translation speechllm benchmark cascade systems speech foundation models

听译：语音模态集成到大型语言模型中的有效性研究 / Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

1️⃣ 一句话总结

这篇论文通过大规模实验发现，在语音翻译任务中，目前将语音直接集成到大型语言模型中的新方法，其整体表现仍然不如传统的“先转文字再翻译”的级联系统可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16912

arXiv 提交日期: 2025-12-18

llm reinforcement learning model training exploration-exploitation policy entropy spurious rewards rlvr reward misalignment

探索与利用：通过裁剪、熵和虚假奖励重新思考可验证奖励强化学习 / Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

1️⃣ 一句话总结

这篇论文通过分析虚假奖励和熵最小化这两种看似矛盾的方法，揭示了它们如何协同作用，在可验证奖励强化学习中提升大语言模型的推理能力，并解释了其背后的机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16921

arXiv 提交日期: 2025-12-18

model evaluation multi-modal llm capability auditing failure mode discovery automated evaluation model rectification reinforcement learning

差异至关重要：用于能力差距发现与修正的模型审计框架 / Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

1️⃣ 一句话总结

这篇论文提出了一个名为AuditDM的自动化审计框架，它通过生成能最大化不同模型之间分歧的挑战性问题和图像，来主动发现并修正多模态大语言模型的能力缺陷，从而在无需人工标注的情况下有效提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16918

arXiv 提交日期: 2025-12-18

multi-modal llm model training adaptive tool-use multimodal reasoning reinforcement learning vision-language model efficient inference

AdaTooler-V：面向图像与视频的自适应工具使用模型 / AdaTooler-V: Adaptive Tool-Use for Images and Videos

1️⃣ 一句话总结

这篇论文提出了一个名为AdaTooler-V的多模态大模型，它通过智能判断何时需要调用视觉工具来解决问题，从而在减少不必要计算开销的同时，显著提升了在图像和视频任务上的推理准确率，其性能甚至超过了GPT-4o等顶尖商业模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15031

arXiv 提交日期: 2025-12-17

llm natural language processing systems toxicity detection conversational derailment open source communities proactive moderation llm prompting

毒性预警：预测GitHub对话的脱轨 / Toxicity Ahead: Forecasting Conversational Derailment on GitHub

1️⃣ 一句话总结

这篇论文通过分析GitHub讨论中的对话模式，开发了一种基于大语言模型的两步提示框架，能够有效预测开源社区对话何时会演变为有害互动，从而为主动、可解释的内容审核提供了新工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15586

arXiv 提交日期: 2025-12-17

llm model training natural language processing byte-level language models tokenization knowledge distillation model compression character understanding

Bolmo：将下一代语言模型字节化 / Bolmo: Byteifying the Next Generation of Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为Bolmo的新方法，它通过一种高效的“字节化”技术，将现有的基于子词的语言模型转换成基于字节的模型，从而在保持高性能的同时，解决了传统子词模型在字符理解和效率上的局限，并且转换成本极低。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16041

arXiv 提交日期: 2025-12-17

llm model evaluation benchmark llm-as-a-judge evaluation framework consistency metrics preference transitivity human bias

我们评估“大语言模型作为评判者”的方法正确吗？ / Are We on the Right Way to Assessing LLM-as-a-Judge?

1️⃣ 一句话总结

这篇论文提出了一个名为Sage的无监督评估框架，它通过检验大语言模型作为评判者时的逻辑自洽性，发现当前顶尖模型在近四分之一困难案例中存在判断不一致的问题，并揭示了人类标注本身也并非完全可靠的黄金标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15489

arXiv 提交日期: 2025-12-17

llm model training data mathematical reasoning dataset distillation long-context training tool-integrated reasoning instruction tuning

Nemotron-Math：基于多模式监督的高效长上下文数学推理知识蒸馏 / Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

1️⃣ 一句话总结

这篇论文通过利用大模型生成多种解题思路和工具使用方式，构建了一个大规模、高质量的数学推理数据集，并开发了高效的训练方法，使AI模型在数学竞赛和实际应用中的解题能力达到了顶尖水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15907

arXiv 提交日期: 2025-12-17

llm model evaluation natural language processing tabular data reference-less evaluation knowledge graphs benchmark explainable ai

TabReX：基于无参考可解释评估的表格生成质量评估框架 / TabReX : Tabular Referenceless eXplainable Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为TabReX的无参考评估框架，它通过将文本和生成的表格转化为知识图谱并进行对齐匹配，来量化评估大语言模型生成表格的结构和事实准确性，并提供了一个大规模基准测试来验证其优越性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.16649

1️⃣ 一句话总结

arXiv ID: 2512.16378

1️⃣ 一句话总结

arXiv ID: 2512.16912

1️⃣ 一句话总结

arXiv ID: 2512.16921

1️⃣ 一句话总结

arXiv ID: 2512.16918

1️⃣ 一句话总结

arXiv ID: 2512.15031

1️⃣ 一句话总结

arXiv ID: 2512.15586

1️⃣ 一句话总结

arXiv ID: 2512.16041

1️⃣ 一句话总结

arXiv ID: 2512.15489

1️⃣ 一句话总结

arXiv ID: 2512.15907

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.16649 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16378 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16912 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16921 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16918 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15031 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15586 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16041 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15907 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.16649

arXiv ID: 2512.16378

arXiv ID: 2512.16912

arXiv ID: 2512.16921

arXiv ID: 2512.16918

arXiv ID: 2512.15031

arXiv ID: 2512.15586

arXiv ID: 2512.16041

arXiv ID: 2512.15489

arXiv ID: 2512.15907