arXiv ID:
2602.20159
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
1️⃣ 一句话总结
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。
一个超大规模视频推理数据集与评测套件 / A Very Big Video Reasoning Suite
这篇论文创建了一个前所未有的超大规模视频推理数据集和评测框架,首次系统地研究了视频模型的推理能力,并发现了模型在未见任务上出现泛化能力的早期迹象。
通过交织语义、声学和文本标记来扩展开放离散音频基础模型 / Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens
这篇论文提出了一种新的音频基础模型SODA,它通过同时学习音频的语义内容、声学细节和文本信息,能够灵活地处理多种音频生成和跨模态任务,并首次揭示了此类模型的扩展规律。
量化大语言模型评估中的构念效度 / Quantifying construct validity in large language model evaluations
这篇论文提出了一种新的‘结构化能力模型’,通过结合潜在因子模型和缩放定律的优点,从大量基准测试结果中提取出可解释且可泛化的模型能力,从而更准确地评估大语言模型的真实水平,避免仅依赖有缺陷的基准分数。
用于增强喷注标记的神经缩放定律 / Neural Scaling Laws for Boosted Jet Tagging
这篇论文研究了在高能物理的喷注分类任务中,模型性能如何随着计算资源、数据量和特征选择的增加而提升的规律,发现增加计算资源可以稳定地将性能推向一个极限,并且使用更底层、信息更丰富的特征可以提高这个性能极限。
量化陷阱:打破多步推理中的线性缩放定律 / The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning
这篇论文发现,在处理需要多步推理的复杂任务时,简单地降低AI模型的计算精度(如从16位降到8位或4位)不仅不会节省能耗,反而会因为硬件转换开销和去量化延迟成为瓶颈,导致总能耗增加和推理准确性下降,从而打破了业界普遍认为的‘精度越低、效率越高’的线性缩放定律。
魔法相关性:理解从预训练到监督微调的知识迁移 / The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning
这篇论文通过系统研究发现,大语言模型从预训练到监督微调的知识迁移效果并不稳定,其可靠程度会因任务类型、评估基准和模型规模的不同而产生巨大差异,为如何高效选择和利用数据来训练模型提供了实用指导。
昆仑:通过统一架构设计建立大规模推荐系统的缩放定律 / Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design
这篇论文提出了一个名为‘昆仑’的新型推荐系统架构,它通过一系列底层优化和高层创新设计,显著提升了模型的计算效率和资源利用率,从而首次为大规模推荐系统建立了可预测的性能与计算资源投入之间的缩放定律,并已在Meta广告系统中成功部署。
MARTI-MARS²:通过强化学习实现代码生成的多智能体自我搜索扩展 / MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation
这篇论文提出了一种名为MARTI-MARS²的新框架,它通过强化学习让多个AI智能体像团队一样协作、互相学习和纠正错误,从而显著提升了复杂代码生成任务的性能,并发现智能体之间的策略多样性是提升整体能力的关键。
预训练模型规模扩展可证明降低下游任务样本复杂度 / Provable Target Sample Complexity Improvements as Pre-Trained Models Scale
这篇论文通过一个名为‘填隙’的新理论框架,首次从理论上证明了更大的预训练模型确实能降低下游任务的学习所需数据量,为实践中观察到的‘模型越大,下游性能越好’的规律提供了坚实的数学解释。
通过多样性理解基于大语言模型的多智能体系统中的智能体扩展 / Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
这项研究发现,在基于大语言模型的多智能体系统中,单纯增加同质智能体的数量对性能提升效果有限,而引入不同模型、提示或工具的异质性智能体则能通过提供互补信息,显著提升系统性能,其根本原因在于系统性能受限于任务本身的不确定性,而非智能体数量。
请先 登录 后再提交论文