arXiv ID:
2510.18212
AGI的定义 / A Definition of AGI
1️⃣ 一句话总结
这篇论文提出了一个基于人类认知理论的量化框架来定义人工通用智能(AGI),将其定位为达到受过良好教育的成年人的认知水平,并通过评估当前AI模型揭示了它们在关键认知能力上的显著不足和进展。
AGI的定义 / A Definition of AGI
这篇论文提出了一个基于人类认知理论的量化框架来定义人工通用智能(AGI),将其定位为达到受过良好教育的成年人的认知水平,并通过评估当前AI模型揭示了它们在关键认知能力上的显著不足和进展。
机器人挑战:大规模实机评估具身策略 / RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies
这篇论文介绍了一个名为RoboChallenge的在线系统,旨在通过大规模、可重复的实机测试来高效评估机器人控制算法,并利用其初始基准Table30对当前先进的视觉语言动作模型进行了性能调查。
SAKE:面向大型音频语言模型听觉属性知识的编辑 / SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
这项研究提出了首个专门用于编辑大型音频语言模型中听觉属性知识的基准SAKE,通过评估多种编辑方法在多维指标上的表现,揭示了在保持知识一致性、泛化能力和持续更新方面的挑战,为音频模态的知识更新提供了新方向。
探究大型音频语言模型在说话者情绪变化下的安全漏洞 / Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations
这项研究发现,大型音频语言模型在面对不同情绪和强度的语音指令时,会产生不一致的安全反应,其中中等强度的情绪表达风险最高,揭示了模型在真实场景中部署的安全隐患。
TokDrift:当大语言模型以子词说话而代码以语法说话 / TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar
这篇论文发现,由于代码大语言模型使用的子词分词方法(如BPE)与代码语法不匹配,导致即使微小的格式变化(如空格或变量名)也会显著影响模型行为,揭示了当前分词方式是代码理解和生成可靠性的一个隐藏障碍。
方言生成:多模态生成中的方言鲁棒性基准测试与改进 / DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation
这篇论文发现当前最先进的多模态生成模型在处理方言输入时性能显著下降,并提出了一种新的编码器方法,能在不损害标准英语性能的前提下,大幅提升模型对多种方言的理解和生成能力。
GroundedPRM:基于树引导和保真度感知的过程奖励建模用于步骤级推理 / GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning
这篇论文提出了一种名为GroundedPRM的新方法,通过结合树搜索算法和外部工具验证,自动生成高质量的过程监督信号,从而显著提升大语言模型在多步推理任务中的准确性和可解释性,且所需训练数据量仅为现有最佳方法的10%。
基于上下文感知的扩展定律预测任务性能 / Predicting Task Performance with Context-aware Scaling Laws
这项研究提出了一个结合训练计算量和上下文信息来预测大语言模型下游任务表现的新框架,解决了传统扩展定律无法准确评估实际应用效果的局限性。
基于预算感知的测试时缩放:通过判别性验证实现 / Budget-aware Test-time Scaling via Discriminative Verification
这篇论文提出了一种结合判别性验证和自一致性的混合方法,在固定计算预算下显著提升大语言模型的推理性能,比现有生成式验证更高效且准确。
基于采样的推理:你的基础模型比你想象得更聪明 / Reasoning with Sampling: Your Base Model is Smarter Than You Think
这篇论文提出了一种无需额外训练、仅通过迭代采样就能显著提升基础模型推理能力的方法,其效果在多项任务上接近甚至超过需要强化学习的复杂训练方法。
请先 登录 后再提交论文