引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
1️⃣ 一句话总结
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
请先 登录 后再提交论文
引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
SCALE:通过选择性资源分配克服数学测试时扩展中的性能瓶颈 / SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
这篇论文提出了一种名为SCALE的新方法,它像一位聪明的项目经理,在大型语言模型解决数学问题时,能自动识别并集中计算资源去攻克难题,而不是平均分配,从而在显著提升解题准确率的同时,大幅降低了计算成本。
大型语言模型测试时计算资源的扩展艺术 / The Art of Scaling Test-Time Compute for Large Language Models
这项研究首次大规模评估了多种动态分配推理计算资源的策略,发现没有一种策略在所有情况下都最优,并基于模型类型、问题难度和计算预算,为如何选择最佳策略提供了实用指南。
顺序优势:在同等计算量下,逆熵投票优于并行自一致性方法 / The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute
这项研究发现,在相同计算资源下,让语言模型通过顺序迭代改进答案的方法,比同时运行多个独立推理链的并行方法更有效,并通过一种新的逆熵加权投票技术进一步提升了准确率。
将测试时计算最优缩放推广为可优化图 / Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph
这篇论文提出了一种新方法,将多个大语言模型在推理时的协作形式化为一个可优化的图结构,并通过智能代理框架自动搜索在固定计算预算下最适合特定任务的高效协作方案,从而在准确性和速度之间取得更好平衡。
基于预算感知的测试时缩放:通过判别性验证实现 / Budget-aware Test-time Scaling via Discriminative Verification
这篇论文提出了一种结合判别性验证和自一致性的混合方法,在固定计算预算下显著提升大语言模型的推理性能,比现有生成式验证更高效且准确。
边听边思考:音频分类的简单测试时扩展方法 / Thinking While Listening: Simple Test Time Scaling For Audio Classification
这篇论文提出了一种让神经网络在识别日常声音时能够‘边听边思考’的方法,通过测试时扩展和推理机制,有效提升了音频分类的准确率,甚至用轻量级模型超越了大型语言模型的零样本推理性能。
EconProver:面向自动定理证明的更经济测试时扩展方法 / EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving
本文提出了一种名为EconProver的经济型自动定理证明方法,通过动态思维链切换和并行强化学习技术,在保持性能的同时将计算成本降低至原有方法的12%。