arXiv ID:
2601.15197
arXiv 提交日期: 2026-01-21
BayesianVLA:通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解 / BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
1️⃣ 一句话总结
这篇论文提出了一种名为BayesianVLA的新方法,通过引入贝叶斯分解和潜在动作查询,有效解决了现有机器人视觉-语言-动作模型在遇到新指令或多任务时容易忽略语言、只依赖视觉的‘信息坍缩’问题,从而显著提升了模型遵循指令和泛化到新场景的能力。