arXiv最新AI论文速览速学

📄

2512.02834

🤖 系统

12-05 15:08

robotics model training agents

vision-language-action test-time scaling anti-exploration pseudo-count inference stability

引导视觉-语言-动作模型作为反探索：一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

1️⃣ 一句话总结

这篇论文提出了一种名为TACO的新方法，它通过在机器人执行任务时实时选择最可靠的行动方案，有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题，从而大幅提升了任务成功率，且无需昂贵的重新训练。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.00466

🤖 系统

12-03 15:42

llm model evaluation theory

test-time scaling mathematical reasoning resource allocation dual-process theory computational efficiency

SCALE：通过选择性资源分配克服数学测试时扩展中的性能瓶颈 / SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

1️⃣ 一句话总结

这篇论文提出了一种名为SCALE的新方法，它像一位聪明的项目经理，在大型语言模型解决数学问题时，能自动识别并集中计算资源去攻克难题，而不是平均分配，从而在显著提升解题准确率的同时，大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02008

🤖 系统

12-02 14:55

llm model evaluation systems

test-time scaling inference compute reasoning efficiency compute budget

大型语言模型测试时计算资源的扩展艺术 / The Art of Scaling Test-Time Compute for Large Language Models

1️⃣ 一句话总结

这项研究首次大规模评估了多种动态分配推理计算资源的策略，发现没有一种策略在所有情况下都最优，并基于模型类型、问题难度和计算预算，为如何选择最佳策略提供了实用指南。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.02309

🤖 系统

11-30 17:49

llm model evaluation theory

reasoning test-time scaling sequential refinement voting methods inference optimization

📄 论文总结

顺序优势：在同等计算量下，逆熵投票优于并行自一致性方法 / The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

1️⃣ 一句话总结

这项研究发现，在相同计算资源下，让语言模型通过顺序迭代改进答案的方法，比同时运行多个独立推理链的并行方法更有效，并通过一种新的逆熵加权投票技术进一步提升了准确率。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.00086

🤖 系统

11-30 17:47

llm agents model evaluation

test-time scaling multi-llm collaboration graph optimization reinforce algorithm compute optimization

📄 论文总结

将测试时计算最优缩放推广为可优化图 / Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

1️⃣ 一句话总结

这篇论文提出了一种新方法，将多个大语言模型在推理时的协作形式化为一个可优化的图结构，并通过智能代理框架自动搜索在固定计算预算下最适合特定任务的高效协作方案，从而在准确性和速度之间取得更好平衡。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.14913

🤖 系统

11-30 17:42

llm model evaluation machine learning

test-time scaling discriminative verification self-consistency computational efficiency reasoning tasks

📄 论文总结

基于预算感知的测试时缩放：通过判别性验证实现 / Budget-aware Test-time Scaling via Discriminative Verification

1️⃣ 一句话总结

这篇论文提出了一种结合判别性验证和自一致性的混合方法，在固定计算预算下显著提升大语言模型的推理性能，比现有生成式验证更高效且准确。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.19676

🤖 系统

11-30 17:34

audio model training model evaluation

audio classification test-time scaling reasoning models neural networks embedding retraining

📄 论文总结

边听边思考：音频分类的简单测试时扩展方法 / Thinking While Listening: Simple Test Time Scaling For Audio Classification

1️⃣ 一句话总结

这篇论文提出了一种让神经网络在识别日常声音时能够‘边听边思考’的方法，通过测试时扩展和推理机制，有效提升了音频分类的准确率，甚至用轻量级模型超越了大型语言模型的零样本推理性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.12603

🤖 系统

11-30 17:33

llm theory model training

automated theorem proving chain-of-thought reinforcement learning computational efficiency test-time scaling

📄 论文总结

EconProver：面向自动定理证明的更经济测试时扩展方法 / EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving

1️⃣ 一句话总结

本文提出了一种名为EconProver的经济型自动定理证明方法，通过动态思维链切换和并行强化学习技术，在保持性能的同时将计算成本降低至原有方法的12%。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.02834

1️⃣ 一句话总结

2512.00466

1️⃣ 一句话总结

2512.02008

1️⃣ 一句话总结

2511.02309

📄 论文总结

1️⃣ 一句话总结

2511.00086

📄 论文总结

1️⃣ 一句话总结

2510.14913

📄 论文总结

1️⃣ 一句话总结

2509.19676

📄 论文总结

1️⃣ 一句话总结

2509.12603

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.02834 📝

1️⃣ 一句话总结

2512.00466 📝

1️⃣ 一句话总结

2512.02008 📝

1️⃣ 一句话总结

2511.02309 📝

📄 论文总结

1️⃣ 一句话总结

2511.00086 📝

📄 论文总结

1️⃣ 一句话总结

2510.14913 📝

📄 论文总结

1️⃣ 一句话总结

2509.19676 📝

📄 论文总结

1️⃣ 一句话总结

2509.12603 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.02834

2512.00466

2512.02008

2511.02309

2511.00086

2510.14913

2509.19676

2509.12603