arXiv ID:
2510.08558
基于早期经验的智能体学习 / Agent Learning via Early Experience
1️⃣ 一句话总结
这篇论文提出了一种名为‘早期经验’的新学习范式,让AI智能体通过自身在环境中的初步互动数据来学习,无需依赖奖励信号,从而有效提升了任务执行能力和对新场景的泛化能力。
基于早期经验的智能体学习 / Agent Learning via Early Experience
这篇论文提出了一种名为‘早期经验’的新学习范式,让AI智能体通过自身在环境中的初步互动数据来学习,无需依赖奖励信号,从而有效提升了任务执行能力和对新场景的泛化能力。
DexNDM:通过关节级神经动力学模型弥合灵巧手内旋转的现实差距 / DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model
这项研究提出了一种新方法,通过一个高效的关节级动力学模型和自主数据收集策略,成功解决了机器人灵巧手在真实世界中旋转各种复杂物体时,从模拟训练到实际应用的转换难题。
VideoCanvas:通过上下文条件化从任意时空补丁实现统一视频补全 / VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
这篇论文提出了VideoCanvas框架,通过创新的时空解耦控制方法,实现了用户只需指定任意位置和时间的视频片段,就能灵活生成完整视频,统一了多种视频生成任务并取得了领先性能。
熵正则化激活:通过激活函数作为熵约束提升连续控制、大语言模型和图像分类性能 / Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints
该论文提出了一种名为ERA的新方法,通过设计特殊的激活函数来约束模型输出的熵值,从而在多个领域显著提升性能,包括大语言模型的数学推理能力、强化学习智能体的控制效果以及图像分类的准确率,且计算开销极小。
R2RGEN:面向空间泛化操作的真实到真实三维数据生成 / R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
本文提出了一种无需模拟器和渲染的R2RGEN框架,能够直接从少量真实演示中高效生成多样化的三维点云数据,显著提升机器人操作策略在复杂空间环境下的泛化能力。
MM-HELIX:通过整体平台与自适应混合策略优化提升多模态长链反思推理能力 / MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
本研究提出了MM-HELIX多模态长链反思推理基准和自适应混合策略优化方法,显著提升了多模态大模型在需要反复思考和回溯的复杂任务上的推理能力。
哪些注意力头对推理至关重要?基于强化学习的KV缓存压缩方法 / Which Heads Matter for Reasoning? RL-Guided KV Cache Compression
这项研究提出了一种基于强化学习的新方法,能够自动识别并保护大语言模型中少数对复杂推理至关重要的注意力头,同时对其他头进行高效压缩,实现在减少20-50%内存占用的同时保持近乎无损的推理性能。
InstructX:基于多模态大语言模型引导的统一视觉编辑框架 / InstructX: Towards Unified Visual Editing with MLLM Guidance
这篇论文提出了一个名为InstructX的统一框架,通过巧妙结合多模态大语言模型和扩散模型,实现了仅用图像数据训练就能同时处理图像和视频编辑任务,并在多种编辑任务中取得了领先性能。
深度剪枝:消除轨迹间冗余的并行扩展方法 / DeepPrune: Parallel Scaling without Inter-trace Redundancy
这篇论文提出了一种名为DeepPrune的新方法,通过动态剪枝技术有效消除大语言模型并行推理过程中产生的冗余计算,能在保持准确率的同时将计算量减少80%以上。
基于分数正则化连续时间一致性的大规模扩散蒸馏 / Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency
这项研究提出了一种名为分数正则化连续时间一致性模型的新方法,通过结合分数蒸馏作为长跳跃正则器,有效解决了现有技术在生成精细图像和视频时的质量问题,使得大规模扩散模型仅需1到4步就能生成高保真样本,加速效果达15到50倍,同时保持高多样性。
请先 登录 后再提交论文