arXiv ID:
2601.20552
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
1️⃣ 一句话总结
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
DeepSeek-OCR 2:视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow
这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器,它能够根据图像内容智能地重新排列视觉信息,再交给大语言模型处理,为理解复杂图像提供了一种新思路。
SERA:软验证高效代码库智能体 / SERA: Soft-Verified Efficient Repository Agents
这篇论文提出了一种名为SERA的高效、低成本训练方法,能让开源的代码助手快速学习并精通某个私有代码库,其性能媲美顶尖模型,但训练成本仅为传统强化学习方法的1/26,从而首次将‘为私有代码库定制AI助手’这一理论优势变为现实。
Spark:通过关键状态动态分支实现面向长周期智能体学习的策略感知探索 / Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning
这篇论文提出了一种名为Spark的新方法,它通过让智能体在关键决策点进行动态分支探索,从而用更少的训练样本高效学习复杂的长周期任务,并实现更好的泛化能力。
Talos:优化推荐系统中的Top-K准确率 / Talos: Optimizing Top-$K$ Accuracy in Recommender Systems
这篇论文提出了一种名为Talos的新型损失函数,它通过分位数技术和阈值学习来直接优化推荐系统的Top-K准确率,从而在保证高效计算的同时,有效应对数据分布变化带来的挑战。
基于辅助损失的解耦式分割学习 / Decoupled Split Learning via Auxiliary Loss
这篇论文提出了一种新的分割学习方法,通过在客户端增加一个辅助分类器来提供本地训练信号,从而让客户端和服务器能够半独立地训练各自的模型部分,这种方法在保持与标准方法相当性能的同时,将通信开销减少了一半,并显著降低了内存使用。
PaW-ViT:一种基于补丁形变的视觉Transformer,用于鲁棒的耳部验证 / PaW-ViT: A Patch-based Warping Vision Transformer for Robust Ear Verification
这篇论文提出了一种名为PaW-ViT的新方法,它通过基于解剖学知识对耳朵图像进行预处理和形变对齐,使视觉Transformer模型能更稳定、准确地识别不同形状、大小和姿态的耳朵,从而提升了耳部生物识别的鲁棒性。
利用组稀疏自编码器分解多模态嵌入空间 / Decomposing multimodal embedding spaces with group-sparse autoencoders
这篇论文提出了一种改进的稀疏自编码器方法,通过跨模态随机掩码和组稀疏正则化技术,成功地将图像/文本或音频/文本等混合数据的嵌入表示分解为更统一、更易于人类理解的高层概念特征,从而提升了多模态任务的可解释性和可控性。
DiffStyle3D:通过注意力优化实现一致的3D高斯风格化 / DiffStyle3D: Consistent 3D Gaussian Stylization via Attention Optimization
这篇论文提出了一种名为DiffStyle3D的新方法,它通过直接优化扩散模型的注意力空间,并结合几何信息来保持多视角一致性,从而解决了现有3D风格迁移技术中风格不一致和训练不稳定的问题,能生成更高质量、更逼真的3D风格化内容。
APC-RL:通过自适应策略组合超越数据驱动的行为先验 / APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition
这篇论文提出了一种名为自适应策略组合(APC)的分层强化学习方法,它能够智能地利用可能不完美或与任务不完全匹配的演示数据来加速学习,在数据有用时加以利用和优化,在数据有偏差时则灵活规避,从而在各种数据质量下都能实现稳健且高效的学习。
用于NVFP4推理精度恢复的量化感知蒸馏 / Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery
这篇论文提出了一种名为量化感知蒸馏(QAD)的方法,它能有效且稳定地将高精度大模型的“知识”迁移到经过压缩的4位量化模型中,从而在几乎不损失精度的情况下,让模型在资源受限的设备上高效运行。
请先 登录 后再提交论文