arXiv最新AI论文速览速学

📄

2511.22345

🤖 系统

12-05 15:06

model training machine learning computer vision

normalizing flows generative models representation learning invertible networks image generation

逆向流动：通过反向表征对齐改进标准化流模型 / Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

1️⃣ 一句话总结

这篇论文提出了一种通过将标准化流模型生成过程中的中间特征与强大的视觉基础模型表征进行对齐的新方法，从而显著提升了模型的生成质量、分类准确率和训练速度。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22265

🤖 系统

12-01 14:53

machine learning systems model training

federated learning model heterogeneity privacy protection representation learning communication efficiency

FedRE：一种面向模型异构联邦学习的表示纠缠框架 / FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

1️⃣ 一句话总结

本文提出了一种名为FedRE的新方法，它通过让不同设备（客户端）上传一种混合了多种信息的‘纠缠表示’来训练一个全局模型，从而在保护隐私、降低通信成本的同时，有效解决了联邦学习中各设备模型结构不同所带来的协作难题。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.20668

🤖 系统

11-30 17:45

agents model training theory

world models generative models memory systems representation learning interactive agents

📄 论文总结

从掩码模型到世界构建：一份世界模型构建指南 / From Masks to Worlds: A Hitchhiker's Guide to World Models

1️⃣ 一句话总结

这篇论文为构建世界模型提供了一条清晰的实践路径，从跨模态的掩码预训练模型出发，经过统一架构、交互式生成模型，最终发展为具有长期记忆的系统，以实现持续一致的世界模拟。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.13317

🤖 系统

11-30 17:33

computer vision multi-modal model training

3d vision vision-language model spatial reasoning region prompting representation learning

📄 论文总结

空间区域3D感知视觉语言模型 / 3D Aware Region Prompted Vision Language Model

1️⃣ 一句话总结

这篇论文提出了一种能够将2D图像和3D数据统一理解的新模型，用户只需在单张图片或3D空间中简单标注，就能实现跨视角的精确空间推理和测量，无需复杂标注即可应用于真实场景视频分析。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.11986

🤖 系统

11-30 17:32

multi-modal model evaluation computer vision

vision-language models information loss embedding analysis representation learning model interpretability

📄 论文总结

嵌入空间中的信息丢失：视觉语言模型中的信息损失研究 / Lost in Embeddings: Information Loss in Vision-Language Models

1️⃣ 一句话总结

这篇论文发现视觉语言模型在将图像信息投影到语言嵌入空间时会丢失大量关键信息，导致模型在图像检索和视觉问答任务中表现变差，并提出了两种方法来量化和定位这种信息损失。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.11425

🤖 系统

11-30 17:32

audio model training natural language processing

speech tokenization neural codecs cross-modal alignment zero-shot tts representation learning

📄 论文总结

FuseCodec：面向神经编解码器的语义-上下文融合与监督方法 / FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

1️⃣ 一句话总结

这篇论文提出了一种名为FuseCodec的新型语音编码方法，通过融合声学、语义和上下文信息并进行多层次的监督学习，显著提升了语音处理的准确度、自然度和说话人相似性，并在零样本语音合成任务中验证了其有效性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.04442

🤖 系统

11-30 17:29

llm model evaluation model training

representation learning model finetuning activation analysis model clustering task embedding

📄 论文总结

Delta激活：一种用于微调后大语言模型的表示方法 / Delta Activations: A Representation for Finetuned Large Language Models

1️⃣ 一句话总结

本文提出了一种名为Delta激活的新方法，通过测量微调后模型与基础模型内部激活的差异来生成向量表示，从而帮助有效分类和比较不同任务及领域的微调模型，促进模型复用。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.04011

🤖 系统

11-30 17:29

natural language processing llm model training

named entity retrieval zero-shot learning contrastive learning representation learning entity embeddings

📄 论文总结

NER检索器：基于类型感知嵌入的零样本命名实体检索 / NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

1️⃣ 一句话总结

这篇论文提出了一种无需预定义实体类型、直接根据用户描述检索相关实体的新方法，通过优化大语言模型内部表示并训练轻量级网络，实现了高效且灵活的零样本实体检索。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.22345

1️⃣ 一句话总结

2511.22265

1️⃣ 一句话总结

2510.20668

📄 论文总结

1️⃣ 一句话总结

2509.13317

📄 论文总结

1️⃣ 一句话总结

2509.11986

📄 论文总结

1️⃣ 一句话总结

2509.11425

📄 论文总结

1️⃣ 一句话总结

2509.04442

📄 论文总结

1️⃣ 一句话总结

2509.04011

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.22345 📝

1️⃣ 一句话总结

2511.22265 📝

1️⃣ 一句话总结

2510.20668 📝

📄 论文总结

1️⃣ 一句话总结

2509.13317 📝

📄 论文总结

1️⃣ 一句话总结

2509.11986 📝

📄 论文总结

1️⃣ 一句话总结

2509.11425 📝

📄 论文总结

1️⃣ 一句话总结

2509.04442 📝

📄 论文总结

1️⃣ 一句话总结

2509.04011 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.22345

2511.22265

2510.20668

2509.13317

2509.11986

2509.11425

2509.04442

2509.04011