arXiv ID:
2512.19693
arXiv 提交日期: 2025-12-22
棱镜假说:通过统一自编码协调语义与像素表示 / The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
1️⃣ 一句话总结
这篇论文提出了一个名为‘棱镜假说’的新观点,发现语义编码器主要捕捉低频的抽象信息,而像素编码器则额外保留高频的细节信息,并基于此设计了一个统一自编码模型,成功地将图像的抽象语义和精细像素细节融合到了一个高性能的单一表示空间中。