📄 论文总结
MPJudge:面向音乐诱导绘画的感知评估 / MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
1️⃣ 一句话总结
本文提出了一种评估音乐与绘画感知一致性的新方法MPJudge,通过构建首个大规模专家标注数据集和引入偏好优化训练,有效解决了现有方法依赖情绪识别而忽略更广泛感知线索的问题。
请先 登录 后再提交论文
MPJudge:面向音乐诱导绘画的感知评估 / MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
本文提出了一种评估音乐与绘画感知一致性的新方法MPJudge,通过构建首个大规模专家标注数据集和引入偏好优化训练,有效解决了现有方法依赖情绪识别而忽略更广泛感知线索的问题。
NURBGen:通过大语言模型驱动的NURBS建模实现高保真文本到CAD生成 / NURBGen: High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling
这篇论文提出了首个直接从文本生成高精度可编辑3D CAD模型的框架,它通过微调大语言模型将自然语言转换为NURBS曲面参数,并结合混合表示方法显著提升了模型的几何保真度和鲁棒性。
FullPart:全分辨率生成每个3D部件 / FullPart: Generating each 3D Part at Full Resolution
这篇论文提出了一种结合隐式和显式方法的3D部件生成框架,通过为每个部件分配独立的高分辨率体素网格来保留精细几何细节,并构建了最大的标注3D部件数据集,显著提升了生成质量。
当模型说谎时,我们学习:基于PsiloQA的多语言跨度级幻觉检测 / When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA
这篇论文提出了一个名为PsiloQA的多语言数据集,用于在大语言模型生成的文本中精确检测局部幻觉,并通过实验证明基于编码器的检测方法在多语言环境下效果最好且成本更低。
基于梯度注意力引导的双掩码协同框架实现鲁棒的文本行人检索 / Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
本研究通过构建大规模高质量行人图像文本数据集WebPerson,并提出一种自适应掩码噪声文本并增强细粒度语义学习的协同框架,显著提升了基于文本的行人检索性能。
MovieCORE:电影中的认知推理 / MovieCORE: COgnitive REasoning in Movies
这篇论文提出了一个名为MovieCORE的新型视频问答数据集,专门用于测试AI对电影内容深层认知理解的能力,并通过创新的智能增强方法显著提升了现有模型的推理表现。