📄 论文总结
ObjFiller-3D:通过视频扩散模型实现一致的多视角三维修复 / ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
1️⃣ 一句话总结
这篇论文提出了一种名为ObjFiller-3D的新方法,它通过巧妙利用先进的视频编辑模型来修复三维物体,解决了传统方法中多视角修复不一致的问题,从而实现了更高质量、更连贯的三维物体补全与编辑。
请先 登录 后再提交论文
ObjFiller-3D:通过视频扩散模型实现一致的多视角三维修复 / ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models
这篇论文提出了一种名为ObjFiller-3D的新方法,它通过巧妙利用先进的视频编辑模型来修复三维物体,解决了传统方法中多视角修复不一致的问题,从而实现了更高质量、更连贯的三维物体补全与编辑。
InternVL3.5:在通用性、推理能力和效率上推进开源多模态模型 / InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
这篇论文提出了InternVL 3.5开源多模态模型,通过创新的两阶段强化学习框架和动态视觉分辨率调节技术,显著提升了模型的推理能力、运行效率及通用性,并在多项任务中接近顶尖商业模型的性能。
Visual-CoG:基于阶段感知强化学习与引导链的文生图生成方法 / Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation
本文提出了一种名为Visual-CoG的新方法,通过分阶段奖励机制强化文生图模型对复杂文本的理解能力,显著提升了多属性和模糊提示下的图像生成质量。
TiKMiX:将数据影响力引入语言模型预训练的动态混合策略 / TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training
这篇论文提出了一种名为TiKMiX的动态数据混合方法,通过实时评估不同数据领域对模型训练的影响并调整数据配比,显著提升了语言模型的性能,同时大幅降低了计算资源消耗。
Social-MAE:基于Transformer的多模态人脸与语音自编码器 / Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
这项研究开发了一个名为Social-MAE的多模态人工智能模型,通过自监督学习从人脸和语音数据中提取特征,在情感识别、笑声检测等社交任务中取得了领先或具有竞争力的性能。
大语言模型中的说服动态:基于DuET-PD框架探究知识与安全维度的鲁棒性与适应性 / Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
本研究提出DuET-PD评估框架,揭示大语言模型在对话中易受误导信息影响且难以接受正确修正的问题,并通过新型训练方法显著提升了模型对错误信息的抵抗力和对正确信息的接受度。
TreePO:基于启发式树建模弥合策略优化效果与推理效率之间的差距 / TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
这篇论文提出了一种名为TreePO的新方法,通过将文本生成视为树状搜索过程,在提升大语言模型推理多样性的同时,大幅降低了计算成本和采样时间,实现了效果与效率的双重优化。
Pixie:基于像素的快速通用化三维物理监督学习 / Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels
这篇论文提出了一个名为Pixie的快速神经网络方法,能够直接从三维视觉特征中学习并预测物体的物理属性(如弹性),无需逐场景优化,且训练后能快速泛化到真实世界场景。
打破探索瓶颈:基于评分量规的强化学习用于通用大语言模型推理 / Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning
这项研究提出了一种名为RuscaRL的新方法,通过使用评分量规作为指导来帮助大语言模型在推理任务中更有效地探索高质量答案,并利用这些量规提供可靠的奖励信号进行强化学习,从而显著提升了模型在复杂推理任务上的表现。
协同多模态编码用于高质量三维生成 / Collaborative Multi-Modal Coding for High-Quality 3D Generation
这篇论文提出了首个名为TriMM的前馈式三维生成模型,通过协同整合图像和点云等多模态数据,有效提升了三维资产在纹理和几何细节上的生成质量。