ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

该论文作者均来自于新加坡南洋理工大学 S-Lab 团队，包括博士后胡涛，博士生洪方舟，以及计算与数据学院刘子纬教授（《麻省理工科技评论》亚太地区 35 岁以下创新者）。S-Lab 近年来在顶级会议如 CVPR, ICCV, ECCV, NeurIPS, ICLR 上发表多篇 CV/CG/AIGC 相关的研究工作，和国内外知名高校、科研机构广泛开展合作。

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。传统三维数字人制作往往费时耗力，近年来研究者提出基于三维生成对抗网络（3D GAN）从 2D 图像中学习三维数字人，极大提高了数字人制作效率。

这些方法往往在一维隐向量空间建模数字人，而一维隐向量无法表征人体的几何结构和语义信息，因此限制了其生成质量和编辑能力。

为了解决这一问题，来自新加坡南洋理工大学 S-Lab 团队提出结构化隐空间扩散模型（Structured Latent Diffusion Model）的三维数字人生成新范式 StructLDM。该范式包括三个关键设计：结构化的高维人体表征、结构化的自动解码器以及结构化的隐空间扩散模型。

StructLDM 是一个从图像、视频中学习的前馈三维生成模型（Feedforward 3D Generative Model），相比于已有 3D GAN 方法可生成高质量、多样化且视角一致的三维数字人，并支持不同层级的可控生成与编辑功能，如局部服装编辑、三维虚拟试衣等部位感知的编辑任务，且不依赖于特定的服装类型或遮罩条件，具有较高的适用性。