—本文介绍一下我们最新的3D人像合成工作
3D人像合成一直是备受关注的AIGC领域。随着NeRF和3D-aware GAN的日益进步,我们不只满足于合成高质量的3D人像,更希望能够通过简单的方式自定义3D人像的风格属性,例如直接使用文本描述指导合成想要的3D人像风格。
但是3D人像的风格化存在一个普遍的问题,当我们训练好一个高质量的3D人像合成模型后(例如训练一个EG3D模型),往往很难对其进行较大的风格化改变。基于模型隐空间编辑的方法会受限于预训练3D人像合成模型的数据分布;直接对3D人像不同视角进行风格化会破坏3D一致性;自己收集创建一个风格化的多视角人像数据集成本很高。以上这些问题使得我们难以简单的创建风格化3D人像。
我们提出一种简单高效的风格化3D人像合成方法,能够快速实现基于文本描述的自定义3D人像风格化。
论文地址:https://arxiv.org/pdf/2306.15419.pdf
项目网站:https://tianxiangma.github.io/FF3D/
该方法的核心步骤有两个:1. 小样本风格化人像数据集构建,2. Image-to-Triplane模型微调。方法框架如下。
人工收集多视角风格化人像数据是困难的,但是我们可以利用已有的预训练模型来间接构建这种数据。本文采用两个预训练先验模型 EG3D 和 Instruct-pix2pix (IP2P) 来实现这一目标。
EG3D是一个高质量的3D-aware GAN方法用来提供多视角3D一致的人像合成结果,计作:G(theta, w, v) 。 theta 是模型的参数, w 是从 W 隐空间随机采样的向量编码, v 是人像的渲染方向。我们随机采样一个 w ,并从-30度到30度的俯仰角和偏航角范围内均匀采样 i^2 个不同视角的人像。
IP2P是一个文本引导的图像编辑大模型,我们用其来对不同视角的人像进行风格化编辑,计作:T(phi, I, n, c) 。 phi 是模型参数, I 代表输入的人像图像, n 是随机噪声, c 是文本的条件输入(后面使用 t 来表示)。借助 T 我们可以将上述 i^2 个不同视角的人像进行文本引导的风格化编辑。同时,在实验中我们发现IP2P在一些文本提示下对于同一个人像的不同视角的风格化编辑结果存在较大的差异。因此我们对其推理过程进行一些改进,将原始的噪声 n 替换为 n^*=Add(mathcal{E}(I), n, tau) 。该式表示将噪声 n 与输入人像 I 的信息进行加权融合,使得不同视角的人像 I 的风格化编辑结果趋紧相同。此外我们又引入辅助文本提示 t_d 和消极文本提示 t_n 来增强IP2P的生成质量,即新的文本提示为 t^*={ t, t_d, t_n } 。
基于上述过程,我们提出风格化人像合成pipeline为: I_s=T(phi, G(theta, w, v), n^*, t^*) 。该过程为纯模型推理不需要额外的训练。对于 i^2 个不同视角的合成人像,我们可以快速构建出一个小样本风格化人像数据集 D_s 。
构建出D_s 后我们需要学习一个符合该数据集人像风格的的3D模型。这里我们提出一个Image-to-Triplane (I2T) 网络,它可以建立人像图像到Triplane表征到映射。我们将预训练的EG3D模型的Triplane合成网络替换为我们的I2T网络,并复用剩余的渲染网络。
因为D_s 数据集的不同视角风格化肖像是3D不一致的,所以我们首先需要对I2T网络进行预训练,来预先建立人像到Triplane表征的准确映射关系。我们利用EG3D的合成数据来预训练I2T网络,训练损失函数如下:
mathcal{L}_{textrm{I2T} }=mathbb{E}_{mathit{I_f}, mathbf{p}} [ left| mathit{H}(mathit{I_f}) – mathbf{p} right|_{1} ] /
H 代表I2T网络, I_f 为正视角人像图像输入(由EG3D采样提供), mathbf{p} 是Triplane表征的真值(也由EG3D采样提供)。
利用预训练的I2T网络,我们就可以在构建好的Ds数据集上进行快速微调,让I2T的隐空间拟合到D_s数据集风格分布。模型微调的损失函数包含重建损失和密度正则损失:
更多的模型细节请参考论文原文。
在本文的首页所展示的就是一系列高质量的风格化3D人像合成结果。为了验证我们方法的可扩展性,我们构建了一个多风格多身份人像数据集。我们利用ChatGPT生成100种不同风格类型的问题提示,包含艺术风格、电影角色风格、游戏角色风格、以及基础属性编辑风格。对于每种风格使用我们的人像风格化pipeline合成10*10张不同视角的风格化人像,进而构建出包含10,000张图像的多风格单身份人像数据集(MSSI)。此外,在MSSI的基础上我们扩展每种风格的身份属性,即随机采样不同的 w 向量,得到多风格多身份人像数据集(MSMI)。我的方法在这两个数据集上的微调模型的3D人像合成结果如下:
我们在I2T的 w_s 隐空间进行插值即可实现3D人像的风格变化:
该方法与baseline方法的对比结果如下:
更多的方法细节和实验结果请参考论文原文以及项目网站。
论文地址:
项目网站:
你手上的小黑本能帶你去全球哪些地方呢?全球第5!可免簽187個國傢和地區。▼今年第三季度,亨利護照指數(Henley Passport In...
随着工艺验证进入QbD时代,FDA的新工艺验证指南将工艺验证分为三个阶段,今天我们要讲述的工艺性能确认(PPQ)是阶段2(工艺 ...
上期我們講瞭關於福特這個品牌的創始人——亨利·福特的故事,今天我們就來講講一個福特品牌中不可或缺的車系,也是在福特汽車的...