快手LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
快手LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
0. 前言
对比现有的驱动人脸变化,相当准确,并且当你识别脸部landmark准确时,动物也可以驱动。
1. 摘要
肖像动画旨在从单个源图像合成逼真的视频,将其用作外观参考,并具有源自驾驶视频、音频、文本或生成的运动(即面部表情和头部姿势)。本文没有遵循主流的基于diffusion的方法,而是探索和扩展了基于隐式关键点的框架的潜力,有效地平衡了计算效率和可控性。
本文通用性好、可控性好和实际使用的效率高(12.8ms)
2. 方法
2.1 简要回顾基于视频的肖像动画框架face-vid2vid,并介绍我们旨在增强动画的泛化能力和表现力的重大增强功能。
提出了精心设计的拼接和重定向模块,这些模块以可忽略的计算开销提供了所需的可控性。最后,我们详细介绍推理流程。
2.1 Face Vid2Vid
Face vid2vid,用于使用从驾驶视频序列中提取的运动特征来制作静态肖像动画。原始框架由外观特征提取器
F
F
F、规范隐式关键点检测器
L
L
L、头部姿势估计网络
H
H
H、表情变形估计网络
Δ
\Delta
Δ、扭曲场估计器
W
W
W 和生成器
G
G
G 组成。
F
F
F 将源图像
s
s
s 映射到3D外观特征体积
f
s
f_s
fs。源 3D 关键点
x
s
x_s
xs 和驱动 3D 关键点
x
d
x_d
xd 变换如下
{
x
s
=
x
c
,
s
R
s
+
δ
s
+
t
s
x
d
=
x
c
,
s
R
d
+
δ
d
+
t
d
\left\{\begin{matrix}x_s = x_{c,s}R_s + \delta _s+t_s \\x_d = x_{c,s}R_d + \delta _d+t_d \end{matrix}\right.
{xs=xc,sRs+δs+tsxd=xc,sRd+δd+td
其中 x s x_s xs 和 x d x_d xd 分别是源图像和驱动 3D 隐式关键点, x c , s ∈ R K × 3 x_{c,s}\in \mathbb{R}^{K\times 3} xc,s∈RK×3 表示源图像的规范关键点。源姿势和驱动姿势是 R s R_s Rs 和 R d ∈ R 3 × 3 R_d\in \mathbb{R}^{3\times 3} Rd∈R3×3,表达变形是 δ s \delta_s δs 和 δ d ∈ R K × 3 \delta_d\in \mathbb{R}^{K\times 3} δd∈RK×3,平移是 t s t_s ts 和 t d ∈ R 3 t_d \in \mathbb{R}^{3} td∈R3。接下来, W W W 使用隐式关键点表示 x s x_s xs 和 x d x_d xd 生成扭曲场,并使用该流场来扭曲源特征体积 f s f_s fs。随后,扭曲的特征通过解码器生成器 G G G,将它们转换到图像空间并产生目标图像。
2.2 Stage I: Base Model Training
选择face vid2vid[Ting-Chun Wang, Arun Mallya, and Ming-Yu Liu. One-shot free-view neural talking-head synthesis for video conferencing. In CVPR, 2021]作为基本模型,并引入了一系列显著的增强。其中包括高质量的数据管理、混合图像和视频训练策略、升级的网络架构、可扩展的运动转换、地标引导的隐式关键点优化和级联损失项。这些改进大大提高了动画的表现力和模型的泛化能力。第一个训练阶段的流水线如图所示。
高质量的数据管理。我们利用公共视频数据集,如Voxceleb[35]、MEAD[36]和RAVDESS[37],以及样式图像数据集AAHQ[38]。此外,我们收集了大量具有各种姿势和表情的4k分辨率人像视频语料,200小时的谈话视频,并利用私人LightStage[39,40]数据集,以及几个风格的人像视频和图像。我们将长视频分成不到30秒的片段,并使用面部跟踪和识别确保每个片段只包含一个人。为了保持训练数据的质量,我们使用KVQ[41]来过滤掉低质量的视频片段。最后,我们的训练数据包括69M视频帧(滤波前92M),来自约18.9K的身份和60K的静态风格肖像。
混合图像和视频训练。仅在逼真的肖像视频上训练的模型在人类肖像上表现良好,但在风格肖像(例如动画)上泛化得很差。有风格的人像视频很少,我们只从不到100个身份中收集了大约1.3万段视频。相比之下,高质量的风格肖像图像更加丰富;我们收集了大约60K张图像,每张图像代表一个独特的身份,提供不同的身份信息。为了利用这两种数据类型,我们将单个图像视为一帧视频剪辑,并在图像和视频上训练模型。这种混合训练提高了模型的泛化能力
效果非常好!建议尝试,找工作ing,之前存货,先发表,后面有时间重新整理一下
更多推荐
所有评论(0)