音频驱动人像视频模型:字节 Loopy、CyberHost 研究成果揭秘

近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。

Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸、叹气、挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。

Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到。在唱歌时也能表现得活灵活现,驾驭不同风格。

Codebook Attention 引入了一系列可学习的时空联合隐变量参数,专注于在训练过程中学习数据集中局部区域的结构特征和运动模式。同时,该机制还提取了关键区域的外观特征,强化了局部 ID 的一致性。团队将这一机制应用于脸部和手部区域,并在 Denoising U-Net 的各个阶段进行插入,提升了对关键区域的建模能力。

此外,CyberHost 还设计了一系列基于人体结构先验的训练策略,旨在减少音频驱动下人体动作生成的不确定性。这些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制视频生成中人体的运动范围。而 Hand Clarity Score 通过计算局部像素的 laplacian 算子来控制生成手部的清晰度,规避手部运动模糊带来的效果劣化。

注册登录 后评论
    // 作者
    机器之心 发布于 掘金
    • 0
    // 本帖子
    分类
    // 相关帖子
    Coming soon...
    • 0
    音频驱动人像视频模型:字节 Loopy、CyberHost 研究成果揭秘机器之心 发布于 掘金