视频和音频合成视频Easy_Wav2Lip

崎山小鹿 · 发表于 2024-8-13 09:34:19

Easy_Wav2Lip 是使用视频和音频合成新的视频
Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说，三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip＞Geneface++＝AD-Nerf

Wav2lip技术的核心在于其深度学习模型的设计和训练。该模型由两个主要部分组成：一个生成器和一个判别器。生成器负责根据输入的语音信号生成相应的唇形运动，而判别器则负责判断生成的唇形是否逼真。在训练过程中，生成器和判别器相互对抗，生成器试图生成更加逼真的唇形，而判别器则试图识别出哪些唇形是真实存在的，哪些是生成器生成的。通过这种方式，生成器逐渐学会生成更加逼真的唇形，从而实现精准的唇形合成。

1. 整体流程
第一步，加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步，调用face_detect模型，给出人脸检测结果（可以改造成从文件中读取），包装成4个数组batch：img_batch(人脸)，mel_batch(语音)，frame_batch(原图)，coords_batch(坐标)
第三步，加载模型，进行计算。这个模型目前看下来就是简单的resnet，没有transfomer。另外mask也不是用分割模型，而是直接将图片下半部分全部作为mask😄，然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步：预测出来的人脸拼接到原图上，输出位视频。

2. 优缺点
优点：极其简单，一个人脸检测模型+一个基于CNN的lipsync模型，速度很快。
缺点：嘴唇经常是歪的，而且有变形；牙齿不断在闪烁。

比sadtalker丝滑多了

软件包运行：go-web.bat 双击就可以了
微信截图_20240813103551.png

运行成功，用浏览器打开：http://127.0.0.1:7860/
微信截图_20240813103616.png

运行成功。
可以上传一段视频和音频试试
微信截图_20240813104532.png

生成中

一分钟视频合成花了50分钟
看看效果

最后，推荐一个默认效果比较好的参数，大家也可以根据自己的素材自行调节：

视频质量选项：Enhanced
分辨率选项：full resolution
Wav2Lip版本选项：Wav2Lip
启动追踪旧数据：True
启用脸部平滑：True
嘴部上边缘：0
嘴部下边缘：10
嘴部左边缘：0
嘴部右边缘：0
Mask尺寸：1
Mask羽化：1
启用嘴部追踪：True
启用调试：False

视频质量

Fast快速：Wav2Lip音频转口型模式。
Improved改进：Wav2Lip音频转口型模式 +唇部周围带有遮罩羽化，去除唇部周围边框。
Enhanced增强：Wav2Lip音频转口型模式 + 遮罩羽化 + GFPGAN高清脸部增强
Experimental实验性：在增强的模式上优化执行效率。

分辨率选项

full resolution全分辨率
half resolution半分辨率

Wav2Lip版本选项

Wav2Lip

优点：更准确的口型同步、在没有声音时会保持嘴巴闭合。
缺点：有时会产生牙齿缺失（部分情况下）。

Wav2Lip_GAN

优点：效果看起来更好，保留说话者原有表情。
缺点：不太擅长遮盖原始的嘴唇动作，尤其是在没有声音的情况下。

建议：
先尝试 Wav2Lip，如果遇到口齿上有很大缝隙的效果，再切换到Wav2Lip_GAN版本。

注意：
测试下来半分辨率会在某些情况下存在不兼容问题，建议这个选项选全分辨率

Mask遮罩部分
Mask尺寸

将增加蒙版覆盖的区域的大小。（脸部周围有边框可以减少此数值，例如：1.5）

Mask羽化

决定了蒙版中心和边缘之间的混合量。（脸部周围有边框也可以增加此数值）

启用Mask嘴部跟踪

会将遮罩的位置更新到嘴巴在每一帧上的位置（速度较慢）

注意：

由于帧被裁剪到脸上，嘴巴位置已经很近似了，只有当发现视频的遮罩似乎没有跟随嘴巴时，才启用此功能。

启用Mask调试

开启后将使背景灰度和蒙版变彩色，可以看到蒙版在框架中的位置。（此参数改成True后，可以更直观的看到参数效果）

参考视频：https://www.bilibili.com/video/BV1ME421P755?t=107.2
资源包有：
ChatTTS增强版一件整合包
AI数字人生成工具
EchoMimic照片转视频等
还有各种常见的AI常用提示词，比如网文写作

总的链接放下面了
https://www.yuque.com/chengby/bye72a/hxf81w24ocga8hvi?singleDoc#
有需要的小伙伴可自行领取

================================
构建中国人自己的私人GPT
https://jinshuangshi.com/forum.php?mod=viewthread&tid=132
(出处: 金双石科技)