会员登录 立即注册

搜索

视频和音频合成视频Easy_Wav2Lip

[复制链接]
崎山小鹿 发表于 2024-8-13 09:34:19 | 显示全部楼层 |阅读模式
崎山小鹿
2024-8-13 09:34:19 446 0 看全部
Easy_Wav2Lip  是使用视频和音频合成新的视频
Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说,三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip>Geneface++=AD-Nerf

Wav2lip技术的核心在于其深度学习模型的设计和训练。该模型由两个主要部分组成:一个生成器和一个判别器。生成器负责根据输入的语音信号生成相应的唇形运动,而判别器则负责判断生成的唇形是否逼真。在训练过程中,生成器和判别器相互对抗,生成器试图生成更加逼真的唇形,而判别器则试图识别出哪些唇形是真实存在的,哪些是生成器生成的。通过这种方式,生成器逐渐学会生成更加逼真的唇形,从而实现精准的唇形合成。

1. 整体流程
第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)
第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。另外mask也不是用分割模型,而是直接将图片下半部分全部作为mask😄,然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步:预测出来的人脸拼接到原图上,输出位视频。

2. 优缺点
优点:极其简单,一个人脸检测模型+一个基于CNN的lipsync模型,速度很快。
缺点:嘴唇经常是歪的,而且有变形;牙齿不断在闪烁。

比sadtalker丝滑多了


软件包运行:go-web.bat    双击就可以了
微信截图_20240813103551.png

运行成功,用浏览器打开:http://127.0.0.1:7860/
微信截图_20240813103616.png

运行成功。
可以上传一段视频和音频试试
微信截图_20240813104532.png
生成中

一分钟视频合成花了50分钟
看看效果


最后,推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:

视频质量选项:Enhanced
分辨率选项:full resolution
Wav2Lip版本选项:Wav2Lip
启动追踪旧数据:True
启用脸部平滑:True
嘴部上边缘:0
嘴部下边缘:10
嘴部左边缘:0
嘴部右边缘:0
Mask尺寸:1
Mask羽化:1
启用嘴部追踪:True
启用调试:False

视频质量

Fast快速:Wav2Lip音频转口型模式。
Improved改进:Wav2Lip音频转口型模式 +唇部周围带有遮罩羽化,去除唇部周围边框。
Enhanced增强:Wav2Lip音频转口型模式 + 遮罩羽化 + GFPGAN高清脸部增强
Experimental实验性:在增强的模式上优化执行效率。

分辨率选项

full resolution全分辨率
half resolution半分辨率

Wav2Lip版本选项

Wav2Lip

优点:更准确的口型同步、在没有声音时会保持嘴巴闭合。
缺点:有时会产生牙齿缺失(部分情况下)。

Wav2Lip_GAN

优点:效果看起来更好,保留说话者原有表情。
缺点:不太擅长遮盖原始的嘴唇动作,尤其是在没有声音的情况下。

建议:
先尝试 Wav2Lip,如果遇到口齿上有很大缝隙的效果,再切换到Wav2Lip_GAN版本。

注意:
测试下来半分辨率会在某些情况下存在不兼容问题,建议这个选项选全分辨率

Mask遮罩部分
Mask尺寸

将增加蒙版覆盖的区域的大小。(脸部周围有边框可以减少此数值,例如:1.5)

Mask羽化

决定了蒙版中心和边缘之间的混合量。(脸部周围有边框也可以增加此数值 )

启用Mask嘴部跟踪

会将遮罩的位置更新到嘴巴在每一帧上的位置(速度较慢)

注意:

由于帧被裁剪到脸上,嘴巴位置已经很近似了,只有当发现视频的遮罩似乎没有跟随嘴巴时,才启用此功能。

启用Mask调试

开启后将使背景灰度和蒙版变彩色,可以看到蒙版在框架中的位置。(此参数改成True后,可以更直观的看到参数效果)

参考视频:https://www.bilibili.com/video/BV1ME421P755?t=107.2
资源包有:
ChatTTS增强版一件整合包
AI数字人生成工具
EchoMimic照片转视频等
还有各种常见的AI常用提示词,比如网文写作

总的链接放下面了
https://www.yuque.com/chengby/bye72a/hxf81w24ocga8hvi?singleDoc#
有需要的小伙伴可自行领取

================================
构建中国人自己的私人GPT
https://jinshuangshi.com/forum.php?mod=viewthread&tid=132
(出处: 金双石科技)




回复

使用道具 举报

  • 您可能感兴趣
您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则 返回列表

查看:446 | 回复:0

  • 可视化硬盘文件分布SpaceSniffer

    有时候硬盘很满了,又不知道是哪个程序占用了太多大的空间。 就可以用SpaceSniffer

    阅读:0|2024-09-16
  • 武汉墨家人俱乐部

    这里有VR 各种AI软件 绘图 炼丹 地址:

    阅读:172|2024-09-11
  • 入手一个3D数字人要多少钱?

    上一期给大家讲了什么是数字人,今天给大家讲入手一个3D数字人要多少钱? 数字人包括

    阅读:175|2024-09-11
  • 让人物照片跳舞vigen追影

    本质上是一种视频换脸技术的升级版,视频换身。 项目体验地址: https://www.modelsco

    阅读:222|2024-09-08
  • 视频生成3D模型luma AI Dashboard

    他可以根据一段视频生成3D环境模型,他能根据视频角度去完善模型,对模型进行AI补全,

    阅读:173|2024-09-08
  • 本地部署Llama 3.1大模型

    Meta推出的Llama 3.1系列包括80亿、700亿、4050亿参数版本,上下文长度扩展至12.8万to

    阅读:238|2024-09-08
  • 生成身临其境的环境模型

    清华大学创作的AI软件 aiuni Aiuni.ai是一个基于Unique3D的在线AI图片转3D模型生成建

    阅读:238|2024-09-07
  • 声音克隆工具CosyVoice

    阿里的免费声音克隆工具CosyVoice CosyVoice 是阿里通义实验室在七月初开源的一款专

    阅读:171|2024-09-07
  • 墨者的几个阶段

    一、知毛泽东,不知有墨子。 二、知墨子,但依然儒法道行事。 三、知墨子,尝试墨家

    阅读:360|2024-08-31
  • 图生产3D模型

    https://hyperhuman.deemos.com/ 上传图片,点击生成 可以多生成几次,点击应用

    阅读:359|2024-08-30
金双石科技,软件开发20年,技术行业领先,您的满意,就是我们的目标,认真负责,开拓进取,让成品物超所值
关于我们
公司简介
发展历程
联系我们
本站站务
友情链接
新手指南
内容审核
商家合作
广告合作
商家入驻
新闻合作

手机APP

官方微博

官方微信

联系电话:15876572365 地址:深圳市宝安区西乡街道宝民二路宝民花园 ( 粤ICP备2021100124号-1 ) 邮箱:qishanxiaolu@qq.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
快速回复 返回顶部 返回列表