会员登录 立即注册

搜索

视频和音频合成视频Easy_Wav2Lip

[复制链接]
崎山小鹿 发表于 2024-8-13 09:34:19 | 显示全部楼层 |阅读模式
崎山小鹿
2024-8-13 09:34:19 5530 0 看全部
Easy_Wav2Lip  是使用视频和音频合成新的视频
Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说,三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip>Geneface++=AD-Nerf

Wav2lip技术的核心在于其深度学习模型的设计和训练。该模型由两个主要部分组成:一个生成器和一个判别器。生成器负责根据输入的语音信号生成相应的唇形运动,而判别器则负责判断生成的唇形是否逼真。在训练过程中,生成器和判别器相互对抗,生成器试图生成更加逼真的唇形,而判别器则试图识别出哪些唇形是真实存在的,哪些是生成器生成的。通过这种方式,生成器逐渐学会生成更加逼真的唇形,从而实现精准的唇形合成。

1. 整体流程
第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)
第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。另外mask也不是用分割模型,而是直接将图片下半部分全部作为mask😄,然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步:预测出来的人脸拼接到原图上,输出位视频。

2. 优缺点
优点:极其简单,一个人脸检测模型+一个基于CNN的lipsync模型,速度很快。
缺点:嘴唇经常是歪的,而且有变形;牙齿不断在闪烁。

比sadtalker丝滑多了


软件包运行:go-web.bat    双击就可以了
微信截图_20240813103551.png

运行成功,用浏览器打开:http://127.0.0.1:7860/
微信截图_20240813103616.png

运行成功。
可以上传一段视频和音频试试
微信截图_20240813104532.png
生成中

一分钟视频合成花了50分钟
看看效果


下载地址:
https://pan.baidu.com/s/1U8weRxDY4NTbRfWs7-UWQg?pwd=ai8o

下面是一些使用教程:
最后,推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:

视频质量选项:Enhanced
分辨率选项:full resolution
Wav2Lip版本选项:Wav2Lip
启动追踪旧数据:True
启用脸部平滑:True
嘴部上边缘:0
嘴部下边缘:10
嘴部左边缘:0
嘴部右边缘:0
Mask尺寸:1
Mask羽化:1
启用嘴部追踪:True
启用调试:False

视频质量

Fast快速:Wav2Lip音频转口型模式。
Improved改进:Wav2Lip音频转口型模式 +唇部周围带有遮罩羽化,去除唇部周围边框。
Enhanced增强:Wav2Lip音频转口型模式 + 遮罩羽化 + GFPGAN高清脸部增强
Experimental实验性:在增强的模式上优化执行效率。

分辨率选项

full resolution全分辨率
half resolution半分辨率

Wav2Lip版本选项

Wav2Lip

优点:更准确的口型同步、在没有声音时会保持嘴巴闭合。
缺点:有时会产生牙齿缺失(部分情况下)。

Wav2Lip_GAN

优点:效果看起来更好,保留说话者原有表情。
缺点:不太擅长遮盖原始的嘴唇动作,尤其是在没有声音的情况下。

建议:
先尝试 Wav2Lip,如果遇到口齿上有很大缝隙的效果,再切换到Wav2Lip_GAN版本。

注意:
测试下来半分辨率会在某些情况下存在不兼容问题,建议这个选项选全分辨率

Mask遮罩部分
Mask尺寸

将增加蒙版覆盖的区域的大小。(脸部周围有边框可以减少此数值,例如:1.5)

Mask羽化

决定了蒙版中心和边缘之间的混合量。(脸部周围有边框也可以增加此数值 )

启用Mask嘴部跟踪

会将遮罩的位置更新到嘴巴在每一帧上的位置(速度较慢)

注意:

由于帧被裁剪到脸上,嘴巴位置已经很近似了,只有当发现视频的遮罩似乎没有跟随嘴巴时,才启用此功能。

启用Mask调试

开启后将使背景灰度和蒙版变彩色,可以看到蒙版在框架中的位置。(此参数改成True后,可以更直观的看到参数效果)

参考视频:https://www.bilibili.com/video/BV1ME421P755?t=107.2
资源包有:
ChatTTS增强版一件整合包
AI数字人生成工具
EchoMimic照片转视频等
还有各种常见的AI常用提示词,比如网文写作

总的链接放下面了
https://www.yuque.com/chengby/bye72a/hxf81w24ocga8hvi?singleDoc#
有需要的小伙伴可自行领取

================================
构建中国人自己的私人GPT
https://jinshuangshi.com/forum.php?mod=viewthread&tid=132
(出处: 金双石科技)




天不生墨翟,万古如长夜!以墨运商,以商助墨。金双石科技长期招聘科技研发人才!微信:qishanxiaolu   电话:15876572365   公司:深圳市金双石科技有限公司
回复

使用道具 举报

  • 您可能感兴趣
  • 墨山游侠的武器店
    墨山游侠的武器店
    武器店的设计还是很让人头疼的,刚好找到一个很好的设计: 参考: 详细视频:
    04-11
  • 墨山游侠之战斗系统
    墨山游侠之战斗系统
    村民招募模组 能让你建造盾兵、战士、马匹。你可以像指挥真正的军队那样指挥他们。你
    04-11
  • 墨山游侠之马车
    墨山游侠之马车
    中世界模组:Nifty Cart 非常逼真的马车效果。有四种不同类型的马车。 更详细资料:
    04-11
  • 墨山游侠之墨子剑
    墨山游侠之墨子剑
    1给自己一把下界合金剑 /give @p netherite_sword 1 0 2用铁砧命名 §8墨眉剑 3加附
    04-10
  • 墨山游侠(2)保卫田横岛
    墨山游侠(2)保卫田横岛
    墨山游侠之保卫田横岛 据史书记载,秦末汉初,群雄并起,逐鹿中原,刘邦手下大将韩
    01-04
您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则 返回列表

管理员给TA私信
以墨运商,以商助墨。

查看:5530 | 回复:0

  • 墨山游侠的武器店

    武器店的设计还是很让人头疼的,刚好找到一个很好的设计: 参考: 详细视频:

    阅读:0|2025-04-11
  • 墨山游侠之战斗系统

    村民招募模组 能让你建造盾兵、战士、马匹。你可以像指挥真正的军队那样指挥他们。你

    阅读:0|2025-04-11
  • 墨山游侠之马车

    中世界模组:Nifty Cart 非常逼真的马车效果。有四种不同类型的马车。 更详细资料:

    阅读:1|2025-04-11
  • 墨山游侠之墨子剑

    1给自己一把下界合金剑 /give @p netherite_sword 1 0 2用铁砧命名 §8墨眉剑 3加附

    阅读:77|2025-04-10
  • 墨山游侠第四关

    怎么让漏斗“变成过滤漏斗” 条件一:侧面连接而不是垂直连接 把漏斗从侧面连接到一个

    阅读:253|2025-04-06
  • 墨山游侠(1)田横遇险

    田横遇险是一个冒险生存游戏,不知道从什么时候开始,大地迎来了漫长的黑夜,你作为一

    阅读:348|2025-04-06
  • 共产主义真的能实现么?我们用游戏来模拟

    共产主义真的能实现么?我们看看共产主义在维基百科上的解释:共产主义(拉丁语:comm

    阅读:560|2025-03-31
  • 墨山游侠-墨子皮肤

    网易我的世界虽然可以更换皮肤,但是无法自己上传皮肤 可以通过这个软件编辑皮肤 h

    阅读:1140|2025-03-21
  • 墨山游侠之墨子图书馆

    阅读:1481|2025-03-20
  • 墨山游侠-雪球菜单

    聊天栏输入前置指令 /scoreboard objectives add 雪球菜单 dummy /gamerule comm

    阅读:1864|2025-03-14
金双石科技,软件开发20年,技术行业领先,您的满意,就是我们的目标,认真负责,开拓进取,让成品物超所值
关于我们
公司简介
发展历程
联系我们
本站站务
友情链接
新手指南
内容审核
商家合作
广告合作
商家入驻
新闻合作

手机APP

官方微博

官方微信

联系电话:15876572365 地址:深圳市宝安区西乡街道宝民二路宝民花园 ( 粤ICP备2021100124号-1 ) 邮箱:qishanxiaolu@qq.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
快速回复 返回顶部 返回列表