会员登录 立即注册

搜索

平面2D数字人王者DH_live

[复制链接]
崎山小鹿
3 天前 143 3 看全部
每个人都能用的数字人
一、项目地址:https://github.com/kleinlee/DH_live

目前我们做数字人的通常做法:文字生成图片,或者自己拍摄图片。用图片生成包含动作的视频。用视频添加嘴型和声音生成口播视频。
可以分为下面几种:
第一种是在图片里根据语音“刻”表情和嘴型,头部可以做微小的动作,身体几乎不能动,代表软件是SadTalker
第二种是在视频里根据语音“刻”表情和嘴型,比第一种高级,人物保留视频中的动作同时又拥有了口播的嘴型,表现力比第一种强很多,你会发现他的动作一直在重复。代表软件是Easy_Wav2Lip
第三种是预先用视频训练一个初级的AI模型(模版),让模型根据音频生成人物动作视频,他不仅有动作、有表情和嘴型,更重要的是他的动作是AI生成的,比第二种更高级,代表软件是抖音的数字人、DH_live。

第一、二中数字人都是即时生成,自由度低效果差,第三种数字人需要训练模型,有一定的技术门槛,但是DH_live将这个门槛大大降低。

下载地址:
夸克:https://pan.quark.cn/s/8c30148c537b 提取码:Hcs9

使用教程:
第一步:数字人视频模版生成
运行:AI实时音频驱动数字人工具V1.0.exe 程序,点击“数字人视频模版生成”
微信截图_20241105171847.png
点击:“开始生成”
微信截图_20241105171927.png
成功之后会在 video_data文件夹下会生成一个以视频文件名命名的文件夹,内有circle.mp4和keypoint_rotate.pkl文件。关键点提取完成。

第二步:音频驱动数字人生成
选择视频模版目录和驱动音频,我们选择第一步生成的模版目录和audio1.wav文件
微信截图_20241105173533.png
点击“开始生成”
微信图片_20241105174054.png
成功之后在results文件夹下多出一个视频文件,视频生成完成。

看效果


表现还是非常不错的,如果你想定制自己的人物形象那就要训练模型啦,使用下面这个项目

二、项目地址:https://github.com/v3ucn/DH_live_webui
支持训练和微调
hd_live2.png

主界面:
hd_live.png

查看效果:


项目下载地址:
DH_Live低成本数字人微调训练(Fine-tune),AI数字人,AI主播,AI带货,唇形同步,唇形合成,音频驱动视频,预训练模型,11000步微调模型效果展示
DH_Live新版微调训练整合包/一键包:https://pan.quark.cn/s/e75123074599
DH_Live新版微调训练整合包/一键包 https://pan.baidu.com/s/1Emzt_5dwTNWDx44Lkn2Jvw?pwd=v3uc 提取码:v3uc
官方项目地址:https://github.com/kleinlee/DH_live
webui项目地址:https://github.com/v3ucn/DH_live_webui

通过百度网盘分享的文件:data_preparation.py
链接:https://pan.baidu.com/s/18gF7_AP4nfp23U-Ohyecmw?pwd=v3uc
提取码:v3uc

覆盖同名文件,解决检查点乱码问题
帧数.png

如果你想让你的数字人实时直播,可以用下面这个项目

三、实时数字人直播DH_live对接:
小雕数字人 带60+人物模型  可自定义视频数字人 免费使用
通过百度网盘分享的文件:小雕+数字人
链接:https://pan.baidu.com/s/1E_-cIgfamPOmjgP8_zOrRA?pwd=1g62
提取码:1g62
--来自百度网盘超级会员V4的分享

小雕+数字人 夸克网盘链接
我用夸克网盘分享了「小雕+数字人」
链接:https://pan.quark.cn/s/9e58ed167c7e


参考:
https://www.youtube.com/watch?v=tuJoobsqxCg
https://www.bilibili.com/video/B ... id_from=333.999.0.0

https://www.bilibili.com/video/B ... 67809830e688efe473d

参考:
实时数字人直播DH_live对接:https://www.bilibili.com/video/B ... 67809830e688efe473d
天不生墨翟,万古如长夜!以墨运商,以商助墨。金双石科技长期招聘科技研发人才!微信:qishanxiaolu   电话:15876572365   公司:深圳市金双石科技有限公司
回复

使用道具 举报

 楼主| 崎山小鹿 发表于 昨天 07:36 | 显示全部楼层
崎山小鹿
昨天 07:36 看全部
训练模型的指令:
.\py311\python.exe train/train_render_model.py --train_data ./train/data --coarse2fine  --coarse_model_path './checkpoint/epoch_120.pth' --non_decay 20000 --decay 1000

刚开始训练的时候:
learning rate = 0.0001000
learning rate = 0.0001000
===> Epoch[101](0/2): Loss_DI: 0.2479 Loss_GI: 0.2459 Loss_perception: 3.5692 lr_g = 0.0001000 lr_d = 0.0001000
===> Epoch[101](1/2): Loss_DI: 0.2495 Loss_GI: 0.2568 Loss_perception: 3.2296 lr_g = 0.0001000 lr_d = 0.0001000

3千次训练之后
learning rate = 0.0001000
learning rate = 0.0001000
===> Epoch[3546](0/2): Loss_DI: 0.2461 Loss_GI: 0.2234 Loss_perception: 1.9764 lr_g = 0.0001000 lr_d = 0.0001000
===> Epoch[3546](1/2): Loss_DI: 0.2534 Loss_GI: 0.3185 Loss_perception: 2.0884 lr_g = 0.0001000 lr_d = 0.0001000

1万次训练之后:
learning rate = 0.0001000
learning rate = 0.0001000
===> Epoch[14475](0/2): Loss_DI: 0.2343 Loss_GI: 0.3087 Loss_perception: 1.7719 lr_g = 0.0001000 lr_d = 0.0001000
===> Epoch[14475](1/2): Loss_DI: 0.2311 Loss_GI: 0.3050 Loss_perception: 1.8111 lr_g = 0.0001000 lr_d = 0.0001000

2万次训练之后:
learning rate = 0.0000002
learning rate = 0.0000002
===> Epoch[21000](0/2): Loss_DI: 0.2379 Loss_GI: 0.2679 Loss_perception: 1.6209 lr_g = 0.0000002 lr_d = 0.0000002
===> Epoch[21000](1/2): Loss_DI: 0.2400 Loss_GI: 0.2398 Loss_perception: 1.5501 lr_g = 0.0000002 lr_d = 0.0000002
在讲话的时候嘴唇还是有很多黏糊的东西,嘴巴张不开。

render.pth 是官方的泛化模型
epoch_120.pth  是预训练模型

训练模型的

继续训练的指令:
.\py311\python.exe train/train_render_model.py --train_data ./train/data --coarse2fine  --coarse_model_path './checkpoint/liu_epoch_21000.pth' --non_decay 40000 --decay 1000
天不生墨翟,万古如长夜!以墨运商,以商助墨。金双石科技长期招聘科技研发人才!微信:qishanxiaolu   电话:15876572365   公司:深圳市金双石科技有限公司
回复

使用道具 举报

 楼主| 崎山小鹿 发表于 5 小时前 | 显示全部楼层
崎山小鹿
5 小时前 看全部
不错的资料:
数字人实战第六天——DH_live 训练自己的数字人   https://blog.csdn.net/qq_34717531/article/details/142522502
DH_live数字人实时驱动方案  https://blog.csdn.net/qq_34717531/article/details/141065146
天不生墨翟,万古如长夜!以墨运商,以商助墨。金双石科技长期招聘科技研发人才!微信:qishanxiaolu   电话:15876572365   公司:深圳市金双石科技有限公司
回复

使用道具 举报

 楼主| 崎山小鹿 发表于 1 小时前 | 显示全部楼层
崎山小鹿
1 小时前 看全部
yumo
3万次训练之后
learning rate = 0.0001000
learning rate = 0.0001000
===> Epoch[30670](0/2): Loss_DI: 0.2398 Loss_GI: 0.2761 Loss_perception: 1.4671 lr_g = 0.0001000 lr_d = 0.0001000
===> Epoch[30670](1/2): Loss_DI: 0.2398 Loss_GI: 0.2793 Loss_perception: 1.4673 lr_g = 0.0001000 lr_d = 0.0001000
天不生墨翟,万古如长夜!以墨运商,以商助墨。金双石科技长期招聘科技研发人才!微信:qishanxiaolu   电话:15876572365   公司:深圳市金双石科技有限公司
回复

使用道具 举报

  • 您可能感兴趣
您需要登录后才可以回帖 登录 | 立即注册 |

本版积分规则 返回列表

管理员给TA私信
以墨运商,以商助墨。

查看:143 | 回复:3

  • 去掉视频中的字幕-牛片网字幕抹除

    有时候我们需要去掉视频中的字幕,可以使用牛片网的字幕抹除功能 项目地址:https://w

    阅读:42|2024-11-07
  • 程序员的出图神器ComfyUI

    ComfyUI 是一个强大且模块化的 Stable Diffusion 操作界面,与我们熟知的 WebUI 在底

    阅读:129|2024-11-05
  • 平面2D数字人王者DH_live

    每个人都能用的数字人 一、项目地址:https://github.com/kleinlee/DH_live 目前我们

    阅读:143|2024-11-05
  • 向日葵智能阳光导入系统

    向日葵智能阳光导入系统,方便部署在野外、山坡,沼泽给光线不足的地区带去阳光,有了

    阅读:142|2024-11-05
  • 大饼AI变声

    你想男声变女声吗?你想女声变男声吗?实现声音自由可以使用大饼AI变声。 官网地址:h

    阅读:124|2024-11-04
  • 变声软件VTUBESOUND

    软件地址:https://www.vtubesound.com/ 主要功能: 软件目前支持Windows所有版本

    阅读:148|2024-11-04
  • 诚聘版主

    有人在论坛发了十几篇广告,幸好及时发现并全部删除, 诚聘版主,欢迎喜欢这个网站

    阅读:243|2024-11-02
  • 可视化神经网络训练tensorflow.org

    通过图像和动画的形式,解释深度学习是如何一步步简化复杂的事物的。 能够设置数据

    阅读:389|2024-11-01
  • 微模型开发迫在眉睫

    高性能低功耗的神经网络微模型开发迫在眉睫,一些前沿的大模型训练,每一年对算力需求

    阅读:409|2024-11-01
  • 一键AI换衣-可图AI试衣

    我们的真的实现了穿衣自由了吗?上传一张人物图片和衣服的图片,就能实现一键换衣。

    阅读:524|2024-10-30
金双石科技,软件开发20年,技术行业领先,您的满意,就是我们的目标,认真负责,开拓进取,让成品物超所值
关于我们
公司简介
发展历程
联系我们
本站站务
友情链接
新手指南
内容审核
商家合作
广告合作
商家入驻
新闻合作

手机APP

官方微博

官方微信

联系电话:15876572365 地址:深圳市宝安区西乡街道宝民二路宝民花园 ( 粤ICP备2021100124号-1 ) 邮箱:qishanxiaolu@qq.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
快速回复 返回顶部 返回列表