SadTalker
西安交通大学开源了人工智能SadTaker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。内含多个踩坑的解决办法,值得玩一玩。
功能
可以根据一张图片、一段音频,合成面部说这段语音的视频。图片需要真人或者接近真人。目前项目已经支持stable diffusion webui,可以SD出图后,结合一段音频合成面部说话的视频(抖音常见的数字人)
环境准备
- 安装Python3.8
- 配置ffmpeg环境
- 切换阿里pip源
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple
- 解压SadTalker.zip启动webui.bat
动态头像,更有意思
为啥,生成的视频只有1S
哇哦,好简单
这篇文章写得深入浅出,让我这个小白也看懂了!
sd都支持,强!