西安交通大学开源了人工智能SadTaker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。内含多个踩坑的解决办法,值得玩一玩。
可以根据一张图片、一段音频,合成面部说这段语音的视频。图片需要真人或者接近真人。目前项目已经支持stable diffusion webui,可以SD出图后,结合一段音频合成面部说话的视频(抖音常见的数字人)
SadTalker相关软件和程序
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple
TAGS SadTalker让图片说话 SadTalker让图片说话 SadTalker让图片说话 SadTalker让图片说话
暂无回复,快来抢沙发吧