大家好,我是鸭哥。
最近大火的虚拟美妆博主柳夜熙、上周百度发布的央视总台首个 AI 手语主播以及各大虚拟偶像等等数字人的核心技术中,让数字人开口说话的就是这个 AI 算法。
图片来源:网络
蒙娜丽莎说 Rap、苏轼先生开口念诗、Gollum 唱 Black Pink 的 Ice Cream。是的,你没有看错,本篇给大家介绍的这个 AI 算法可以实现上述超级 Fancy 的特效,亲手制作点击量过百万、霸榜热搜的超级视频。
话不多说,让我们先看效果!
那这到底是什么神奇的技术呢?
答案就是飞桨开源套件 PaddleGAN 中的新晋宠儿:Wav2lip 模型
赶紧上项目查看源码及文档教程吧,这个项目还提供热门 GAN 模型,如 AnimeGANv2、GauGAN、First Order Motion 的实现。
GitHub链接:
https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md
更贴心的是,完整项目代码已公开于 AI Studio,大家动动手指即可体验:
https://aistudio.baidu.com/aistudio/projectdetail/3156519?ref=gdaily2
下面呢,我们就来给大家拆解下这个技术原理,和具体的操作步骤,手把手教你实现苏轼念诗,蒙娜丽莎唱 Rap 或者任何你心仪的 Idol 说情话
这是一个输入一段语音,使目标人物图片、视频的唇形,根据语音进行自动匹配并运动起来的任务。
因此,我们需要准备一段音频和一段人像 / 动漫人物视频,将音频和视频输入 Wav2lip 模型中,经过 Wav2lip 模型预测后,便会输出一段目标人物 / 动漫人物说出输入音频的视频,至此,「千万级」配音视频就完成啦~
PaddleGAN 的唇形迁移能力:Wav2lip
Wav2lip 模型实现唇形与语音精准同步突破的关键在于:
万能的 Wav2lip 模型适用于任何人脸、任何语音、任何语言!对任意视频都能达到很高的准确率,都可以实现无缝地与原始视频融合,无论是视频效果还是语音效果都很逼真。
与此同时,PaddleGAN 针对 Wav2Lip 模型进行了高清优化,使唇形拟合更细腻,更加逼真。
PaddleGAN Wav2lip 的使用方法
在 PaddleGAN 的帮助下,完成上述神奇的自制「配音 / 对口型」只需两步:
1. 下载 PaddleGAN 并所需安装包
%cd /home/aistudio/PaddleGAN
2. 使用唇形合成命令
%cd applications/
--face /home/aistudio/1.jpeg \
--audio /home/aistudio/2.m4a \
--outfile /home/aistudio/pp_put.mp4 \
--face_enhancement
只需在如下命令中的 face 参数和 audio 参数分别换成自己的视频和音频路径,然后运行即可生成和音频同步的视频,运行完成后,会在当前文件夹下生成文件名为 outfile 参数指定的视频文件,该文件即为和音频同步的视频文件:
face: 原始视频,视频中的人物的唇形将根据音频进行唇形合成
audio:驱动唇形合成的音频,视频中的人物将根据此音频进行唇形合成
outfile:成品视频名
face_enhancement:添加人脸增加特效
PaddleGAN 的花样玩法
以为 PaddleGAN 就止于此?NoNoNo~
免费开源的宝藏套件 PaddleGAN 的能力当然不止于唇形迁移 / 生成的技术,里面满满都是种类丰富、趣味的图像 / 视频生成、处理能力,热门的前沿模型,如 AnimeGANv2、GauGAN、First Order Motion 等模型等待大家探索。
如图像风格迁移、视频修复、图像超分辨率、人像动漫化、照片动漫化、人脸编辑等等。
PaddleGAN 就如一个「游乐场」,欢迎各位「玩家」加入,体验各类「游戏设施」 ~
来源:网络
程序员技术交流群有不少同学给鸭哥说,现在进大厂太难了!赚钱太难!因此,鸭哥特意邀请了华为、腾讯、阿里的朋友进群,与大家一起交流经验,一起增长技术。有兴趣入群的同学,可长按扫描下方二维码,一定要备注:城市+昵称+技术方向,根据格式备注,可更快被通过且邀请进群。
我就知道你会点赞+“在看”