蓝盟IT外包,会说话的头像! 新框架LipSync3D,实现未来或动态口型再同步

发布者:上海IT外包来源:http://www.lanmon.net点击数:1766

蓝盟IT小贴士,来喽!
谷歌人工智能研究人员与印度卡哈拉格普尔理工学院(Indian  institute  OFTE  Chnology  Kharagpur  )合作,开发了一种新框架,可以从语音内容中整合语音头像。
本项目的目的是根据声音制作“会说话的头像”视频,实现在交互式APP和其他实时环境中实现同步口型动作的配音和机器翻译的声音,并添加到头像中,从而实现优化和资源
机器学习模型lip同步3d
在这个过程中训练过的机器学习模型LipSync3D只需要一个目标脸部识别的视频作为输入数据。
数据准备流水线将面部几何提取与输入视频灯光和其他方面的评估分开,从而实现更经济、更集中的训练。
LipSync3D的两阶段工作流程。 的照片是由“目标”音频生成的动态纹理的三维面部。 下图将生成的网格插入到目标视频中。
事实上,LipSync3D对该领域的研究贡献最大的可能是训练和估计照明解耦的照明归一化算法(lighting  normalization  algorithm  )。
从一般的几何去耦照明数据来看,有助于LipSync3D在具有挑战性的条件下产生更加现实的嘴形变化。 这几年的其他方法将自己限制在“固定的”照明条件下,不暴露这些方面的限制。
在输入数据帧的预处理过程中,需要识别并删除镜像点。 由于这些镜点特定于拍摄视频的照明条件,因此可能会阻碍播放过程。
LipSync3D,顾名思义,不仅对评价的脸部进行像素分析,还积极使用特定的脸部标记生成运动的CGI风格的网格和用传统的CGI管道包围它们周围的“展开”(unfolded  )纹理
LipSync3D中的姿势规范化。 左边是输入帧和检测特性; 中间是生成的网格求值的规格化顶点,右侧是相应的纹理图,为纹理预测提供了基础的真实感。 资料来源:https://arxiv.org/pdf/2106.04185.pdf
除了这种新的照明再现方法之外,研究人员还主张,LipSync3D在以前的工作中提供了三种主要的创新:将几何、照明、姿势和纹理分离为正规化空间的离散数据流。 一种易于训练的自回归纹理预测模型,可以生成时间一致的视频合成; 然后通过人类的评价和客观的测量来提高真实性。分裂后的视频脸部图像的各个方面都可以在视频合成中实现更大的控制。
通过分析语音的音素和其他方面,LipSync3D可以从语音中直接导出适当的嘴唇几何运动,并将其转换为嘴周围已知的对应肌肉姿势。
对于在GeForce  GTX  1080上使用TensorFlow、Python和c的管线,视频的采样培训时间为2-5分钟的视频所需的3-5个小时。 培训课程使用了超过500-1000epoch的128帧组。 每个epoch代表一个完整的视频评估。
未来:动态口型再同步
近年来,口型重同步自适应的新卡车已经在计算机视觉研究中引起许多关注,尤其是有争议的deepfake技术的副产品。
2017年,华盛顿大学展示了可以通过音响学习口型的研究,并利用当时奥巴马总统的照片制作了录像。
018年,马克斯普朗克计算机科学研究所进行了另一项研究计划,实现了身份大于身份的视频转换(identity大于identity视频传输),带来了口型同步。 2021年5月,人工智能草创公司FlawlessAI发布了自己的对口型同步技术TrueSync。 该技术得到媒体广泛认可,成为不同语言主要电影的发行改进配音技术。
当然,deepfake开源存储库的持续发展也为人脸图像合成这一领域提供了活跃的用户贡献研究分支。
文/上海蓝盟  IT外包专家
IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部