东南大学网络空间安全学院副教授宋宇波介绍,我们常说的AI换脸技术通常包含两种形式,一种是将一个人脸的脸部特征融合到其他图片/视频中的特定人物上,生成的新图片/视频中特定人物人脸不仅融入了被替换的人脸特征同时,同时也保持了图片/视频中特定人物原有的姿态、表情、动作等属性,这种方式通常需要预先搜集替换人脸和被替换人脸的大量图片,才能建立逼真的图片和视频。另一种方式则是将特定的表情移植到指定人脸上,比如网络上经常能看到的名人说特定的话或做特定表情既是此类方式,这种方式移植的表情和动作通常来源于预先建立好的大数据图库,而并非换脸人的个人表情信息,因此这种方式仅需要不多的个人人脸照片即可,最初的技术大概需要300-500张换脸人的图片,随着技术的不断进步,现在仅需1-3张相关照片即可生成需要的换脸照片或视频。

宋宇波
宋宇波介绍,早期的换脸技术仅是通过图像处理的方式,将人脸的局部特征直接移植到图片上,但这样生成的图片不仅工作量大同时处理的痕迹较为明显,并不自然。而且这样也很难实现动态拼接,无法生成高清的换脸视频。随着人工智能技术的出现,可以通过对大量人脸图像进行学习,建立逼真的脸部模型,实现局部人脸特征的自动替换。现在使用的人工智能技术有两种方法,一种称为自动编码器,另一个叫作生成对抗网络,两者都是AI深度学习的应用方式。
宋宇波指出,自动编码器的方法是将要替换的人脸A和被替换的人脸B各自准备上百张照片,丢到一组叫作编码器的AI模型中,编码器会自动搜集两张脸相似的地方,并把他们压缩成极小的数据。这时,采用解码器分别读取两个人脸的极小数据,重建出人脸A与人脸B。经过上千回的训练,编码器与解码器会自动学习调整,重建出更精确的人脸。训练完后,只需要将人脸A用编码器压缩后再用人脸B的解码器重建人脸,即可在人脸B上出现人脸A的特征。
另一种生成对抗网络技术近年来相当热门,它包含两个神经网络模型,一个称为生成网络用于生成数据,另一个称为鉴别网络用于真伪判断。通过这两个网络模型相互对抗、反馈,经过多轮训练后,即可产生期望特征的换脸图片。简单说,我们可以把生成网络看作一个换脸图片画师,它不停地绘出新的换脸图片;鉴别网络则是一个高深的鉴定专家,判断其图片是否逼真,并把判断的结果反馈给生成网络,生成网络会根据反馈的信息不断调整自己输出的图片,鉴别网络也会调整自己的判断方式,在不断循环反复的博弈对抗中,直到生成网络生成的换脸图片鉴别网络无法区分真伪。
文/广州日报·新花城记者 周伟良
图/广州日报·新花城记者 周伟良
视频/广州日报·新花城记者 周伟良
广州日报·新花城编辑 蔡凌跃