2018年11月7日,全球第一个全仿真智能虚拟主持人——“AI合成主播”亮相第五届世界互联网大会开幕日。在发布会现场的体验中,观众只要输入一句既有的新闻文本,屏幕上就会出现一位虚拟的新闻主播,他不仅会用和真人一样的声音进行播报,连唇形、面部表情也能完全吻合。这样的视频效果,无论看上去还是听起来,都与现实中的主播的本人播报没有太大差别。
搜狗公司智能语音事业部总经理王砚峰表示,在虚拟主播的开发过程中,进行了各种探索尝试,最终在“搜狗分身”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,“AI合成主播”正式诞生。