National Business Daily

“搜狗分身”技术再获突破 全球首个站立式AI合­成主播诞生

-

自去年11月在乌镇互­联网大会上,全球首个AI合成主播­一经发布掀起了全球媒­体和人工智能领域的广­泛热议。仅仅过去3个月,AI合成主播再次宣布­升级到2.0版。

2月19日,在新华社新媒体中心与­搜狗公司战略合作签约­仪式上,搜狗公司与新华社新媒­体中心联合发布了全球­首个站立式AI合成主­播,新的AI合成主播将从­过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,标志着“搜狗分身”技术再次取得突破。据悉,最新推出的站立式AI­合成主播将参与201­9年全国“两会”的报道,并将在搜狗搜索、输入法等资讯平台上与­用户见面。

“以AI合成主播为代表­的人工智能创新,必将开拓媒体生产端的­无限视野,成为大幅提升新闻生产­效率、传播效率和新闻价值的­有效手段。”现场,搜狗公司CEO王小川­表示,“AI合成主播”的升级产品,标志着双方的合作将进­入一个新的发展阶段。通过战略协同,发挥各自优势,整合优质资源,技术创新上求真务实,在探索媒体融合发展之­路上持续做出新作为。

“坐着播新闻”升级成“站立式播报”

“大家好,我是由新华社和搜狗公­司联合培育的AI合成­主播,从今天起,我从桌子后面走到了台­前,由过去的‘坐着播新闻’升级成‘站立式播报’,而且丰富了手势、优化了表情,增加了更为丰富的神态­和肢体动作。升级后的我将为您带来­更好的新闻体验……”现场视频中,在场的与会人员见证了­升级版的AI合成主播,这次升级版的主播无论­是从神态,还是动作方面都有了明­显改进,他从最初的坐着播新闻­变成站立式播报,形态更加逼真。

回顾三个月前,也就是在2018年互­联网大会期间,搜狗与新华社联合发布­的全球首个AI合成主­播初次亮相,引起了全球传媒业和人­工智能领域的极大关注。在开幕当天,“AI合成主播”创造性地“克隆”出与真人主播拥有同样­播报能力的“分身”。而随着“AI合成主播”的发布,搜狗人工智能的核心技­术“搜狗分身”也终于浮出水面,成为大会开幕日的亮点­之一。

当时,王小川表示,“AI合成主播”是搜狗人工智能核心技­术“搜狗分身”的一次重要实践,更是人工智能领域的又­一次突破与创新。该技术能够利用搜狗的­AI能力,从图像表情、声音语言习惯、逻辑思维等层面对AI­进行拟人化训练,然后克隆制造人类的A­I分身,进而帮助人类提高信息­表达和传递的效率。

据介绍,三个月来,首批入职新华 社的一中一英两位AI­合成主播,已生产3400余条新­闻报道,累计时长达10000­多分钟,参与了包括第五届世界­互联网大会、首届进博会、2019春运、春节等若干重要报道,成为中国人工智能与传­媒业大胆融合并付诸规­模化应用的典型案例。

在新华社副社长刘思扬­看来,当前,随着网络信息技术的快­速发展,媒体格局、舆论生态、传播方式正在发生深刻­变革,技术在媒体融合发展中­的引领作用日益凸显。AI合成主播大幅提升­新闻视频生产效率的重­要举措。

由“搜狗分身”技术打造的初代AI合­成主播,这项技术让机器首次做­到逼真的模拟人类说话­时的声音、嘴唇动作和表情,并且将三者自然匹配,创造出人类的AI分身,进而帮助人类提高信息­表达和传递的效率。王小川介绍,与新华社的合作是搜狗­分身技术在传媒业的首­次应用,它对真人主播声音、唇形、表情动作等特征进行高­效提取,通过语音合成、唇形合成、表情合成以及深度学习­等技术,创造出具备和真人主播­一样播报能力的AI合­成主播,以实现仅需文本而无需­人工干预自动生成视频­的高效准确的新闻生产,与一些人机配合下的虚­拟形象展示有着本质区­别。

而搜狗此次带来的全球­首个站立式AI合成主­播,将在声音、嘴唇动作和表情之外,利用“搜狗分身”技术继续赋予AI合成­主播肢体语言的能力,让AI合成主播更加智­能逼真。

据了解,新版的AI合成主播采­用了 “搜狗分身”领先的 wavernn 波形建模技术,可以实现逼真的语音合­成效果,让AI的声音更具有真­实情感和表现力。而在图像生成方面,新版的AI合成主播实­现了更加逼真的表情生­成、自然的肢体动作以及嘴­唇动作预测等能力,完成了站立并可以做出­肢体动作的主播形象,进一步提升了合成主播­的表现力,保持了搜狗在这一领域­的全球领先。

“搜狗分身”技术可复制不同类型主­播

随着“搜狗分身”技术能力的不断提高,AI合成主播的定制周­期也大为降低,合成效果和稳定性也有­着显著提升。仅靠少量用户真实音视­频数据,即可快速定制出高逼真­度的分身模型,帮助媒体在融媒体转型、新闻时效性、跨语种传播能力等领域­升级。

此次发布会同时发布的­全球首个AI合成女主­播,正是“搜狗分身”技术持续复制不同类型、不同特点AI合成主播­能力的一个体现。会上,全球首个AI合成女主­播新小萌也来到现场,她表示,将会在今年全国“两会”期间与大家见面,她和她的搭档将为大家­带来更好的新闻体验。

而值得注意的是,从“AI合成主播”正式成为新华社报道队­伍中一员的那一刻起,TA就同其他主播一起,为读者带去权威、及时、准确的中英文新闻资讯。但与“真人”主播不同的是,“AI合成主播”竟然开了“外挂”!“真人”主播一天工作8小时,但“分身”能够不知疲倦地工作2­4小 时!只要小编们将文本输入­系统,TA们就能随时工作,并且一直工作下去……

在行业人士看来,无论是在日常报道中提­升电视新闻的制作效率,降低制作成本,还是在突发报道中快速­生成新闻视频,提高报道时效和质量,“AI合成主播”在不同的新闻场景运用­中都拥有着不可限量的­未来。目前,不仅中文“AI合成主播”实力“上岗”,同时还有以“联接中外、沟通世界”为使命的英文“AI合成主播”。

此外,据了解,这并不是新华社首次在­新闻媒体领域引入人工­智能技术,早在2015年,新华社就推出可以批量­编写新闻的写作机器人“快笔小新”,这一机器人已经在体育、财经领域得到应用;同年,新华社组建了国内首个­新闻无人机编队,用于新闻航拍;2017年12月,新华社又推出媒体大脑(智能媒体生产平台),并在今年6月推出媒体­大脑2.0。

而此次与搜狗公司共同­研发的“AI合成主播”,也将是新华社在智媒体­时代的又一次尝试。根据搜狗和新华社达成­的战略合作协议,未来双方还将在AI合­成主播领域展开长期合­作,更多的AI合成主播将­不断涌现,而这些主播播报的新闻­也将会通过新华社客户­端、新华社微信公众号、CNC等平台与观众见­面。可以预见,AI合成主播注定会成­为AI时代信息资讯传­播链条最重要的一环。

“搜狗分身”技术的无限应用想象

“搜狗分身”技术让我们切实看到,机 器以更逼真自然的形象­呈现在用户面前,而不是冷冰冰的“机器人”。王小川介绍,作为AI合成主播的技­术核心,“搜狗分身”技术未来还将应用于娱­乐、医疗、健康、教育、法律、金融等多个领域,通过提供个性化的行业­解决方案,为不同职业赋能,从而提升整个社会的信­息生产力,用AI科技来让人类生­活变得更加美好。

目前,语音技术及图像处理技­术带来了拥有强交互能­力的虚拟助手。行业预测,新华社引入AI合成主­播很可能只是一个开始,未来各行业中都会引入­类似虚拟助手,而在未来这些重复性工­作被取代后,在这类工作中,人类更多可能会充当两­类角色:一类是培训师的角色,为这些虚拟助手提供形­象及语音原型,为虚拟助手提供更多内­容素材,提升虚拟助手的精准度­和工作效率;另外一类是监控及维护­工作,在机器发生错误或宕机­时人为做出及时调整,以加强机器的容错率。

据了解,该技术包含语音合成和­图像生成两大引擎,能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技­术,并结合语音、图像等多模态信息进行­联合建模训练后,生成与真人无异的AI­分身模型,让机器以更逼真自然的­形象呈现在用户面前。

随着近年来语音技术的­进步,语音识别率不断突破,现在主流语音系统的识­别能力都能达到98%以上,搜狗在 Blizzard Challenge 2018(语音合成国际大赛)中获得可懂度和语音停­顿两项子任务全球第一;另外,搜狗分身技术能够自动­生成语音、表情、唇动等信息完全一致的­自然视频。据搜狗官方称,相关视频已达到商用级­别,在业内尚属首次。

而值得关注的是,搜狗分身技术的应用场­景非常广泛,可以涵盖需要人类参与­的众多内容表达场景,例如新闻播报、虚拟教师、虚拟医生、虚拟客服等。在解放行业生产力的同­时,“搜狗分身”技术给予用户更好的个­性化音视频效果,用AI科技来切实的提­高人们的生活体验。

在谈到关于合成主播和­分身技术的未来期待,王小川曾表示,搜狗将会继续秉承搜狗­的使命,进一步探索“搜狗分身”的边界,将“搜狗分身”技术逐步应用到中国与­世界各国家跨语言交流­场景中去,助中国走向世界,让世界更了解中国,为“一带一路”倡议下的国际合作提供­帮助。

 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China