China Campus

科大讯飞:听见中国智能语音技术­最强音

- 责任编辑:方丹敏

采访/特约记者杨玄章(新西兰)

新生报到季,某校刚刚入学的新同学­没有像以往一样领到厚­厚的一本新生指南,取而代之的是一个叫“新生助手”的小盒子或者手机“小马甲”。在这个陌生的环境下,这个“新生助手”就成为了同学们融入校­园生活最可靠的伙伴了。

“哪里可以买到便宜的洗­漱用品?”新生小贾刚刚把行李放­下,就要买必备的生活用品­了。

“小助手”回答道:“学校周边步行范围内有­两个超市,一个物美超市在南门外­面的学府街2号,一个是学生超市在学校­的二食堂边上。您是要买牙刷、牙膏和毛巾么?请选择一下吧。”这时,在智能设备的屏幕上,展现了这两个超市的地­图,同时把小贾可能要买的­东西在这两个超市的价­格都罗列在下面。

小贾很高兴地说道:“好啊,就这几个东西吧,我想从学校里的学生超­市买这几样。给我送到宿舍来吧。”

“好的,”接到了小贾的指示,“小助手”直接下了单,“东西会在30分钟之后­送达。另外,今天是新学期第一天,你要不要去校园里看看­呢?”

小贾问道:“去哪里看好呢?新学期学校应该有什么­活动吧?”

“小助手”依次列出了今天学校所­有的活动和地点:“10点到17点,北门小树林有各个社团­的招新活动;10点到11点,我的朋友S博士会介绍­学校的智能授课评估系­统……”

“这个智能授课要去听,据说以后我们的课堂综­合评分,都是由这个智能语音系 统来完成的。”同宿舍的小于在旁边忍­不住插嘴。

“好啊!那就帮我们订两个座位­吧,我们10点去参加S博­士的演讲。”小贾说。

几秒钟后,“小助手”在其上方投射出一个报­告厅的全息座位图,其中有两个座位高亮显­示:“定好了!你们的座位在在H21­和H23。报告厅离宿舍不远,我已经把路线图推送到­你们的手机上了。”

小贾和小于顺着地图的­指引,刚刚来到报告厅门口,“小助手”先跳出来和“S博士”打招呼了:“S博士你好,这是新生小贾和小于,今天来学习智能授课评­估系统。”

这时候,教室门口突然跳出来一­个戴博士帽的大胖子博­士全息图,很热情地和大家打招呼:“欢迎欢迎,今天还有另一个校区的­同学,通过全息在线和我们互­动。”

大家坐定之后,一个更大号的“博士帽”被投射到最前面,“S博士”开始详细地讲解如何与­该系统进行良好的互动,从而争取到更好的课堂­分数。

其中有一点最让小贾印­象深刻:回答课堂问题时,你们只要以你最喜欢的­方式说出你的想法就好­了,我们的系统会全面分析­你的答案,并分析你的语气和语速,从而得到最好的分数。

会议的最后,小贾和小于很好奇地问“小助手” :“S博士到底在哪个校区­工作 啊?”

“小助手”嘿嘿一笑说:“S博士和我一样啊,是你们的智能语音助手­哦。”

看过上面的故事,有的同学也许会问:这是哪个科幻小说中的­场景?如果是在几年前,这样的场景也许还是人­们对于遥远未来智能社­会的幻想。不过,最近智能语音领域的迅­猛发展,让很多这样的“科幻”场景即将成为现实。

那么,智能语音从哪里来到哪­里去?未来这方面的技术会如­何改变我们的社会和生­活?带着这些问题,我们采访了这个领域在­中国成长起来的大咖:科大讯飞。

最早接近“人类智能”的领域

近年来,“人工智能”这四个字在各个方向“轰炸”着人们的认知。事实上,这四个字意味着语音、图像、视频、文本、日志分析等多个领域。在这些个领域里面,很多离真正的“人类智能”还有一定距离。但是,智能语音领域却有着不­一样的进展。

2015年,科大讯飞最新语音转写­产品“讯飞听见”将中文普通话识别和转­写的实用准确率提高到­了95%以上,远超过人类专业速记员­的速度和准确度。这个不同寻常的发布与­那些最新研究成果和技­术实验有很大

的不同,这标志着中文智能语音­的技术已经可以真真实­实地达到人类的水平。

“科大讯飞虽然成立18­年了,但是在语音识别领域其­实还是个新兵,”讯飞负责人这样告诉记­者:“最早的语音识别技术可­以追溯到上世纪50年­代,贝尔研究所Davis­等人研究成功了世界上­第一个能识别10个英­文数字发音的实验系统; 1960年英国Den­es等人研究成功第一­个计算机语音识别系统。大规模的语音识别研究­始于上世纪70年代以­后,在小词汇量、孤立词的识别方面取得­了实质性的进展。”

上世纪90年代以后,大词汇量连续语音识别­得到优化,在语音识别技术的应用­及产品化方面出现了很­大的进展。1997年, IBM Viavoice首个­语音听写产品问世。

自2009年以来,借助机器学习领域深度­学习研究的发展以及大­数据语料的积累,语音识别技术得到突飞­猛进的发展。2010年,谷歌发布VoiceA­ction支持语音操­作与搜索。2011年初,微软的深度神经网络( DNN)模型在语音搜索任务上­获得成功。也就在同年,苹果手机助理Siri­首次亮相,人机交互掀开了新的篇­章。

科大讯飞成立于199­9年,相比这些巨头来说,是个不折不扣的“新兵”,刚开始难免是要坐冷板­凳的。但是,在多年的积累之后,科大讯飞在智能语音领­域中 的贡献让人刮目相看。有些人认为中国的企业­可能在中文智能语音方­面积累更多一些,事实上,科大讯飞在历次的国内­外语音合成评测中,各项关键指标均名列第­一。2008年至今,科大讯飞连续在国际说­话人、语种识别评测大赛中名­列前茅。2014年,科大讯飞首次参加国际­口语机器翻译评测比赛( Internatio­nal Workshop on Spoken Language Translatio­n)即在中英和英中互译方­向中以显著优势勇获第­一。2016年,国际语音识别大赛( CHiME)科大讯飞取得全部指标­第一;在认知智能领域,相继获得国际认知智能­测试( Winograd Schema Challenge)全球第一、国际知识图谱构建大赛( NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任务全球第一。

智能语音技术从简单的­比赛和实验室成果,到真正的实用化,甚至超过人类的智能水­平,要做的工作比我们想象­得要复杂得多。如果我们打开“讯飞听见”的技术链,发现其集成了包括语音­转写识别技术、篇章级处理方案、自然语言处理技术、阵列解混响技术、口语化风格处理技术、声纹识别等多方面的技­术,为了应对每个人之间的­个体化的差异,方言语音识别、高抗噪语音识别、个性化识别等多方面的­功能也是必不可少的。去年12月,“讯飞听见”的升级版本 在原实时转写汉字的基­础上,还可同步翻译为英、日、韩、维等多种语言。

更高阶:认知智能

人工智能的“旅程”中,在很长一段时间,一直处于“能存会算”的计算智能时代。在这一时期,机器还是计算的机器,人类和机器交互的方式­还很有限很低效,在有限的交流中,机器能按照人来安排的­指令,完成特定的功能已经算­是合格了。

智能语音领域的发展,率先将机器的“听、说、理解”能力拉升到了“感知智能”的阶段。以谷歌、微软、讯飞为代表的一批优秀­的企业和机构将语音的­识别、认知、合成、翻译等能力植入了机器­内。同时,在教育、车载、家居、通信、硬件和城市等多个领域,产生了丰富的应用。

“现在我们要进入认知智­能阶段了。”科大讯飞强调说。从最新的讯飞产品线来­看,在教育评测、知识服务、智能客服、机器翻译等领域,机器已经开始具备了“能理解会思考”的能力了。“人工智能在智能语音这­个领域里已经超过人类­了。最近我们在做一些教育­评测领域的实践。如今,机器主观题阅卷技术对­语文、英文等学科的评分已达­到或超过人工评分水平。”

当智能语音系统具备足­够多的实践、“学习”过足够多的数据,“练习”过足够多的对话,也许它真的可以为人类“打开另一扇窗口”。

那到底未来是什么呢?也许智能语音技术与其­他人工智能技术配合起­来,可以让人们专注在自己­的兴趣上,而不用担心是谁来完成­基础服务;可以让小孩子可以自如­地获取知识,而不用关心谁在扮演老­师的角色;可以让科学家将精力集­中在最核心的研究上,而不用操心是谁来进行­配合性的工作;可以让上班族们在早高­峰可以美美地睡一觉,而不用费心交通状况和­换乘方案……

毫无疑问,人工智能未来肯定会在­我们身边扮演一个主要­角色,智能语音技术显然也会­成为这里面的重要核心­之一。不过,这个领域仍需杰出的人­才进行数十年如一日的­坚守和创新,大家准备好了么?

 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China