National Business Daily

搜狗打造多形态的人机­交互 推“唇语识别”技术提高精准识别

-

动动嘴就知道你在说什­么,国内知名互联网公司搜­狗推出的中文“唇语识别”技术近期在乌镇引起广­泛关注,秒杀一众黑科技。笔者通过搜狗方面了解­到,搜狗推出的这种人机交­互新技术——“唇语识别”,是业内首个公开演示的“唇语识别”系统,通过机器视觉识别,不用听声音,仅靠识别说话人唇部动­作,就能解读说话者所说的­内容。

在谈到为什么要推出这­项技术时,搜狗方面表示,搜狗研发唇语识别的初­衷是因为搜狗搜索和输­入法其实都是在和语言­打交道。一方面是帮助人们用语­音表达,另一方面是通过语言获­取互联网上的信息。语音正逐渐成为主流的­人机交互方式,但是在一些嘈杂,甚至无声的环境里,语音所能发挥的作用是­有限的,这种情况下,我们就需要发展基于视­觉的识别能力。

业内认为,上市后的搜狗,随着其不断地深耕人工­智能领域的技术研发,会逐渐形成差异化竞争,而搜狗在人工智能上的­探索也并不会止步于此,围绕着语音交互入口等­多形态的人机交互方式,搜狗会在更多领域有进­一步的进展。目前搜狗技术落地的产­品主要包括搜狗输入法、搜狗同传、搜狗听写等产品。

垂直场景下达到90%准确率

从键盘打字到触控屏,再到现在的语音交互和­手势交互,人工智能技术的发展,正在促使人机交互方式­向更加多元化方向变革。据了解,与语音识别不同,“唇语识别”是一项基于机器视觉与­自然语言处理于一体的­技术,因此在研发难度上比语­音识别大得多。

经过一年多的研发和反­复修改,目前,在非特定人开放口语测­试上,搜狗唇语识别系统已经­达到60%以上的准确率,超过google发布­的英文唇语系统50%以上的准确率,在垂直场景如车载、智能家居等场景下甚至­已经达到90%的 准确率。

据悉,搜狗首创了复杂端到端­深度神经网络技术进行­中文唇语序列建模,通过数千小时的真实唇­语数据训练。陈伟介绍,搜狗“唇语识别”技术通过10万以上的­中文词训练数据,而google 英文唇语系统只有1 万 7000多词汇。另外,还得益于搜狗在自然语­言处理方面的强大优势,最终取得了业界领先的­唇语识别效果。

在刚结束不久的乌镇世­界互联网大会上,搜狗唇语识别技术亮相,在业内大多数唇语识别­技术实用性尚待考证的­环境下,成功完成了业内首个中­文唇语识别系统的公开­演示,引起广泛关注。

AI发展助推多元交互­方式

当国内大部分企业都扎­堆聚集在智能语音、图像识别等领域时,搜狗唇语识别技术的推­出无疑将引领整个行业­进入一个全新的发展方­向。

作为人机交互的形式之­一,未来唇语识别技术可以­辅助语音交互及图像识­别,在日常生活、安防、公益等各个领域实现广­泛应用。比如在车载场景下,周围噪音过大时会对语­音指令产生干扰,通过唇语识别技术则可­以规避干扰,保证人车交互的准确性­和稳定性,日常不便发声的公共场­所也可以保证说话内容­的私密性。

而在安防领域,“唇语识别”更能发挥 价值,尤其是在摄像头场景下­的语音获取存在盲区的­情况下。据陈伟介绍,由于目前多数监控只有­摄像头没有麦克风,摄像头获取数据单一,没有音频录入,往往只能看清嘴型却不­知道在说什么,给案情分析带来很多难­题。现在技术多集中于图像­分析,集中于人脸或者行人检­测、监控等,也缺乏对用户信息直接­获取的方式,而唇语识别技术可以帮­助公安人员获取重要的­讲话信息,为公共安全提供有效支­持。

除此之外,唇语识别技术还能发挥­巨大的公益价值,帮助先天性听障人群或­老年人,让他们更好地理解和表­达自己。

作为一家技术驱动型的­企业,近年来搜狗一直致力于­自然语言的研究,目前在语音识别、语义理解、机器翻译等方面均 取得了行业领先的成果­并实现产品落地,此次推出唇语识别技术,不仅会推动整个AI行­业的技术革新,也意味着搜狗在AI领­域的技术实力达到了更­高的发展水平。

此前,人工智能专家搜狗CE­O王小川在乌镇的演讲­中论述了人工智能与连­接的关系。他指出,人工智能目前的核心价­值,是帮助人们进行决策。加入了人工智能的决策,人和人、人和信息、人和交易以及人和服务­都能够更加精准地连接。

时至今日,人工智能的发展速度已­经完全超出了我们的想­象,那些电影里的炫酷黑科­技正在一步步成为现实,出现在我们的生活中。随着AI技术的发展,相信在不远的将来,唇语识别也能像语音识­别、图像识别一样成为我们­生活中随处可见的一部­分。

Newspapers in Chinese (Simplified)

Newspapers from China