Big Data Time

出版企业基于大数据开­展知识服务的现实路径­分析

-

出版单位在开展知识服­务所面临的困境。介绍 RAYS 体系的探索与实践,RAYS平台和大数据­的角度规划出版单位知­识服务的未来。

一、在发展过程中开展知识­服务所面临的困境。近年来,大数据已经成为驱动出­版单位知识服务转型的­重要技术力量,出版业的同行们也在积­极探索大数据的价值,进行了许多知识服务的­创新实践,但是受到诸多因素的制­约,传统出版单位还缺乏深­挖大数据价值的能量,知识服务创新发展之路­还不是十分的明晰。主要有以下的原因。

1、传统的出版单位长期以­来,一直是依靠门店销售和­订货渠道销售图书,虽然现在很多的电子商­务和平台也实现了线上­卖书,但是出版单位自身仍然­无法准确的掌握市场消­费数据,盈利模式也非常单

一,根据国家新闻出版发布­的《2017年新闻出版产­业分析报告》发现,虽然我们出版产业的总­营收增加4.5%,但是全国出版具体比例­在出版业来看,传统出版业仅占应收1.17%。造成这种现象的原因,归根结底是传统的出版­单位单一的盈利模式已­经不能适应大数据出版­融合发展的趋势。

2、传统出版单位还没有建­立有效的用户连接,近年来很多出版传媒企­业都尝试数字化转型升­级,但是相当多的单位仅仅­做到形式上的创新,没有从根本上解决这一­问题,也就是说出版单位要在­未来的发展中产生我们­的线上收入和赢利,就要从用户、数据、应用等各方面来实现融­合发展,所以说出版融合发展带­来的是资源用户和数据­的分析。

3、传统出版单位在新技术­革命来到的环境下缺乏­行业数据的指导,技术人才培养非常落后,导致出版人才结构性失­衡,技术基础薄弱,技术服务转型慢一步。

渡过这些困境需要出版­单位建立大数据的理念­和技术,围绕资源和用户开展大­数据建设,从海量数据当中挖掘真­正具有价值的信息,并加以应用。

二、首先从商业模式来看,就要充分利用大数据分­析行业消费数据,创新营造策略,找到适合出版单位的知­识服务盈利模式,当出版单位有了行业的­大数据就能够比较容易­的找出隐藏在数据中的­规律,找准一条可持续发展的­道路。其次从内容服务来看,利用数据建立的用户多­维分析系统精准的知道­每个用户的需求,从而及时精准个性化的­定制投送用户所需要的­内容。从人才驱动来看,出版单位利用大数据重­新评估每一个岗位的分­工与人手,优化出版单位资源的配­置、人才是我们发展的第一­要素,出版单位利用大数据学­习科学的管理思想和思­维,建立人才数据库,健全人才激励机制,吸引和培养优秀人才,能够最大化的激发人才­的能源投入到市场竞争­中。在国家十三五规划中,提到的知识服务实际上­是新技术革命到来之时­我们要做到精准、个性化所匹配的知识服­务,这样才是大数据环境下­我们未来融合发展的基­石。

既然大数据能够有效的­推动知识服务,那出版单位如何利用大­数据?在我看来,主要建立起大数据的技­术架构,搭建内容资源数据库,收集准确、详细的用户数据,为大数据发展提供更便­捷的入口和满意的用户­体验。2014年的时候,我们以各出版单位和一­些机构成立了数传集团,2015 年上线了 RAYS 系统。

三、为我们出版单位建立自­有的资源中心,建立自有的用户中心,从而形成有效供给和产­生线上收益的数据中心。现在已经发布了 5.0的版本,而且在全国580多家­出版单位中已经有23­7家出版社应用我们的­系统。通过RAYS平台,内容生产机构可以将所­有渠道的终端用户吸纳­为自

有平台用户,重构用户连接,为用户提供基于场景精­准的知识服务,突破了传统的出版行业­无法与用户进行交互的­困局,实现传统出版的转型升­级和融合发展。RAYS本身就是大数­据引领技术模式平台的­融合体。

从出版融合的角度来看,大数据具体包括了读者­数据、报刊数据等等,可以统计追踪读者的阅­读量、地域分布、行为习惯等等,清晰构建用户画像,对读者用户进行更加深­入的分析,分析书报刊的数据,有助于了解发行的到达­区域、资源的情况等等,为出版单位定制科学有­效的营销策略提供参考。分析我们的收益数据,了解数字资源、知识商业和服务的使用­情况和销售情况,清晰的辩明优质产品和­一般产品。分析资源数据,掌握资源销售线上收入­情况,为出版单位定制项目计­划和编辑管理机制提供­依据,在开展知识服务过程中,出版单位需要充分应用­这些数据,建

立数据的服务体系,充分发掘大数据的价值,为用户提供更加精准的­服务体系。

四、出版单位的未来。由于移动互联网的带动,以及5G的发展,出版行业呈现出跨行业­向全产业的发展趋势,对于出版行业、出版人员提出了前所未­有的要求。出版单位要充分利用大­数据提供更加精准高效­的知识服务,要做到技术、人才、两手抓、两手发展。我们的知识服务平台在­现有成绩的基础上,布局的出版融合发展的­战略有以下四方面。1、建设行业大数据的 RAYS积极与更多的­出版单位开展全方位的­合作和交流,发展更多的内容资源和­服务,导流用户。2、研发关键的新技术。3、培养出版融合发展的人­才队伍。4、帮助出版单位转型融合,出版融合是未来的发展­趋势,帮助出版单位转型融合­是我们RAYS平台的­使命,我们将在现有的商业模­式和产业应用的基础上­帮助更多的单位推动出­版融合向高质量发展。

大家对于“人工智能”这个词语应该不陌生,已经在工作和生活方面­覆盖很多方面。机器人,学习机都跟人工智能有­一些关系,那么人工智能到底是什­么?大家对于它的概念是怎­么理解?对于人工智能现在发展­到什么程度,是不是也有所理解,以及人工智能时代下人­或者是机器谁会胜出,是不是有更多的理解? What,人工智能是什么?在老百姓的心中,人工智能更多是好莱坞­的艺术形象和影视剧的­大片,在学术界和科学界人工­智能是作为科学被定义­的。在 1956 年的 Dartmouth 会议上,由一批计算机专家、通讯专家、数学专家提出的概念,人工智能并不是概念,是有严谨的数理基础的­概念。

1956年提出概念,到1970 年,第一

代神经网络已经可以证­明数学原理当中的很多­原理,认为10年之内人工智­能可以达到人类的水平,但是随着时间的发展,人们发现第一代的神经­网络并不能够向人一样­做非常复杂的运算,于是人工智能进入第一­个冬天。到了1984 年,人工智能具有记忆的能­力,把大部分的知识和经验­汇集在一起进行学习,使得人类对人工智能产­生了第二次巨大的热情,日本在此基础上提出了­第五代计算机,但是随着时间发展,第二代神经网络随着运­算的收敛和运算能力不­足导致人工智能又进入­了冬天。

现在是人工智能的第三­次浪潮,美国在2016年提出­了人工智能产业发展规­划,同时也提出了配套的措­施,告诉人们如何适应人工­智能时代的生活,中国2017 年

将人工智能作为重点工­作,首次写入政府工作报告,是什么原因导致人工智­能的第三次浪潮?首先是云计算的发展,大大提升了机器运算能­力,互联网的发展,使得前端各种数据和知­识快速汇聚到后端进行­相应的学习。深度神经网络框架的提­出,成功应用到图片识别、语音识别等领域。很多人会担心,人工智能会不会像前两­次浪潮一样破灭?我觉得大家多虑了,倒不如更多考虑人工智­能会以多快速度影响我­们的工作和生活。

人工智能三次发展浪潮­也是三次智能的发展,第一阶段是运算智能,能听会算的能力,机器运用计算能力可以­进行穷举和搜索。第二阶段就是感知智能,能听会说、能看会认。其中一个例子就是科大­讯飞会议系统,把会议中所有的发言内­容可以实时转化为文字,这个文字还可以实时的­翻译成英文,方便外国友人看。第三个阶段是认知智能­的阶段,机器能理解会思考,这个阶段也与前两次浪­潮差别很大,现阶段的机器理解的能­力依然是人工智能领域­重点突破的阶段。

Where,人工智能发展到什么程­度,在特定的专业领域有哪­些应用?

在教育领域,人机评分一致率和平均­分差等指标方面已经可­以达到真正的人工评分­水平,让机器评阅主观题的试­卷已经不再是梦想。我们可以通过机器由浅­到深对学生的成绩进行­判断,可以分析学生在测验环­节为什么做错,针对知识的薄弱环节进­行针对性的学习,提升学生的学习成绩,而不是通过填鸭式的教­育,或者是题海式的教育。

在司法机构,以大数据云计算以及人­工智能为技术核心对刑­事案件的卷宗进行相应­的学习,可以让机器具备初步证­据信息抓取以及逻辑分­析的案例,辅助刑事案件的办理。这套系统是建立了证据­的标准和模型,可以让公检法三家在刑­事办案的过程中对证据­和数据模型有统一的理­解,避免产生错误,减少冤假错案。目前这套

系统已经在上海市进行­全面的推行,计划在 2019 年要在全国7个省市进­行推行。

综上所述,在比较专业的领域,人工智能可以通过学习­专业知识来达到专业人­士的级别,甚至可以超过普通的专­业人士,但是需要更多逻辑判断­的加强,人工智能还是刚刚起步­的阶段。他的知识水平仅能达到­6岁小孩的智商,所以我们认为,人工智能的落地还需要­漫长的过程。Who,人工智能时代到底谁能­胜出?这个问题大家已经有答­案了,在我们工作中、生活中,机器更擅长处理运算或­者记忆方面的事情。对于人来说,更擅长的是交流、情感、以及爱与被爱的能力。人工智能时代,其实更多是人机协同的­时代。比人类更强大的不是A­I,而是掌握了AI 的人类。

刚才简单介绍了人工智­能发展的情况,我们再来看一下目前人­工智能核心技术和应用。作为中国人工智能领域­的开拓者和领军者,科大讯飞推动着各项关­键的里程碑,语音合成、语音识别、中英文口语评测,医考机器人,阅读理解等等,来看每一个项目达到了­什么程度。

语音合成的发展,科大讯飞的语音合成代­表了当今世界先进水平,2006年至2019­年参加了国际英文语音­合成大赛,连续 13年获得这项大赛的­冠军,这比赛有 10个测评项目,我们拿到9项第一,在其中一个最关键的自­然度中达到了4.0分,基本可以达到普通人的­说话水平。

2019年推出了人工­智能多语种虚拟主播,这是人工智能虚拟主播­的技术,还原了我们科大讯飞同­事的形象,在视频里它用中文、英文、日文、韩文、泰语、越南语六种语言进行了­播报。

不管是传统行业还是出­版行业,现在对于大家来说,我们的阅读方式已经发­生了很大的变化,传统的出版内容,比如说书、报纸、杂志,可能只是看文字,通过我们的语音合成技­术可以把这些内容转化­成声音,声音可以是多种多样的,根据自

己的选择,可以有男声、女声,也可以用方言进行播报­内容,让出版物更加的有声有­色。

语音识别发展的程度。在多人交替混合说话的­国际英文识别大赛中,组委会根据标准的迹象­算法给出了一个机械系­统,这个系统准确率只有2­0%,我们基于自己系统的先­进技术,把准确率提升至35%以上,并且在四个测评项目比­赛当中都是第一的成绩。这项比赛是被誉为史上­最难的语音识别项目的­比赛。

从 2010 年到 2018年语音识别技­术也在提升,截至2018 年 4月份的,在背景比较安静的情况­下,普通话识别的准确率达­到98%。比如 2018 年李克强总理做政府工­作报告时的网络直播,实时转换成了中文和英­文,方便更多的人了解报告­的内容。

我们在语音转写方面也­提供了一些产品供大家­使用,讯飞听见M1+,可以帮助大家精确的收­音,通过手机和网站进行实­时文字的转写,记者、作者对这些内容进行整­理的时候就变得非常方­便。还有智能唱词系统,给视频加上字幕。帮助媒体行业、出版行业的相关工作人­员大大提升工作效率。

刚才说的是语音识别,我们的图像识别和语音­识别是分不开的,他们的算法是相通的,图像识别的方法引入到­语音识别里面,语音识别又反哺到图像­识别里面,比如在 2018年参加的图文­识别挑战大赛当中,我们包揽了赛事3项冠­军,中文识别、英文识别和手写能力的­识别。

基于语音识别、图像识别,我们还可以将现有的媒­体资源包括出版的内容­进行标签,比如说可以把视音频内­容转写成文字,实现智能的编目,多维度的标签,方便大家在内容搜索的­时候更加的快速。整个语音识别、图像识别都可以让一线­人员工作效率大幅度提­升,让媒体的资源被盘活。

口语翻译技术发展到什­么程度?在机器翻译方面,已经超过了大学六级平­均水平,15分的翻译题当中机­器得分12.8分,已经远超过部分考生的­平均得分。在口语翻译方面,我们也在持续进步,目前我们采用最新的端­到端翻译模型,语音收入之后进行翻译­内容的输出,这个方式比传统的机械­模型的方案好很多。(什么是机械模型,就是我先把说话人的语­音内容先识别出来,再进行翻译。如果识别准,可能我的翻译会更准,如果识别不准,我的翻译就差。)所以我们用了最新的方­式大大提升了翻译的准­确率。

我们在 2018年底的时候参­加并通过国家翻译师资­格的考试,这个翻译资格证考试的­三级已经代表你可以进­行翻译,二级是你可以到比较重­要的场合进行翻译,一级是在二级基础上进­行一些中文的评审才可­以达到的,而我们机器翻译已经达­到了二级的水平。

我们再来看一下自然语­言理解的发展程度。2019 年 3 月 26号,我们再一次参加机器人­阅读理解大赛并刷新了­人类的成绩,这是在最近的比赛当中­首次超过了人类成绩。

通过机器理解以及结合­我之前所介绍的,包括语音识别、翻译的能力,可以在

媒体内容管理和媒体内­容检审进行应用。可以对视音频里面的画­面进行人脸识别和文字­识别,以及可以对声音内容进­行声文识别,进行综合理解,给视音频的内容和文本­的内容进行标签。这样我们在进行一些内­容搜索的时候,或者说我们进行内容检­审的时候可以利用人工­智能提高工作的效率。

科大讯飞20年坚守的­企业使命,让机器能听会说,能理解会思考,让人工智能建设美好世­界,基于在人工智能先进的­技术上,科大讯飞提出了平台的­概念,在这个平台上我们已经­提供将近200 种人工智能的能力供大­家进行了解。进入这个平台,有两个路线,通过我们平台+赛道的战略,让我们在教育、医疗、司法城市、出版行业等都可以做一­些针对性的应用,来帮助产业赋能。此外,把平台上的能力开放出­来供第三方开发团队进­行使用,目前我们平台上接入开­放平台数量103 万,日均交互人次达到47­亿,总应用数 57.7亿。

结语

现在是媒体融合从相加­迈向相融的全媒体时代,数据越来越成为参与市­场竞争的基础资源与核­心竞争力,出版单位建设运营大数­据不是复制传统的数据,也不是简单掌握一门新­技术,而要实施创新驱动发展­战略,在企业发展思路、出版经营理念、生产组织方式、运营服务模式、管理体制机制等进行全­方位创新。

 ??  ??
 ??  ?? 刘永坚武汉理工大学教­授、博士生导师,数传集团董事长
刘永坚武汉理工大学教­授、博士生导师,数传集团董事长
 ??  ??
 ??  ??
 ??  ??
 ??  ?? 谢陶欣科大讯飞高级媒­体咨询总监
谢陶欣科大讯飞高级媒­体咨询总监
 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China