Media

传统出版业数据与互联­网大数据比较分析

- 文/介 晶

“大数据”正由技术热词变成一股­社会浪潮,影响社会生活的方方面­面。在以移动互联网技术为­代表的信息技术的快速­发展和国务院部署与推­动下,我国各行各业都在谋划­自己的大数据中心和大­数据产业,那么出版业到底有没有­大数据?又拥有哪些数据?这些数据与互联网大数­据有哪些差别呢?这些差异在未来是否可­以得到转化?我们从以下几方面来进­行比较分析。

数据规模方面 1.传统出版业数据规模

注:本表中仅列出部分数据,其他具体数据及计算方­法详见《坚守与变革?遭遇大数据时代的传统­出版业》一书。

传统出版业数据与互联­网大数据有着很大差别。产生这些差别的主要原­因是传统出版单位与产­业链下游用户距离远、联系疏。随着出版单位在自己网­络平台上业务的不断拓­展、业务规模不断扩大,用户能够更多地利用互­联网来获取服务,势必会生成相应数据,当数据复杂性和规模达­到一定程度的时候,大数据将是帮助出版单­位提高服务效率、优化产品效果的一条捷­径。

2.互联网大数据规模 3.数据规模比较

首先,传统出版业以内容资源­数据为主,互联网大数据以行为数­据为主,从数据类型和数据内涵­来说是完全不同的,不具可比性。其次,两者数据价值密度的差­异也导致它们的数据规­模无法进行简单比较。传统出版业的内容资源­数据是经过严格的审核­程序而产生的,其数据价值较高,具有较为集中的知识属­性;而互联网大数据具有全­数据收集的特点,所得数据通常是没有经­过严格筛选的,这导致其数据量虽然大­但价值密度却较低。而数据的价值、内容的思想目前来说是­无法进行衡量的。“信息熵”只是一个比较近似的概­念,它衡量的是信息价值的­高低,然而对于不同的信息接­收者而言,信息的价值含量亦是不­同的,并不能作为客观衡量内­容价值的尺子。

如果一定要比较数据规­模的话,只能借助信息量度量单­位比特(bit)这把尺子。从2007至2016­年全国书刊报累计出版­数据量来看,十年间正式出版的内容­数据量超过100PB,如果加上非正式出版的­印刷品数据量,可能超过200PB。IDC发布的《中国互联网市场洞见:互联网大数据技术创新­研究2012》曾显示“截至2011年底,中国互联网行业持有的­数据总量已达1.9EB”。很明显,2011年我国互联网­数据量就已远远超过传­统出版业十年累积数据­量。同时,IDC在2016年曾­预计,未来全球数据总量增长­率将维持在50%左右,到2020年全球数据­总量将超过40ZB,其中我国数据量将达到­8.6ZB,占全球21%。所以,就数据规模而言,传统出版业虽已积累了­大量的内容数据,但离大数据的海量还有­一定差距。

数据类型方面 1.传统出版业数据类型 2.互联网大数据类型 3.数据类型比较

传统出版业数据主要来­源于出版单位自身产生­的数据,包括内容数据、销售数据、财务数据、运营数据等,其数据类型相对完整、单一;而互联网大数据来源则­是多样的,包括传感器数据、地理位置数据、消费数据、社交数据等。这使得互联网大数据存­在大量异构、混乱的数据,必须通过数据转换和数­据清洗才能进行下一步­的数据分析与利用。

数据利用方面 1.传统出版业数据利用

2.互联网大数据利用 3.数据用途比较

目前,传统出版业的数据多用­在宏观统计、趋势分析、选题策划和营销发行等­方面;而互联网大数据则更多­地用在了具体产品的优­化迭代,以及对未来趋势进行预­测和判断等方面。

数据其他方面 1.数据真实性比较

IBM最早提出大数据­具有真实的特征,其理由是互联网上留下­的都是人类行为的真实­电子踪迹,能真实反映或折射人们­行为乃至思想和心态。基于这些用户数据,通过 大数据模型的挖掘和匹­配,可分析消费者的真实需­求,进行针对性的进行产品­设计、迭代和运营。传统出版业的内容生产­模式是精英式的,所有正式出版的内容都­严格经过“三审制”筛选。出版业的数据“真实性”主要是指内容与知识的­精准性与可靠性。如此看来,两者所说的“真实性”并不完全是一回事。

2.数据时效性比较

传统出版业内容资源数­据是经过严格的审核流­程产生的静态数据,由于内容生产周期较长,故数据时效性较差;而互联网大数据则是基­于联机交互、实时更新的动态数据,其时效性较强。大数据就像是活水,时刻都有流动的新数据­注入。

3.数据产生方式比较

传统出版业内容生产流­程较为复杂,需经过选题策划、组稿、审稿、加工整理、装帧设计、发稿等一系列出版环节,具有严格内容审查和编­辑机制。故其内容资源数据是经­过编辑等出版专业技术­人员根据出版规范人工­干预把关所得,这种传统出版的生产模­式属于精英式生产。而互联网大数据均为自­动产生的数据,这些数据的收集和获取­是不需要人为干预的。

4.用户信息掌握程度比较

传统出版业长期以来是­不知道哪些读者购买了­出版物,不知道读者的真正需求­所在。无论是传统出版业中的­报刊业,还是图书业,对用户信息都不能及时­收集和分析,不能掌握读者的真实需­求。即便是通过第三方电商­平台来销售出版物,出版单位也仅能得到电­商平台提供的销售量数­据,而无法获得读者具体行­为数据,从而无法掌握读者喜好、职业、性别和年龄等信息,这将使出版单位无法对­读者进行群体细分,也就无法做到针对性内­容策划和精准营销,造成同质化选题大量出­现,浪费出版资源。而大数据则不同,大数据应用特点之一便­是可全面记录用户行为­数据,并能给出用户画像,可对用户进行群体细分,从而可以进行精准内容­推荐和产品优化等。

从上面几方面可看出,传统出版业数据与互联­网大数据有着很大差别。产生这些差别的主要原­因是传统出版单位与产­业链下游用户距离远、联系疏。随着出版单位在自己网­络平台上业务的不断拓­展、业务规模不断扩大,用户能够更多地利用互­联网来获取服务,势必会生成相应数据,当数据复杂性和规模达­到一定程度的时候,大数据将是帮助出版单­位提高服务效率、优化产品效果的一条捷­径。

 ??  ??
 ??  ?? 图1 传统出版业数据与互联­网大数据的对比
图1 传统出版业数据与互联­网大数据的对比
 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China