CJLIS (Traditional Chinese Medicine)

数据科学家在医学图书­馆未来发展中的作用

- 作者简介:陈励和,E-mail: ok22ok@163.com

陈励和

广州市妇女儿童医疗中­心图书馆,广东 广州 510623

摘要:大数据时代的到来催生­了数据科学家,本文探讨了数据科学家­积极主动地参与医疗机­构高层的决策咨询,努力为解决大数据时代­医学图书馆发展中的战­略问题提供可持续发展­的咨询报告,为宏观决策提供科学依­据,对所服务的读者在使用­图书馆资源和网上资源­的过程中所产生的大量­数据进行统一收集、统一分析,为订购医学资源提供咨­询和依据,从繁杂无序的大量数据­中找到有用的价值信息,并将这些有用的数据信­息传递给高层决策者和­用户,最终得以在读者使用中­实现有用的价值。

关键词:数据科学家;大数据;图书馆;未来发展

DOI: 10.3969/j.issn.2095-5707.2018.04.002

中图分类号: R-058 文献标识码: A 文章编号: 2095-5707(2018)04-0006-03

Role of Data Scientists in the Future Developmen­t of Medical Libraries

CHEN Li-he

(Library of Guangzhou Women and Children Medical Center, Guangzhou 510623, China)

Abstract: The advent of the era of big data has given rise to data scientists. This article discussed that the data scientists actively participat­e in decision-making consultati­on of high-level medical institutio­ns, make efforts to provide sustainabi­lity consultati­on reports for solving strategic problems in the developmen­t of medical libraries in the era of big data, which can provide a scientific basis for macro decision. It also pointed out that data scientists provide unified collection and analysis of the large amount of data generated by the serviced readers in the process of using library resources and online resources. offer consultati­on and basis for ordering medical resources, find a large number of useful and valuable data from the chaos of informatio­n, pass these useful data informatio­n to high-level decision makers and users, and finally realize useful value in the use of readers.

Key words: data scientists; big data; libraries; future developmen­t

大数据时代的到来给数­据分析和挖掘带来相当­大的难度。据“国际数据公司”( IDC)研究人员预计,到 2020 年全球每年产生的数据­量将达到35ZB。这些数据如果刻成 DVD 光盘,把这些 DVD

光盘一张一张地叠加起­来的高度是地球到月球­的 2

[1]

倍 。这些繁杂巨大的信息数­据依赖传统的人工分析­方法已显得缓慢滞后,只依靠机器处理也难以­适应大数据时代的信息­需要。那些运用数据科学的方­法进行收集数据、分析数据、研究数据、处理数据的数据科学家­的出现,为大数据的研究与应用­带来新的希望。

1 数据科学与数据科学家

1.1 数据科学

数据科学是关于数据的­综合体或者是专门研究­数据的一门科学,其研究对象是数据系统­中的数据,是专门研究网络空间中­的数据系统的规律、方法和技术。与我们所认知的自然科­学和社会科学比较,其出现的时间还比较迟,它专门研究的是虚拟的­数据。数据科学主要是为我们­所认知的自然科学和社­会科学研究提供一种全­新的方法,称为科学研究的数据方­法,其目的在于探索和提示­自然界和人类行为的现­象和规律。

1.2 数据科学家

数据科学家是由美国的 Natahn Yau 博士在 2009

年提出来的[ 2],目前还没有统一的定义。比较认可的定义是,数据科学家是指运用专­门的统计分析、机器判断、分布式处理、综合评估等技术,从大量数据中提炼出对­用户有意义的信息,以容易通用明了的形式­传送给用户和决策者,并综合提炼出新的数据­来应用服务的人才。数据科学家通过关注使­用者提供的数据来进行­综合分析,在更高层面上创造出不­同特性的产品和流程,为使用者提供增值性的

[3]

信息服务 。

2 数据科学家的素质和能­力

2.1 数据科学家具备的素质

2.1.1 创业意识 数据科学家应该具备以­繁杂、无序、海量的数据为核心进行­创新性研发和提升的创­业意识。亚马逊( Amazon)、谷歌( Google)、阿里巴巴( Alibaba)、脸书( Facebook)等都是基于对庞大复杂­的数据进行收集、分析、整合、创新,进而产生出新型的服务­型企业,都是数据分析和数据处­理的研究人员通过艰苦­探求才获得成功的。

2.1.2 探索精神 坚韧的探索精神是科学­家不断进取的驱动力和­创造力的根源,数据科学家的工作就是­在庞大复杂数据中探求,具有强烈的探索精神才­能驱动他们探求和研究­问题实质,寻找问题的最佳答案,并把它们提炼为一组更­加明了、清晰、可以

[4]

验证的假设 。数据科学家的价值并不­是单靠做简单的报表和 PPT 等材料提供给高层决策­者,而是通过收集全体用户­的标准、要求和流程等,对海量繁杂的数据进行­再分析和加工,揭示出事物的内在联系,从而找出最佳的解决问­题的方案,这需要数据科学家强烈­的探求精神和严谨的工­作态度。

2.1.3 广泛兴趣 具有卓越品质的数据科­学家的兴趣和好奇并不­是局限于他们所掌握的­计算机科学、数学、统计学等与数据分析有­关的学科,而是对文学、音乐、艺术、医疗、社会科学、自然科学等各

[5]个领域都拥有广泛的爱­好 。美国的数据科学家大多­数具有丰富的工作经历,他们具有实验物理学、计算机化学、数据统计学,甚至是生理学、神经外科学等工作的扎­实经验和丰富理论。正因为他们具有广泛的­探求精神和渊博的知识,在他们对不同领域数据­的搜集、整合、分析、评估时,才能够发现常人难以发­现的有价值的数据与观­点,找出不同事件的发展特­征和正在发生事件的趋­势。

2.2 数据科学家需具备的技­能

2.2.1 计算机科学与数据分析­能力 掌握计算机编 程技能和数据搜集、数据分析、数据储存、数据安全的技术。具备处理大数据所需要­的 Hadoop、

Mahout等大数据­和大规模的处理技术。

2.2.2 数据处理与统计分析能­力 除了掌握数据搜集、数据分析、数据优化和数据综合能­力外,还要具备数学、统计及综合的知识和技­能,如 SAS、

SPSS 等统计分析软件和与编­程语言与运行环境相关­的知识。

2.2.3 数据可视化能力 数据可视化能力的确是­数据科学家非常重要的­技能。信息数据的表达方法决­定了信息数据的质量,数据信息可视化对信息­的直接采用和对高层决­策的利用都有很重要的­作用。数据科学家要从零散繁­乱的数据中进行采集和­分析,使用应用程序接口( Applicatio­n Programmin­g Interface, API )将地图、图表、仪表盘( Dashboard)等数据服务统一起来,进一步完成分析结果可­视化。

3 数据科学家是未来的战­略资源

随着对大数据应用研究­的进一步推广和应用,数据科学家对数据的收­集、存储、处理、分析,以及对大数据的解决方­案都会不断地深化,但是研究大数据最大的­问题不是工具,而是人才短缺,作为大数据研究的引导­者,社会上对数据科学家的­需求也不断增长。大型互联网技术厂商易­安信公司( EMC)在 2013年发表的一份­关于对美国、中国、英国、法国、印度等数据科学家的调­研报告中得出,有 2/3 的参与者认为在未来几­年中数据科学家

[4]

仍然缺乏 。这一发展趋势进一步印­证了 2016 年 12月麦肯锡全球研究­院发表的《分析的时代:在大数据的世界竞争》报告的结果:美国专业数据科学家每­年仍缺口约 25 万人。预测未来的 10 年内,单是

[6]美国对这种人才的需求­约为200~400 万。

社会上对数据科学家的­需求在四、五年前还仅限于 Google、Amazon 等较大型的网络公司。随着大数据分析重要性­的不断出现,重视数据分析、研究与应用的企业日益­增加,一些发达国家如德国、日本、法国、美国、加拿大等都大量需要数­据科学家,美国通过培养和高薪引­进数据研究人员,来填

[7]充数据科学家数量不足­带来的问题 。Facebook、IBM、Google、Amazon 等大型企业对数据科学­家的需求不断增加,据报道,日本新成立“数据科学家协会”,致力于企业内部培养“大数据”分析人才[ 8],未来数据科学家会成为­一种战略资源。

4 数据科学家在医学图书­馆中的作用

从 Facebook、、IBM Google、Amazon 等大型企业成功的例证­上我们可以看出,支撑这些大公司业务提­升与业绩的背后就是数­据科学家。这些大型企业对于海量­繁杂的数据不仅是进行­收集、存储,而是通过一系列的研究­与分析,将其变为有价值的数据­信息,通过对结果的分析、产品的推荐为公司的发­展起到了决定性的作用。就医学图书馆来说,数据科学家的作用也与­其在网络公司起到的作­用近似,主要体现在以下3个方­面:

4.1 为医学图书馆决策服务

数据科学家积极主动地­参与医学机构高层的决­策咨询,为解决大数据时代医学­图书馆发展中的战略问­题提供可持续发展的咨­询报告,为医学图书馆的宏观决­策提供科学依据。数据科学家对读者的医­学信息数据的需求和医­学科技发展的走向有着­很强的预测性,并且长期追踪医学图书­馆的信息服务的

[9]

发展热点和读者急需的­医疗数据 。因此,数据科学家的研究成果­往往能够直接为医学图­书馆的发展提供决策性­的建议,解决实际问题。

4.2 为医学图书馆的资源订­购提供咨询和依据

医学图书馆是信息聚集、搜集、存储和传递的重要汇集­地,大数据的收集、分析、利用、传递离不开数据科学家­的参与。培养数据科学家成为今­后医学图书馆在大数据­时代生存发展的迫切任­务。每个医学图书馆没有能­力也不可能订购所有科­研和医疗单位专家所需­要的医学信息资源,单靠图书馆专家咨询和­问卷调查来满足大部分­用户对医学信息的需求­是不可能实现的。这样,就需要数据科学家对读­者在使用图书馆资源和­网上资源的过程中所产­生的大量数据进行统一­收集、统一分析,探求出读者使用爱好和­关注焦点的规律,并预测出未来的研究方­向,依据研究成果来指导医­学信息资源的订购工作,通过对数据的分析还可­以预测到未来信息服务­的方向。

4.3 提高医学图书馆资源利­用率

依靠数据科学家所具备­的数据收集、分析、综合的能力来挖掘知识,利用数据科学家的数据­优化与综合能力、统计分析能力来整合知­识,充分发挥数据科学家的­可视化能力来传递和推­广医学图书馆的信息数­据知识,利用数据存储和数据安­全技能保障信息数据和­信息知识的安全。目前,大多数医学 图书馆所订购的数据库­利用率比较低,是因为其数据和信息的­分析能力远远未能达到­真正把读者需要

的信息和知识挖掘出来[10]。如果不依靠数据科学家­分析和整理出所订购的­信息资源,医学图书馆所拥有的数­据库即使再多,数据量再大,也很难让这些资源再增­加价值。数据科学家的作用就是­从繁杂无序的大量数据­中找到有用的价值信息,并将这些有用的数据信­息传递给高层决策者和­用户,最终得以在读者使用中­实现信息的价值。

5 小结

数据科学家的出现是数­据科学不断完善和发展­的具体表现,使数据科学变得更加直­观和可视,也体现出数据科学研究­的重要性。在大数据时代的今天,数据科学家为加快医学­图书馆的发展、优化医学图书馆的管理­有很大的促进作用,也为医学信息资源的优­化订购、充分利用、个性化服务起到积极的­推动作用。

参考文献[1] TAYLOR Chris. Career of the Future: Data Scientist [INFOGRAPHI­C][EB/OL].(2012-01-13)[2017-11-22].https://mashable. com/2012/01/13/career-of-the-future-data-scientist-infographi­c/ #Jpk5xwbSn8­qW. [2] 王新才,丁家友.大数据知识图谱:概念、特征、应用与影响[J].情报科学,2013,31(9):10-14,136. [3] 赵振营.图书馆实施大数据战略­实践路径分析[J].中国中医药图书情报杂­志,2017,41(2):35-38. [4]朱扬勇,熊贇.大数据时代的数据科学­家培养[J].大数据,2016(3): 106-112. [5] 秦小燕,初景利.国外数据科学家能力体­系研究现状与启示[J].图书情报工作,2017,61(23):40-50. [6]数据观.带你读懂麦肯锡大数据­分析报告[EB/OL].(2017-02-10) [2017-11-22].http://www.raincent.com/content-10-8451-1.html. [7] 荣邵.人才大数据[J].国际人才交流,2016(1):21. [8]环球网.日本成立“数据科学家协会”培养大数据分析人才[EB/OL].( 2013-07-17)[2017-11-22].http://world.huanqiu.com/ exclusive/2013-07/4140239.html. [9]陈振冲,贺田田.数据科学人才的需求与­培养[J].大数据,2016(5): 95-106. [10] 杜栋,苏乐天.大数据时代信息管理面­临的挑战和应对策略[J].工业和信息化教育,2015(11):87-89,94. (收稿日期:2018-02-21) (修回日期:2018-02-28;编辑:魏民)

Newspapers in Chinese (Simplified)

Newspapers from China