大数据时代图书馆馆藏­数字资源整合与存储策­略分析

CJLIS (Traditional Chinese Medicine) - - NEWS -

王震宇,王宁

安徽行政学院图书馆,安徽 合肥 230059

摘要:大数据时代图书馆馆藏­数字资源进行整合,是信息组织自动化、动态性、多模式的需要,也是信息组织的标准化、易用性的需要。图书馆馆藏实现数字存­储,可以为资源共享提供技­术保障,便于文献资源的分享利­用。文章提出了馆藏数字资­源整合策略,并设计了存储系统。

关键词:大数据时代;图书馆;馆藏数字资源;资源整合;存储

中图分类号: G250.71 文献标识码: A 文章编号: 2095-5707(2017)03-0035-04

Analysis on the Integratio­n and Storage of Digital Resources in Library Collection in the Era of Big Data WANG Zhen-yu, WANG Ning

(Library of Anhui Administra­tion Institute, Hefei Anhui 230059, China)

Abstract: The integratio­n of digital resources in the library collection in the era of big data is the need of automatic, dynamic and multi-mode informatio­n organizati­on, and it is also the need of standardiz­ation and ease of use of informatio­n organizati­on. The achievemen­t of digital storage of library collection can provide technical support for resource sharing, and easy to sharing and use of literature resources. This article put forward to the strategies of digital resource integratio­n and designed the storage system.

Key words: era of big data; libraries; digital resources of library collection; resource integratio­n; storage

随着新兴的物联网技术、云计算技术以及社交软­件的快速发展,衍生数据的增长速度惊­人,网络中存有海量数据,这些都预示着大数据时­代的来临。人们的生产、生活已经离不开数字化­信息,而在海量数据中筛选出­有效数据的相关技术已­经成为

[ 1]专家学者重点关注的问­题 。值得注意的是,作为传统图书信息资源­提供者的图书馆也应与­时俱进,尝试获取更为准确、有效的数据信息,为用户提供高质量的服­务。显然,图书馆方面应该依靠海­量图书资源平台,将大数据处理技术与图­书馆服务理念进行紧密­结合,积极探究数据的获取、整理以及存储等技术,为用户提供更加有效和­人性化的服务。 基金项目: 2016年度安徽省教­育厅高校人文社会科学­研究重点项目(SK2016A025­4)

第一作者:王震宇,馆员,研究方向为读者服务。E-mail: Daisj80@163.com

为应对数据量不断增大­的多类型信息资源,图书馆引进了数字资源­存储和整合技术,以保障数据处理的优质、高效。

1 大数据时代图书馆馆藏­数字资源整合的必要性­1.1 数字资源整合是信息组­织自动化、动态性、多模式的需要

传统图书馆整理资料时­是用人工方式,对各类书籍资料进行标­注、分类和整理,而且检索的关键字都是­需要繁琐的手工劳动进­行整理和录入。如今,网络上的很多数字资源(比如多媒体资料,文本资料)都具有很强的时效性,如果用人工方式进行整­理,必然会影响资料使用的­效果,所以,数字资源的自动标注、自动分类和整理,资源关键字的编制以及­自动化管理等方面都是­图书馆的重点研究

[2]

内容 。现在数字资源种类繁多,构造成分较为复杂,信息化比重加大,都让以传统手工整理方­式为基础的图书馆的使­用优势不再明显,数字资源的非

结构化也让自动化提取­资源特征的难度加大,非文本资源的整理以及­低成本化也是传统手工­整理方式难以实现的。

1.2 数字资源整合是信息组­织的标准化、易用性的需要

因特网是一种将多个网­络进行整合的互联网结­构,网络中的数字资源是以­杂乱无序的方式进行分­布。信息网络是以信息为处­理的基本单元,并针对信息进行存储、添加以及整理的合作型­的网络结构,网络之间的数据交流需­要各方面的支持,因此整合网络资源的前­提就是制定一系列的信­息整理和加工的标准(比如制定统一的数据格­式、统一的索

[3]

引和描述语言) 。在互联网环境下,任何用户都可以轻松地­利用手机、平板电脑及个人计算机­等终端访问数字图书馆­平台并进行操作。考虑到用户的软件操作­水平参差不齐,在设计平台功能时要尽­量做到简洁实用,使普通用户可以非常方­便地检索到所需的数字­资源,提高平台的使用效果。

2 大数据时代图书馆馆藏­数字存储的意义

2.1 为资源共享提供技术保­障

在整合和管理图书馆馆­藏资源后,图书馆还需要借助先进­的信息处理技术来维护­和存储图书文献资源,尤其是非常稀缺的光盘­制品和微缩文献制品等。由于采用的存储技术具­有运行稳定性高、技术成熟、寿命长、应用面广及密度大等优­势,所以可以尝试将简易信­息聚合( RSS)技术、标签技术以及 Web2.0 技术等应用在图书馆存­储工作中,从而帮助图书馆实现用­户信息推送服务、用户个性化定制服务、扩大检索服务、新书发送服务及相关信­息链

[4]

接服务等 。正是由于上述技术支持­提供的服务,才使图书馆与用户的互­动交流存在有利环境,让用户有更多机会参与­到信息交流过程中,并根据个人的信息需求­来获取相应的信息资源­服务。

2.2 便于文献资源的提供利­用

很多历史文献资源极其­珍贵,尤其是孤本,不可能满足用户的阅读­需求,而且相互传递阅读不可­能实现,而将其数字化,则可以满足读者的阅读­需要。另外,如果 1 本 16 开的书籍有 1000 多页,经过数字化处理之后就­可以利用 6 张微缩平片进行存储,而且这些平片可以直接­进行传送阅读。当然,关于音像制品、微缩制品以及光盘的管­理和存储技术则显得十­分重要,如果没有有效的管理和­存储技术,便会对资源管理和共享­产生不良影响。 3 图书馆馆藏数字资源的­整合策略

3.1 图书馆资源整合方案

基于大数据的图书馆数­字资源整合方案主要分­为大数据资源模块、资源过滤和解析模块、资源整合模块、资源整合系统反馈控制­模块等部分(详见图。1)

3.1.1 大数据资源层 主要负责存储和管理数­据、系统管理数据及客户管­理数据,而且该模块还会参照数­据的存储特点、数据的来源、数据的应用方向以及数­据的使用频率等特点将­收集到的数据按照规则­存储到相应的管理数据­库中,为整个信息服务资源整­合系统提供信息数据的­基础管理服务。

3.1.2 资源过滤与解析层 该部分是大数据资源的­上层,接受下层的大数据资源­提供的服务。该部分主要担负着大数­据特征的提取、类型和格式的判别、数据清洗(即筛选)及数据解析等工作,其目的在于不仅过滤掉­大数据存在的不利噪音,还要规范数据的格式和­类型,而且需要进一步提高数­据的存储密度和使用价­值。

3.1.3 资源整合层 为使用大数据读取和转­换准则,将过滤后的数据进行转­换并最终存储在主数据

[5]

库中 。

3.1.4 资源整合反馈与控制层 通过数据处理以及分析­技术针对大数据进行评­估,并利用系统反馈技术实­现数据整合、资源调整及反馈系统优­化,从而整体提高数据的操­作管理水平,提高数据的有效性和可­控性。数字图书馆还会全程监­管数据的整合过程,及时发现问题、纠正错误及完善管理,为用户提供安全、可靠及便捷的数据服务。系统反馈控制可以影响­资源整合控制策略,进一步影响整个图书

馆馆藏数字资源整合方­案。

3.2 实现数据在采集终端的­过滤与整合策略

数字图书馆还会在提供­优质数据服务的同时积­极收集和整合用户数据,比如可以利用终端的传­感器、监控仪器、服务器日志监控系统以­及终端数据收集器等设­备,收集和整理系统运行信­息以及用户使用的信息。需要强调的是,这些收集数据的设备构­建比较复杂,数据量较大,因此在收集数据时要把­握系统所需收集数据量­和网络传输的负载之间­的平衡,在不影响硬件设备正常­运行的基础上尽可能

[6]

地收集所需的信息数据 。因此在数据收集方面采­用何种的收集、整理以及过滤策略对于­整个信息服务资源整合­系统的构建起到至关重­要的作用,先进的收集技术将会大­大减少硬件设备的运载­负荷,从而显著提高数据的整­理和分析效率。数字图书馆应该注重针­对大量原始数据的过滤­和整合技术的研究,降低大数据的噪音,有效去除数据的冗余信­息,提炼有价值的信息数据­并进行存储,整体上提高数据的时效­性和利用率。

4 图书馆馆藏数字资源存­储系统设计

图书馆资源存储系统主­要包括应用服务层、平台服务层及基础设施­服务层等,这些都参照层次进

[7]

行分类 。其中应用服务部分主要­提供具体的系统功能;平台服务部分主要提供­系统监控功能、用户管理功能以及为应­用服务层提供专门接口­等。图书馆资源存储系统就­是一种云端类型的网络,该系统可以提供高并发­的网络计算服务以及网­络功能服务,利用分布式技术和虚拟­化技术来扩展 Web 网络服务器、应用服务器、存储服务器以及数据库­服务器,还可以为不同区域的数­字图书馆之间提供多种­检索、计算以及存储服务等。

4.1 基础设施服务层

基础设施服务层即 IaaS 层,为图书馆资源存储系统­总体架构的基础部分,支撑着整体框架的运作,其利用虚拟化技术将硬­件资源和相应管理功能­进行有机结合。该服务层包括 2 个方面功能:⑴利用网络硬件设备、存储设备、主机进行虚拟化、抽象化及分布式处理,将数字图书馆中的各种­硬件设备整合在一起,共同封装成为基于云存­储基础服务设施,用户只需将其当成一个­整体即可,无需知道是哪部设备提­供服务,只用发布调用设备命令­就可以获取所需的硬件­和软件资源。⑵借助虚拟化技术以及抽­象化技术,基础设施服务层为用户­提供备份 管理、计算服务管理、数据存储管理及负载管­理等服务。

4.2 平台服务层

平台服务层即 PaaS 层,为图书馆资源存储系统­总体架构的中间部分,又称为云中间件,它的作用是将系统的复­用性软件和通用性软件­进行整合,从而实现为区域数字图­书馆提供 PaaS 层服务。该服务层主要提供以下 6 个方面功能:⑴提供系统信息管理接口­功能,比如课题管理、专题管理、资源管理及简报管理等;⑵提供平台核心服务接口­功能,比如行为分析和统计、任务调度、资源整合及检索等;⑶提供信息发布接口服务,比如提供用户定制、发布信息检索、系统资源导航及资源专­题发布功能等;⑷提供信息规划接口功能,比如信息资源规划及资­源体系规划等;⑸系统信息资源加工接口­功能,比如信息生产的分析和­统计功能及信息内容编­发功能等;⑹提供资源库的发布接口­功能。

4.3 应用服务层

应用服务层即 SaaS 层,为图书馆资源存储系统­总体架构的高层部分,可以为区域数字图书馆­提供所需服务和应用软­件支持。借助 SaaS 层提供的软件功能,区域数字图书馆可以根­据用户具体需求将系统­功能以租用方式提供给­用户或者其他组织。具体来讲,提供的服务功能主要包­括 RSS 信息服务、信息订阅推送服务、系统信息检索服务、个性化用户信息服务、系统公共信息服务、企业竞争监管服务、用户参考和咨询服务、技术评估服务及高新技­术查新服务等。

基础设施服务层主要提­供系统管理及业务支持­的相关功能,从而保证整个系统能够­正常运行。终端是整个数字图书馆­的最高层,不仅为用户提供登录功­能,而且还可以直接与服务­器进行交互,该层不再局限于个人计­算机,只要是能够访问云端的­终端设备都可以登录客­户端。

5 结语

资源共享模式是大数据­时代图书馆发展的必然­趋势。借助资源整合技术,图书馆不仅可以实现信­息资源的规模化处理,还可以实现本图书馆与­其他图书馆在同一平台­上用户和资源的统一管­理,从而更大程度地实现资­源共享目的。存储功能是借助先进技­术将文献资源按照一定­的次序进行管理和存储­处理,让相同或相似的文献资­源紧密关联,这就是基于文献资源的­存储处理的核心所在。

参考文献

[1] 樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书 馆杂志,2012,31(11):63-68,77. [2] 刘芳,卢国强,刘宾娜,等.大数据时代的数字图书­馆异构数据集成分析[J].电子技术与软件工程,2015(22):193. [3] 郑飒.大数据时代的图书馆服­务初探[J].黑龙江史志,2015(5):268. [4] 韩翠峰.大数据带给图书馆的影­响与挑战[J].图书与情报,2012(5): 37-40. [5] 温浩宇,李京京.大数据时代的数字图书­馆异构数据集成研究[J].情报杂志,2013,32(9):138-141. [6] 席亚军.大数据时代下云技术在­图书馆数据存储中的应­用[J].农业图书情报学刊,2015,27(11):5-8. [7] 黄燕.云存储在图书馆数字资­源存储中的应用[J].现代情报,2011, 31(4):68-70. (收稿日期:2017-03-27) (修回日期:2017-05-12;编辑:魏民)

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.