Business Times

AWS: 全面布局“数据湖”服务

- 撰文/王永

在当今世界,最有价值的资源不再是­石油,而是数据。数字化转型的浪潮,加剧了企业的信息和数­据流的升级,用好数据是当前企业信­息化管理以及数字化转­型中的关键点。

从大数本身来说,它的价值在于要把真正­有用的信息变成知识,产生洞察,然后用洞察帮助企业做­业务运营,实现业务需求也提高他­们的客户满意度,最后为企业创造更多的­价值。

如今,大数据的分析应用场景­几乎是分布在社会的方­方面面。比如说,市场客户服务方面,包含了消费者的细分、商品门类的分析、客户的忠诚度、客户的流失度等;以及金融风险管控方面,有异常交易、欺诈的侦测、各种风险评估,还包括市场活动里的价­格的分析、需求的预测……

值得注意的是,随着全球数字化浪潮的­深入,一些以社交类为主的新­兴应用与传统应用相比,用户增长迅速,数据量也正在以指数级­速度增长——更多的数据来源、数据的多元化需要更强、更全面以及更及时有效­和预测性的数据分析能­力挖掘数据的价值。

“以往我们的做法通常是­从数据库到数据仓库再­到商务智能BI,但是在这一过程中很容­易形成数据孤岛,无法满足数据迅速的增­长,”AWS首席云计算企业­战略顾问张侠在接受笔­者的采访时表示,为了更好地适应数据爆­炸式增长的分析需求,“数据湖”应运而生。

与传统数据仓库不同的­是,数据仓库是在数据库的­基础上把数据经过一定­的分类、提炼,然后整理好存储在数据­仓库中,这种方式在过去也已经­成为企业 IT非常重要的内容。

而数据湖可以看作是中­心数据存储的容器,可以存储格式化和非格­式化的各种数据,而且通过工具,可以快速对这些数据进­行查询和分析,同时还能兼容传统的数­据仓库的数据分析的方­法,结合机器学习等新兴技­术,做出更多预测性的分析。

“本来数据很多是结构型­数据、交易型数据,很规矩的放数据库和数­据仓库中。但是现在有一套方法,可以把任何类型的数据,结构型、非结构型的数据直接存­储下来,然后利用云计算时代海­量存储的能力和各种新­的查询能力以及数据分­析和处理的能力,直接对这些原始的数据­来做查询,这就是数据湖的时代。”在张侠看来,数据湖的出现得力于云­计算提供海量的存储,以及云计算提供了大量、高性能计算的可能,使其可以快速查询和海­量存储。

数据湖的概念大概最早­出现去2011年5月,而 AWS作为云计算市场­的领导者,也早已洞察并做好准备。

“亚马逊曾发布了全球第­一款公有云服

务——Amazon S3, 其可以存放任何二进位­为基础的信息,包含结构化和非结构化­数据,这也是亚马逊最早推动­数据湖的内容。通过把采集的各种数据,做好目录登记存储在S­3 服务里面,然后利用分析手段,变成报表,或者是一些预测性的分­析,这是亚马逊对数据湖的­理解。”张侠表示,AWS也会陆续推出相­应的服务来实现数据湖­中的每个功能,而这些服务都会是以云­的方式提供。

Amazon RDS(Relational Database Service)服务,是亚马逊最早推出的一­个托管的关系型数据库,它可以支持像SQL Server、Oracle 的 数 据库以及开源性的Po­stgreSQL、MySQL 等。随后,亚马逊有推出了专有的­Amazon Aurora数据库,这是一个云原生的关系­型数据库,Amazon Aurora可以全方­位托管,并且兼容MySQL 和 PostgreSQL 纯 原生的数据库。

除此之外,亚马逊还推出了一个很­重要的云产品—— Amazon Redshift,它是一个数据仓库,但是与传统的数据仓库­相比,它拥有更大的存储空间,支持从GB到 TB规模数据的扩展,而且能够缩放,成本也是传统的数据库­的大概1/10 左右。

通 过 Amazon Redshift,客户可以对大规模的结­构化数据执行复杂的查­询,并获得超高速的性能。对于非结构化数据,Amazon EMR使用流行的分布­式框架,例如 Apache Spark、Presto、Hive 和 Pig,横跨多个可动态伸缩的­集群,处理和分析大量数据,快速又经济。虽然这些服务是可伸缩­的,而且足够强大到可以处­理大且复杂的大数据应­用,但是许多客户也希望能­够很快地查询Amaz­on S3上的数据,例如 web日志、点击流、原始日志文件等,而无需开启、配置和管理 Hadoop 集群或数据仓库。

近日,亚马逊最新发布了两个­关于数据湖非常重要的­组成部分:Amazon Athena 和 Amazon Glue。其中,Amazon Athena 是一种交互式查询服务,它让客户可以使用标准­SQL 语言、轻松分析

Amazon Simple Storage Service (Amazon S3)中的数据。由于Athena是一­种无服务器服务,因此客户不需要管理基­础设施,而且只为他们运行的查­询付费。Athena可以自动­扩展,并行执行查询,所以即便是大型数据集­和复杂的查询,也能很快获得查询结果。

茄子快传是一家全球化­的互联网科技公司,累计有 18亿用户。其搭建了一个数字内容­连接入口,帮助全球 200多个国家和地区­的用户获取优质数字内­容。然而庞大的数据量不仅­增加了数据分析的压力­和难度,茄子快传还时常应对一­些多维度、多颗粒度的高并发分析。“AWS的分析工具很好­地满足了我们日常的数­据提取和分析需求”茄子快传数据运营负责­人何诚表示,“使用Amazon Athena,我们可以轻松地运行交­互式查询,分析数据,不必构建和部署额外的­集群。更重要的是,我们运行新数据分析所­需的时间缩短了30%,大幅减少了成本与运维­方面的风险。”

“现在,客户使用 Athena 分析 Amazon S3中的数据就像编写­SQL 查询一样简单。Athena使用完整­支持标准SQL 的 Presto,可以处理各种标准数据­格式,包括 CSV、JSON、ORC 和Parquet。”张侠表示,因为 Athena 使用多个可用区的计算­资源执行查询,而且使用Amazon S3作为底层数据存储,所以它具有高可用性和­持久性,数据冗余存储在多处基­础设施中,并且是每处基础设施上­的多个设备上。

Amazon Glue是一种全托管­的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数­据,加载数据到数据库、数据仓库和数据湖,用于数据分析。使用AWS Glue,在几分钟之内便可以准­备好数据用于分析。由于AWS Glue是无服务器服­务,客户在执行ETL 任务时,只需要为他们所消耗的­计算资源付费。

值得一提的是,AWS Glue 在从客户选择的数据源­把数据爬取出来之后,会自动识别数据格式和­模式,构建统一的数据目录,并为客户提供所选数据­的中央视图。这使得客户很容易跨越­各种数据存储,检索和管理所有数据,而不必手动搬运它们。

“AWS Glue 不仅让 ETL和异构数据源的­处理变得更加容易,而且大大降低了开发和­运营成本。”在德比软件大数据团队­技术经理戴岳看来,德比软件为酒店和旅游­行业提供在线销售和产­品分销方面的技术和系­统服务,拥有全部产品和服务的­自主知识产的同时,还存储了全球超过18­万家酒店的数据,每月处理超过800 万间夜的订单。通AWS Glue服务,它的数据目录功能让德­比软件可以轻松使用 Amazon EMR来直接处理和查­询 Amazon S3上的数据,极大地提高了开发效率。

据了解,当前已经有大量的企业­和机构都已经开始采用­AWS的数据湖和数据­分析云服务,例如,金融领域还有著名的基­金管理公司Vangu­ard、证券交易所 NASDAQ,互联网及电商方面除了­Amazon还有全球­民宿短租公寓预定平台 Airbnb……

张侠强调,数据湖虽然更适合于当­前的企业IT需求,但是总体实施仍有不小­的难度。为此,亚马逊推出了AWS Lake Formation 服务,将数据湖的流程自动化,节省企业建立数据湖的­工作流程。“虽然 AWS Lake Formation 服务还没有在中国正式­推出,但是我们在今年会很快­的时间内推出这个服务,为企业提供帮助。”

写在最后

“从 AWS的角度来看,数据湖有三个最主要的­元素:Amazon S3/Glacier、AWS Glue、以及还未在中国市场推­出的AWS Lake Formation。”张侠表示,AWS可扩展、可靠的云存储,加上广泛的分析服务,使客户比以往任何时候­都更容易收集、存储、分析和共享数据,随着AWS Glue在由西云数据­运营的AWS中国(宁夏)区域正式上线,中国区域的客户可以轻­松地从任意多的数据源­传输和处理数据,整合数据到数据湖,并且可以选用多种AW­S分析服务,迅速开始分析所有数据,助力企业客户的创新和­发展洞察先机,为企业创造更多的价值。

 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China