AWS：全面布局“数据湖”服务

2020-04-15 - 撰文/王永

在当今世界，最有价值的资源不再是石油，而是数据。数字化转型的浪潮，加剧了企业的信息和数据流的升级，用好数据是当前企业信息化管理以及数字化转型中的关键点。

从大数本身来说，它的价值在于要把真正有用的信息变成知识，产生洞察，然后用洞察帮助企业做业务运营，实现业务需求也提高他们的客户满意度，最后为企业创造更多的价值。

如今，大数据的分析应用场景几乎是分布在社会的方方面面。比如说，市场客户服务方面，包含了消费者的细分、商品门类的分析、客户的忠诚度、客户的流失度等；以及金融风险管控方面，有异常交易、欺诈的侦测、各种风险评估，还包括市场活动里的价格的分析、需求的预测……

值得注意的是，随着全球数字化浪潮的深入，一些以社交类为主的新兴应用与传统应用相比，用户增长迅速，数据量也正在以指数级速度增长——更多的数据来源、数据的多元化需要更强、更全面以及更及时有效和预测性的数据分析能力挖掘数据的价值。

“以往我们的做法通常是从数据库到数据仓库再到商务智能BI，但是在这一过程中很容易形成数据孤岛，无法满足数据迅速的增长，”AWS首席云计算企业战略顾问张侠在接受笔者的采访时表示，为了更好地适应数据爆炸式增长的分析需求，“数据湖”应运而生。

与传统数据仓库不同的是，数据仓库是在数据库的基础上把数据经过一定的分类、提炼，然后整理好存储在数据仓库中，这种方式在过去也已经成为企业 IT非常重要的内容。

而数据湖可以看作是中心数据存储的容器，可以存储格式化和非格式化的各种数据，而且通过工具，可以快速对这些数据进行查询和分析，同时还能兼容传统的数据仓库的数据分析的方法，结合机器学习等新兴技术，做出更多预测性的分析。

“本来数据很多是结构型数据、交易型数据，很规矩的放数据库和数据仓库中。但是现在有一套方法，可以把任何类型的数据，结构型、非结构型的数据直接存储下来，然后利用云计算时代海量存储的能力和各种新的查询能力以及数据分析和处理的能力，直接对这些原始的数据来做查询，这就是数据湖的时代。”在张侠看来，数据湖的出现得力于云计算提供海量的存储，以及云计算提供了大量、高性能计算的可能，使其可以快速查询和海量存储。

数据湖的概念大概最早出现去2011年5月，而 AWS作为云计算市场的领导者，也早已洞察并做好准备。

“亚马逊曾发布了全球第一款公有云服

务——Amazon S3, 其可以存放任何二进位为基础的信息，包含结构化和非结构化数据，这也是亚马逊最早推动数据湖的内容。通过把采集的各种数据，做好目录登记存储在S3 服务里面，然后利用分析手段，变成报表，或者是一些预测性的分析，这是亚马逊对数据湖的理解。”张侠表示，AWS也会陆续推出相应的服务来实现数据湖中的每个功能，而这些服务都会是以云的方式提供。

Amazon RDS（Relational Database Service）服务，是亚马逊最早推出的一个托管的关系型数据库，它可以支持像SQL Server、Oracle 的数据库以及开源性的PostgreSQL、MySQL 等。随后，亚马逊有推出了专有的Amazon Aurora数据库，这是一个云原生的关系型数据库，Amazon Aurora可以全方位托管，并且兼容MySQL 和 PostgreSQL 纯原生的数据库。

除此之外，亚马逊还推出了一个很重要的云产品—— Amazon Redshift，它是一个数据仓库，但是与传统的数据仓库相比，它拥有更大的存储空间，支持从GB到 TB规模数据的扩展，而且能够缩放，成本也是传统的数据库的大概1/10 左右。

通过 Amazon Redshift，客户可以对大规模的结构化数据执行复杂的查询，并获得超高速的性能。对于非结构化数据，Amazon EMR使用流行的分布式框架，例如 Apache Spark、Presto、Hive 和 Pig，横跨多个可动态伸缩的集群，处理和分析大量数据，快速又经济。虽然这些服务是可伸缩的，而且足够强大到可以处理大且复杂的大数据应用，但是许多客户也希望能够很快地查询Amazon S3上的数据，例如 web日志、点击流、原始日志文件等，而无需开启、配置和管理 Hadoop 集群或数据仓库。

近日，亚马逊最新发布了两个关于数据湖非常重要的组成部分：Amazon Athena 和 Amazon Glue。其中，Amazon Athena 是一种交互式查询服务，它让客户可以使用标准SQL 语言、轻松分析

Amazon Simple Storage Service (Amazon S3)中的数据。由于Athena是一种无服务器服务，因此客户不需要管理基础设施，而且只为他们运行的查询付费。Athena可以自动扩展，并行执行查询，所以即便是大型数据集和复杂的查询，也能很快获得查询结果。

茄子快传是一家全球化的互联网科技公司，累计有 18亿用户。其搭建了一个数字内容连接入口，帮助全球 200多个国家和地区的用户获取优质数字内容。然而庞大的数据量不仅增加了数据分析的压力和难度，茄子快传还时常应对一些多维度、多颗粒度的高并发分析。“AWS的分析工具很好地满足了我们日常的数据提取和分析需求”茄子快传数据运营负责人何诚表示，“使用Amazon Athena，我们可以轻松地运行交互式查询，分析数据，不必构建和部署额外的集群。更重要的是，我们运行新数据分析所需的时间缩短了30%，大幅减少了成本与运维方面的风险。”

“现在，客户使用 Athena 分析 Amazon S3中的数据就像编写SQL 查询一样简单。Athena使用完整支持标准SQL 的 Presto，可以处理各种标准数据格式，包括 CSV、JSON、ORC 和Parquet。”张侠表示，因为 Athena 使用多个可用区的计算资源执行查询，而且使用Amazon S3作为底层数据存储，所以它具有高可用性和持久性，数据冗余存储在多处基础设施中，并且是每处基础设施上的多个设备上。

Amazon Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据，加载数据到数据库、数据仓库和数据湖，用于数据分析。使用AWS Glue，在几分钟之内便可以准备好数据用于分析。由于AWS Glue是无服务器服务，客户在执行ETL 任务时，只需要为他们所消耗的计算资源付费。

值得一提的是，AWS Glue 在从客户选择的数据源把数据爬取出来之后，会自动识别数据格式和模式，构建统一的数据目录，并为客户提供所选数据的中央视图。这使得客户很容易跨越各种数据存储，检索和管理所有数据，而不必手动搬运它们。

“AWS Glue 不仅让 ETL和异构数据源的处理变得更加容易，而且大大降低了开发和运营成本。”在德比软件大数据团队技术经理戴岳看来，德比软件为酒店和旅游行业提供在线销售和产品分销方面的技术和系统服务，拥有全部产品和服务的自主知识产的同时，还存储了全球超过18万家酒店的数据，每月处理超过800 万间夜的订单。通AWS Glue服务，它的数据目录功能让德比软件可以轻松使用 Amazon EMR来直接处理和查询 Amazon S3上的数据，极大地提高了开发效率。

据了解，当前已经有大量的企业和机构都已经开始采用AWS的数据湖和数据分析云服务，例如，金融领域还有著名的基金管理公司Vanguard、证券交易所 NASDAQ，互联网及电商方面除了Amazon还有全球民宿短租公寓预定平台 Airbnb……

张侠强调，数据湖虽然更适合于当前的企业IT需求，但是总体实施仍有不小的难度。为此，亚马逊推出了AWS Lake Formation 服务，将数据湖的流程自动化，节省企业建立数据湖的工作流程。“虽然 AWS Lake Formation 服务还没有在中国正式推出，但是我们在今年会很快的时间内推出这个服务，为企业提供帮助。”

写在最后

“从 AWS的角度来看，数据湖有三个最主要的元素：Amazon S3/Glacier、AWS Glue、以及还未在中国市场推出的AWS Lake Formation。”张侠表示，AWS可扩展、可靠的云存储，加上广泛的分析服务，使客户比以往任何时候都更容易收集、存储、分析和共享数据，随着AWS Glue在由西云数据运营的AWS中国（宁夏）区域正式上线，中国区域的客户可以轻松地从任意多的数据源传输和处理数据，整合数据到数据湖，并且可以选用多种AWS分析服务，迅速开始分析所有数据，助力企业客户的创新和发展洞察先机，为企业创造更多的价值。

AWS：全面布局“数据湖”服务

Newspapers in Chinese (Simplified)

Newspapers from China

AWS： 全面布局“数据湖”服务

Newspapers in Chinese (Simplified)

Newspapers from China

AWS：全面布局“数据湖”服务