亚马逊AWS:云上构筑大数据框架

云和人工智能等新技术为大数据应用带来变革。

CEOCIO - - 特别报道 / Special Report - 赵艳秋/ 文

“大数据不是一个新话题,一些概念 20 多年前就有,比如数据挖掘、BI(商业智能)、BA (商业分析)等。之所以最近更火了,是因为云。”现任 AWS首席云计算企业顾问张侠博士说,他十几年前就撰写过大数据的文章。“云既帮助产生、收集、存储更多数据,又帮助提供多样的数据分析处理方法手段。如今人工智能的兴起,能把数据分析做得更好。”云确实为大数据应用带来变革。一家在亚马逊 AWS上提供大数据分析服务的企业,此前去投标一个客户的大数据分析 项目,同时参与的有传统大数据分析公司。招标方在传统模式和云服务中各选了一家供应商,并行开展,来对比一下效果。一个半月后,这家云服务企业已经按照客户要求,把建模、分析和交付全部做完了。而那家非云厂商,为之购买的服务器还没有到货。

“这就是云服务带来的变革。”张侠借此来解释。

不仅如此,云服务还在产品和服务选型中带来另一个差异— —让企业选型过程变得简单便捷。

“很多厂商都会对你说,我有这个功能,我有那个功能。我建议你招呼一声,你想做什么事情,会有很多供应商来给你提供方案。使用云上的工具和服务,你马上就能开始实验,也能很快了解这些工具的真实深度和广度。”虽然用户也要在学习和了解上花费一定时间,但相对传统模式要简化透明得多。

频谱的一端

“企业应用大数据云服务的状况就像一个‘频谱’。”张侠说。从频谱的这一端,是完全没有使用、将数据资源白白浪费的企业;而频谱的另一端,是对大数据利用得非常好,甚至商业模式就建立在大数据基础之上的企业。

而一些比较极致的客户,甚至自己在云计算平台上创新大数据的工具和服务。Netflix 是在亚马逊云上提供互联网视频流的服务商。“很多亚马逊云上的大数据工具最初是 Netflix 发展提供的,现在被大家广泛采用”。

Netflix很乐于分享。在国际大数据会议上, 人们甚至会经常见到 Netflix 工程师的身影。“他们非常自信,为什么呢?因为当你学会这些时,他们已经开始做更先进更高级的事情了。”

先进客户在云上的大数据创新脚步很快。

全新的大数据架构

亚马逊云为大数据提供全套产品和服务,覆盖从数据收集、存储、处理到使用 / 可视化的全流程。

去年,在其“Re:invent”年度大会上,亚马逊阐述了基于云全新的大数据架构,分为十大步骤,推出相关的部分服务。“我们正在研究怎样提供更全面的工具。对于大数据,我们正在持续努力。”张侠说。

张侠特别强调,大数据整体有两个新特点:一是对实时数据的分析,一是利用现在和历史数据进行未来的预测,这都是更高的要求。

针对这样的新趋势,亚马逊也正在提供一些创新服务。其一是 Athena,它可以直接在S3 上做 SQL 查询。“S3 本身不是一个结构化

数据库,它存储的可能是视频、mp3、word文档和 Excel 表格。现在,有了Athena,可以马上使用SQL进行查询,在以前没想过的维度上实时查询”。

另一个是数据湖(Data Lake)服务。在传统模式下,数据收集上来要逐渐放到一个企业级数据仓库里,这要对数据的结构、特征和颗粒度都很清楚。但现在很多实时数据不断涌来,存储在S3上,通过 Athena 直接查询,再放到Redshift 数据仓库中。“这个整体就是数据湖概念。它的目的是对实时数据能先进行一个快速分析,帮助快速做出一些决策”。

上个月在旧金山 AWS宣布推出 Redshift Spectrum, 这是 AWS 的 Redshift 托管数据仓库服务的延伸版,能够直接查询驻留AWS S3存储服务里面的数据。亚马逊首席技术官 沃纳·沃格尔斯(Werner Vogels)在发布时举了一个例子:使用 Apache Hive 开源数据查询软件对艾字节(EB)数据执行查询。这项任务需要五年的时间和 1000 个节点――也就是说,成本相当高昂。沃格尔斯表示,但是借助Redshift Spectrum,只要花 155 秒和区区几百美元。

还有两个创新服务,一个是 Batch,是对数据进行批处理 ETL的服务。另一个是 Glue,这个词是英文“胶水”,意思是把数据流程、数 据转化更好地串在一起。与此同时,亚马逊云也针对人工智能(AI)推出一些工具和服务。

AWS提供的AI服务

在亚马逊,目前有上千员工致力于人工智能,涉及发现与搜索、物流配送、发现现有产品、定义新产品类型以及将机器学习引入更多领域。

MXNET是亚马逊选择的深度学习框架,已纳入 Apache 孵化项目,也与AWS集成整合,进行了优化。

亚马逊云推出了3 种人工智能服务— — Polly、rekognition 和 Lex。polly 做文本语音转换— —看见一段文字就能念出来。Rekognition做图像识别和分析。Lex 做自然语言理解和自动语音识别。“我们把这3种服务软件开发包,任何人都能直接调用,目前很火。”张侠说。

CNBC财经新闻台应用了Lex,如果用户现在说“请告诉我今天的 market update”,cnbc马上会告诉你今天道琼斯、纳斯达克的表现。福特汽车集成了Lex,甚至高通芯片也集成了Lex,可以想象,未来各种设备应用语音服务的多样化场景。

利用亚马 逊 云 上 的 AI 技 术,Howard Hughes公司预测高档房地产交易,Fraud.net检测在线付款欺诈,Pinterest 开展图像识别搜索,FINRA 进行异常检测、序列匹配、回归分析和网络分析,辉瑞制药开展药物发现。

张侠认为要用好大数据和人工智能,业界需要更多的数据科学家— —“数据科学家要数理方法、计算编程和行业知识三者兼而有之”。

他强调了行业和社会知识。“大数据真正的意义,是从数据中挖掘出价值,进而提供洞察力,为企业创造财富”。为此,当人们使用大数据来时,“他不仅要懂得数理和编程,还要了解其他相关的知识。行业和社会知识让你知道该从什么角度去看数据,进而把数据价值体现出来。如果想成为一个好的数据科学家,应该在这三个维度上去琢磨,这会让你更能成功”。

张侠认为要用好大数据和人工智能,业界需要更多的数据科学家——“数据科学家要数理方法、计算编程和行业知识三者兼

而有之”

“大数据之所以最近更火了,是因为云。”现任AWS首席云计算企业顾问张侠博士说

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.