大数据时代的星环号

“星环号”能带着人类逃离太阳系,因为它实现了超光速飞行;星环科技希望建立数据时代的里程碑,则要突破性能极限。

CEOCIO - - Contents - 王众/ 文

《三体》中,由于太阳系受到未知文明的打击而降维消失,地球人类仅剩的最后两人乘“星环号”曲率引擎驱动飞船离开太阳系,从而保存了地球文明。在 2013年的上海,一帮研究大数据的专家携手创办了一家叫“星环”的公司,致力于在大数据时代打造一艘高速的航空母舰。这不是巧合,创始人兼CTO孙元浩正是因为读了《三体》,才定下了这个名字。

星环科技的核心团队来自于英特尔的研发团队,是国内最早的大数据 Apache Hadoop 发行版团队,从 2009年起即开始致力于大数据平台软件的自主创新和开发;彼时,基于 Apache Hadoop 开源技术的数据管理及分析平台提供商 Cloudera 刚成立一年,如今,Cloudera 在“福布斯 2016全球最佳云计算公司100 强”中排名第五。

国际舞台新玩家

在“Gartner 2016年数据仓库及数据管理解决方案魔力象限”中,星环科技登上最具远见象限,且是唯一上榜的中国厂商。让星环科技与与老大哥 Cloudera并肩而立的功臣产品Transwarp Data HUB(TDH)是基于 Apache Hadoop 和 Apache Spark 的分布式内存分析引擎和实时在线大规模计算分析平台。目前星环TDH已经在恒丰银行等多个领域有替代传统技术数据仓库的落地案例。

2015 年,星环科技的 TDH4.0 版本全面通过了 TPC-DS 100T 的 99 项测试。TPC-DS是TPC(事务处理性能委员会)评测决策支持系统的测试基准。这个测试集包含了对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,与真实场景非常接近,是难度较大的一个测试集,也是目前业界公认的数据仓库测试准则。到目前为止,能够通过 100T 测试的厂商寥寥无几。孙元浩介绍,TDH相比开源Hadoop 版本有 10~1000 倍的性能提升,可以处理GB到 PB级别的数据。

“星环号”之所以能带着人类逃离太阳系,是因为其实现了超光速飞行;星环科技希望建立数据时代的里程碑,则要努力突破大数据存储、计算和管理的性能极限。事实上,较早启用大数据技术的金融业,其数据量在100TB 至1PB 级别;数据量级庞大的电信业,其数据量已经达到了PB级。比起数据爆炸的速度,目前的大数据处理技术还在追赶中,即便是百倍的提升,也只是一个开端。

孙元浩 摄影/刘岳 创始人兼 CTO 孙元浩分析, 后 Hadoop时代又回到了解决大数据的 4个V 上 ,即数据量 (Volume)、数据类型 (Variety)、速度 (Velocity) 和价值 (Value)

开辟无人区

如今举国都在数据化,基于业务差异,不同行业对大数据分析的需求各有侧重,孙元浩分析,后 Hadoop 时代又回到了解决大数据的4个V上,即数据量( Volume)、数据类型 ( Variety)、速度 ( Velocity) 和价值 ( Value)。

目前,金融业重视海量数据处理效率,以及利用机器学习和深度学习为营销和风控等业务提供帮助;政府具有 PB 级数据,更看重如何用最低成本建设搜索引擎;相形之下,电力行业的要求更多样。电力行业的数据源来源于电力生产和电能使用的各个环节,其产业链前端的要求尤为复杂,华风数据和星环科技联手为国电电力宁波风电开发有限公司建立的风电场大数据分析平台就是一例典型应用,也造就了第一家成功将大数据应用于生产的风电场。

首先,风电场通常具有地理环境恶劣、场站分散的特点,很难留住人才,因此对自动化、远程集控要求较高。其次,目前发电机组的数据采集和监控系统都是由风电机组制造商配套提供的,但是各厂家的系统互不兼容,因此数据类型复杂。

另外,风能具有高度的随机波动性与间歇性,对电力供需平衡、电力系统安全以及电能质量带来了严峻挑战。智能风机上配备有大量的传感器。以每台风机每秒反馈1200 个传感器数据为例,一个设有 100台风机的风电场向数据中心回传的数据率相当于12 万点 / 秒。传统的做法是先存储再处理;当发现问题时,为时已晚。这就要求风电企业及时掌握所有风机的实时数据和状况,以便及时调整检修。

所以,宁波风电需要在宁波市区建立生产集控中心,能够远程监视、控制、调度所有的风电场,实现实时报警、在线诊断故障、及时处理故障,降低损失发电量;以及海量数据存储 , 为风机运行优化、性能提升提供精准的数据支撑;最终实现无人值班、少人值守。这几乎涵盖了4个 V的挑战。

针对这些需求,华风数据基于星环科技的TDH 设计了集数据整合、系统整合、应用整合的统一平台,采用了多通道数据传输技术,支持多种通讯协议;星环的实时流处理技术融合了事件驱动和低延时处理,能够对每秒12 万点数据进行实时的处理与分析,当传感器数据值超过阈值时实时报警;数据存储分析集群能存储海量历史数据,并基于风机历史数据做查询与统计分析。

同时TDH支持R语言无缝对接并提供图形化界面,使得宁波风电能通过R语言进行数据挖掘,并能直接调用星环科技 Transwarpr 的机器学习算法库,降低了业务人员学习时间成本。孙元浩表示,几年前大家开始关注机器学习领域,相比传统利用人工经验去设定并验证模型和规则,利用机器学习的方法分析大数据更准确。

随着大数据应用的发展,最终各行业都会将重心放在挖掘数据背后的价值上。目前走在前列的,当属 2016 年的当红炸子鸡金融业。孙元浩介绍,星环科技提供的深度学习已经在金融领域中帮助客户利用大数据做营销、风险分析、预测坏帐,等等。

对于大数据的未来,孙元浩认为有四个发展方向:第一,替代数据库方面,主要是用新的引擎来处理大规模数据,大量的用户数据仍然是结构化数据;第二,处理非结构化数据,这块主要用到深度学习来处理图像、语音、人机交互等;第三,实时计算,主要是流计算— —如何将批处理和事件处理两个模型融合起来,在非常短的延时内完成复杂事务处理;第四,数据挖掘和数据分析的工具,目的是将机器学习和深度学习变得普及化。这也是星环科技深挖的领域。

孙元浩介绍,大数据应用产业链大致可分为四层:大数据平台基础软件层、工具层、应用层和专业服务层;星环科技将专注于前两层。后两层的行业属性较强,他表示,目前大数据的行业应用解决方案稀缺,很适合新玩家们作为入口一展身手。

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.