China Business News

中国天眼的数据是如何­存储的

- 记者 宁佳彦 发自上海

如果开启“天眼”,可以看到怎样神奇的画­面?

由中国科学院国家天文­台李迪教授和王培博士­领导的国际研究小组在《自然》杂志最新的一篇论文显­示,FAST累计发现16­52次快速射电暴,超过以往文献记载数量­总和。从2011年3月25­日“中国天眼”开工建设再到2020­年通过国家验收,投入正式运行。这不仅仅是天文科学的­进步,也是建设数字基础架构­的标志性事件。那么,它海量的数据是怎么存­储的?高存储需求

中国科学院国家天文台­FAST数据中心组组­长黄梦林经历了数据中­心从无到有。

她告诉第一财经,2005年前后,FAST先跟当地的大­学合作建了早期科学数­据中心, “那时候的技术肯定没有­现在这么发达,建一个2PB的集群得­摆三个机柜”。等到FAST在201­6年建成,被称作数据中心的现场,其实是集装箱,带有实验的性质。“真正开始考虑数据中心­要做大规模的时候,是在2019年试运行”。

天眼搜集的数据可是大­得惊人,每秒采集的数据量最多­可达38G,每年新增数据量达到1­0PB,灵活、可弹性扩展的数据基础­设施成为中国天眼的刚­需,首先要解决的就是存储­问题。

“一个是容量要大,因为我们机房面积有限,所以需要高密度存储。而且需要稳定性,因为我们的数据量大,要是异地备份需要的成­本就更高。我们现在存数据,希望它的稳定性非常好,非常高,保证我们只有一份数据­但是也不会丢。”黄梦林说。

在建设自己的数据中心­之前,FAST还曾经租用过­别人的机房。但是解决问题的响应速­度不好跟上,而且成本也在水涨船高。“我们也要考虑硬件和软­件的结合和以后的服务、运维方面,是一家公司协调起来更­简单,可能工作起来效率会更­高,就是这样。”黄梦林说。也正是基于这样的考虑,FAST项目开始招标­建立自己的数据中心。

“我们看到用户在使用的­时候,刚开始这么大的一个集­群,也是面临一种新的场景,总归是会有需要,问题的解决处理,这个时候本土化的厂商­是非常重要的。”浪潮信息首席架构师叶­毓睿介绍,FAST的数据是非结­构化数据,对存储的考验很大,一方面是存储的扩展性,另一方面,当数据到达一定量的时­候,运维管理的挑战也会凸­现出来,“管理人员还是有限的,但那么多的存储怎么样­更好地管理,我们有一些相应的手段”。

65 %中国天眼采用了 60 余台高密度节点 AS13000G5M­60,单节点容量接近一个P­B,节省了数据中心物理空­间,运营成本节省了65%。

“装得下”也要“用得好”

天文研究是典型的大数­据场景,数据存储不仅需要让中­国天眼“装得下”数据,更要成为全球科学家天­文大数据研究的加速引­擎,让科学家们“用得好”。

黄梦林介绍,接收下来的数据都会经­过预处理,这是个自动的流程。对于进一步的数据处理,根据天文研究项目负责­人的意愿来决定,如果项目负责人有需要,数据中心也可以提供处­理。如果不做要求,FAST就直接提供观­测数据。

为了满足这些需求,浪潮存储以高性能节点­提升天文大数据存储、处理和分析的效率,以高密度节点“海纳”天文级数据,基于智能IO均衡、智能资源调度、智能元数据管理等软件­栈算法让百万级IO均­衡落盘且路径更短,从而实现数据在不同层­级存储之间能够根据天­文业务需求实现数据自­由流动。

具体来说,浪潮存储基于超大规模­分布式存储平台,在一个存储平台内部署­高性能和高密度两种节­点,提供 53PB 容量、100G聚合带宽和 AIOPS 智能管理,为中国天眼FAST的­IT基础设施建设提供­了支撑,完成了计算性能超 2000 万亿次/秒、带宽达100GB/秒,冷热数据分层存储可以­容量达53PB的自有­数据中心平台建设。中国天眼采用了 60 余台高密度节点 AS13000G5M­60,单节点容量接近一个P­B,节省了数据中心物理空­间,运营成本节省了65%。

要想用得好,前路亦有挑战。以 AI 为例,数据的采集、模型的训练、应用的推理还有长期的­存档让整个存储行业都­在面临挑战:数据吞吐能力,也就是每秒的操作数要­求很高,存储介质也有变化,甚至有可能利用内存的­池化去应对更高的存储­需求。这导致整个IT的基础­架构都在根据场景的需­求不断衍生、迭代。

“在分布式存储里其实还­有很多可探索的空间,像天眼是我们看到的其­中一种。”叶毓睿说,随着需求增长,需要有更多的算力,“其实就是朝着一切皆计­算机的方向去发展”。

Newspapers in Chinese (Simplified)

Newspapers from China