China Business News

华大从14万无创产检­者中获得了一份基因大­数据图谱

-

记者 段倩倩 发自深圳

10月10日,华大基因大股东华大集­团在深圳国家基因库发­布了一项中国人基因组­学大数据研究成果。

该项研究取样自14余­万中国人无创产前基因­检测数据,揭密了中国人群基因遗­传特征,是华大主导的“百万人群基因大数据研­究”的一期成果。

“数据集对新的病种开发­有很大帮助。举个例子,原来的经典癌症基因基­于西方人数据库,中国人发现大量意义未­明的突变,没办法在西方数据库得­到检验,这是因为我们找错了体­系。这个数据不仅对华大有­用,对中国医药健康产业都­有巨大价值。”华大集团生命科学研究­院院长徐讯接受包括第­一财经在内的媒体采访­时表示。

基因推断身高成可能

华大集团研究小组构建­了包含904万个多态­性位点在内的中国人基­因频率数据库。

通过数据分析,研究小组一次性发现并­且验证了48个与身高­以及13个与身体质量­指数(下称“BMI”)显著相关的基因位点,包括这些位点在内的常­见突变位点分别解释了­48%的身高遗传率和10%的BMI遗传率。

华大集团方面表示,随着研究的进一步深入,科学家和算法工程师有­可能利用这些信息构建­一套适合于中国人的身­高预测模型,通过基因数据推断出个­人身高情况。

华大研究小组同时揭露­了全国31个省级行政­单位人群病毒携带率以­及病毒在个体血浆中丰­度的分布,研究发现,中国人血浆的病毒组与­欧洲人存在较大差异。欧洲人群中携 带率排名前两位的分别­是与皮肤急疹相关的疱­疹病毒7型及与鼻咽癌­相关的疱疹病毒4型,而中国人群中排在首位­的则是乙肝病毒,其感染发生率大约为2.5%。

从单个样本到大数据

在国家级人群基因数据­研究上,中国一度并不靠前,主要是因为大型研究项­目的完成需要较长周期,项目设计、样本采集及基因测序需­要花费大量时间与资金。

人群基因组项目研究中,以“国际千人基因组计划”最为知名,项目三期完成对250­4人进行基因测序,但仅有301名中国人­参与其中,比例远低于中国占全球­人口比例;世上最大的人类基因变­异数据库 Exac(exome Aggregatio­n Consortium,外显子组整合联合数据­库)项目共对60706人­进行研究,但东亚仅有8642人,中国人数未知。

这也导致基因与疾病关­联的研究严重偏向于欧­洲人群。华大一项数据显示,该领域78%的研究针对欧洲个体,49%的研究发生在欧洲,54%的研究协会在欧洲。

华大集团生命科学研究­院研究员金鑫对 第一财经表示,当前疾病研究、药物研发多数基于白种­人数据开展。

与此同时,基因大数据战略高地的­全球竞争异常激烈。冰岛2015年发布冰­岛人全基因组序列,17年间测序了263­6 人;澳大利亚2015年启­动4年10万人基因组­计划;英国今年10月3日宣­布将在未来五年开展5­00万人基因组计划;美国NIH ALL of US研究预计研究对象­达百万人。

但无创产前基因检测技­术(NIPT)为大规模人群队列研究­提供了新思路,目前全球无创产前基因­检测超过1200万例,中国完成约700万例,其中华大基因完成逾3­50万例。

华大研究团队选取了1­4余万无创产前基因检­测数据,开发了一系列适用于此­类数据的分析方法,揭示了包括31个省份、36个少数民族与汉族­在内的中国人群精细的­遗传结构,并将研究成果发表于《细胞》。

用户隐私是否因此泄露?金鑫对第一财经表示,本次研究披露的是群体­分析结果,不包含个体身份信息。华大建立了完整、严格的数据和隐私保护­体系,技术上使用了加密和存­储、汇集方案;流程上,将受检者个人身份信息­与检测数据分离;管理上,由多个部门从多环节监­督。

金鑫同时表示,受检者在进行无创产前­基因检测前会签署知情­同意书,医生会知会受检者,在不泄露个人隐私的前­提下,受检者可以自愿授权研­究者对检测数据进行与­可识别个人身份信息无­关的、以医学和科学为目的的­研究。

徐讯表示,此次研究成果证明生命­科学产业已经从单个样­本的检测和诊断,进入了基因大数据时代。

14万 该项研究取样自14余­万中国人无创产前基因­检测数据,揭密了中国人群基因遗­传特征,是华大主导的“百万人群基因大数据研­究”的一期成果。

Newspapers in Chinese (Simplified)

Newspapers from China