登录

今天,我们详细聊聊华大基因的数据版图

作者: 周梦亚 2017-04-25 08:00

在之前的“基因&数据”系列中,动脉网介绍了首度基因、奇云诺德以及聚道科技等企业。如今系列报道接近尾声,记者想是不是应该有更具代表性企业作为结尾。于是,记者联系到了华大基因研发中心副总监金鑫博士,听他聊一聊这个庞大的基因帝国在数据环节如何布局,在这一环节他们又有什么话要说。


作为华大基因的青年科学家,金鑫曾参与了一系列重大科研项目攻坚,包括国际千人基因组计划、中丹糖尿病基因组计划、人类泛基因组图谱计划、高原基因组计划,及自闭症基因组计划等。早在2009年,金鑫就以在校生的身份在《Nature》子刊《Nature Biotechnology》发表《构建人类泛基因组序列图谱》,并首次提出了“人类泛基因组”概念。

 

想到这似乎又是一次与天才的对话,记者一开始颇感紧张。而随后接近一个小时的采访中,逻辑怪、一针见血的观点、谈话间又容易亲近,这样的金鑫显得非常有趣。随和又严谨,两个矛盾纠结的词放在他身上却也没什么违和感。


金鑫.jpg

华大基因研发中心副总监金鑫博士


数据分析:云上与本地多维布局

 

2015年,华大基因基因组数据分析云计算平台BGI Online国际版正式在AWS上线,随后于2016年在阿里云上线了国内版。作为负责人,金鑫见证了BGI Online的建设工作。其实早在2011年华大基因就开始尝试云上的数据组学方案,但由于当时国内公有云的建设还不成熟,作为先行者,他们走了不少弯路。


2014年开始,云技术领域有了很大的进步。阿里云,华为云这样的IaaS服务商快速崛起,“华大领导层觉得,这个事情可以干了。”金鑫回忆。

 

数据分析涉及到基因数据的降维过程,将原始数据降维到比较高质量的突变列表数据。传统方案中,是基于大型计算设备和存储设备来进行数据计算和降维。当数据量增加到现有构架不能满足计算需求,那企业就需要再次购买设备。这里面就涉及到两个问题,一是小型企业是否能够承受设备购买的费用,二是设备购买是否能够跟得上数据增加的速度。

 

BGI Online则把降维和数据环节搬到了云上,并且在分析层面上给用户定制化和个性化体验。金鑫告诉记者,传统的数据分析需要在本地集群上部署,然后在本地通过命令行去安装和操作。而BGI Online则通过前端把所有集群都管理隐藏起来,对前端用户来说,只需要简单的鼠标操作就可以根据自身需求更新流程和启动分析。

 

“一方面是降低数据分析本身的门槛,另一方面是可以让用户使用的更加便捷。不需要购买大型设备,也不需要复杂的操作,点点鼠标就可以完成了。”金鑫告诉记者。

 

此外,多年来华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场和客户的需求有比较深的理解,这些都成为BGI Online的特色和优势。

 

但随后,金鑫话锋一转:“云平台是解决了很多问题,但实际上没有一种解决方案是完美的。云上或者是本地的方向都有各自优势所在,华大基因在这些方向都会去布局。”

 

据金鑫透露,华大基因已在数十家国内最好的医院部署了本地化解决方案一体机。临床医院对外的网络接口和传输速度可能受到限制,中间环节涉及到的很多软件需要监管部门注册报批,因此云上的方案并不一定完全适用。一体机包含了测序数据分析和报告产出功能,可满足临床级别检测的本地检测和本地分析需求。

 

“对于一些临床医院来说,这是个不错的解决方案。”他表示。


数据、终端和组学研究,解读环节的3个问题


从数据流的角度来说,数据产出(测序)和数据分析环节受设备和技术的影响比较大,而解读环节则更多受到专业人员和标准管理体制的影响。

 

1
基础问题:数据库与管理标准
 


数据解读可以简单理解为基因基因组学的翻译过程:根据新样本的信息,去寻找类似的样本,同样的突变、同样的表型,在按照同样的路径去解读。因此,要想解读更加精确和快速,首先就需要强大且丰富的数据资源。

 

但在整个全球范围内,组学数据的流通都处于比较受限的状态。一方面,数据如何合理共享,如何保护好用户隐私,国内目前还没有非常好的标准制定出来。

 

这些标准涉及到多个层面,比如测序技术、测序试剂以及测序数据本身的标准。“从数据产出到生成报告,这里面涉及到多个环节,每个环节都需要有标准。”金鑫表示。他告诉记者,目前各家在各个环节的标准不一,每一个环节的标准都可能影响到最终的数据,如果仅仅是制定最终的共享标准,并不能发挥数据管理的全部意义。

 

华大基因已经申请了部分重要的标准制定工作,包括DNA取样、样本制备、测序过程等等。

 

另一方面则是数据库本身的问题,这些数据主要来源于临床,能否用于构建数据库、如何构建本身就是个问题。目前国内所使用的数据库都是欧美的公开数据库。虽然都是同一个物种,现代人,但不同人种在基因层面还是存在一定差异的,所以一个中国人群的数据库是非常核心的。

 

尽管多家比较大型的基因公司都已经在进行数据库的构建工作。但放眼看欧美比较成功的数据库,其实大部分除了公司导向积累的数据外,更多是通过政府和科研机构共享开放出来的。这一类项目通常有国家专门拨给的科研经费,共享和管理机制也比较健全。

 

在反观目前国内现状,尽管这类大型的科研项目已经在逐步启动,但构建人群数据的科研项目投入尚没有欧美国家投入的多,数据共享的模式和管理机制也还在探索过程中。

 

这一方面,深圳国家基因库于2016年9月正式运营。国家基因库是由国家发改委、财政部和科技部等多个部门共同投资建设,目前主要交由华大基因运营管理。

 

简单来说,国家基因库是国家资源,数据资源公正公开,与公司层面建立的数据库将有本质区别。另外,国家基因库可以为数据存储和共享提供可靠基础,更容易把资源整理集结起来,再共享出去为更多人所用。


2
终端问题:临床咨询空缺

 

“但仅仅是这些依然是不够的。”金鑫告诉记者:“临床环节的基因数据解读不仅仅需要科研人员,其实跟临床专家也密不可分。”

 

在临床环节,除了数据解读之外更重要的其实是如何将结果解释给患者,让患者能够听明白。这一环节涉及到一个重要的环节——遗传咨询。

 

在欧美国家,遗传咨询早已成为专门的职业,管理机制也相对成熟——必须具有医学硕士或博士学位、专攻于遗传学理论和临床的执业医师,还要在经过两年的学习和实习才能取得资质,而国内尚未设立专门的学位。

 

2013年,复旦大学生命科学学院开展了一场遗传咨询培训,这应该是我国最早的关于遗传咨询的培训。华大基因于2011年开始着手自身遗传咨询团队的建设,2015年首次进行了对外的遗传咨询师培训。同年2月,中国遗传学会遗传咨询分会成立,标志着遗传咨询行业规范的初步建立。


3
根本问题:基因组学研究

 

“这些都是较浅层面的。”他稍微停顿了一秒,继续讲到:“从根源上讲,最重要的问题其实是我们对基因的理解程度还不够。”人类基因组有3x 109个碱基,我们真正理解的不到2%。此外,基因组的调控机制并不仅仅停留在二维层面,还有三维层面的空间结构和相互作用的影响。也就是说,并不能把基因简单理解为由“A、T、G、C”随机排列的字符串,不同的空间结构、甲基化、蛋白修饰都会影响到基因的最终表达。

 

“行业标准和数据库这些,通过投入人力物力和财力其实都是可以办到的,但基因结构的理解是必须下硬功夫的。”金鑫表示:“如果这个层面上没有突破的话,那我们就只能在原有已知范围内做有限的事情。”

 

成本降低是反向压力


“除了这些,上游测序的高成本其实也为目前的数据解读增加了难度。”这样的观点让记者很惊讶。

 

随后他解释道:“前面我们讲到数据解读的一个难点是因为目前积累不够。为什么积累不够呢——更多其实是因为目前数据产出的成本偏高,还不能让全部人接受。”

 

尽管目前全基因组的测序成本已经压到了1000美金以下,但对于大部分中低收入人群来说依然难以承受。让测序成本降低本身其实也是在加速数据积累,尽管一开始会造成数据处理环节的压力,但最终终会寻找到一个好的解决方案去应对这样的压力。这些数据又将帮助行业对基因数据有更深层次的理解,反过来促进数据分析和解读,最终形成良性循环。

 

因此,数据大量产出对于数据解读而言其实是一个反向压力。

 

2013年,华大基因收购CG后正式进军上游市场。如今,华大最新的测序仪已将个人全基因组测序成本降到了低于600美金。“在这个基础上我们还将继续把成本降到更低,更多的人能够用得起。”金鑫表示:“同时华大基因也在降低数据处理环节的成本,在BGI Online上已经实现了在5-10小时完成人类全基因组标准分析,并将分析成本降低到了100人民币内。”

 

从产出到解读,华大基因布局全产业链


在数据分析环节,除了BGI Online平台,华大基因已具有一系列具有自主知识产权的分析软件,如 SOAPdenovo、SOAPsnp、 SOAPtrans、 SOAPfuse 等。

 

目前,华大基因已经开展了多项前瞻性试验,在1.5个小时内完成全基因组数据分析,同时通过硬件加速的方式在20分钟以内完成数据计算。“这些都是在降低应用方向上的成本”金鑫告诉记者。


华大基因数据环节.PNG 华大基因数据版图


在数据解读环节,一方面,关于中国人群的数据库正在依托国家基因库构建,行业标准制定工作也在推进,在这些基础上华大基因也在开展一些前瞻性的探索工作。比如尝试通过人工智能进一步提高解读的自动化。

 

从最上游的测序仪、相关试剂,到中游的相关分析平台、一体机,再到解读工具和遗传分析团队。在金鑫的描述中,华大基因在数据处理环节的布局可谓无处不在,是国内为数不多的全产业链布局团队。“重要环节我们都是有投重金的。我们希望能把行业活化能降低,让更多的人才进到这个行业里来,做自己擅长的部分。”

 

写在后面


以往,华大基因给记者的印象是一个神秘的基因帝国、中国基因行业的黄埔军校。而通过与金鑫的交谈,记者所认识到的华大基因,既有多年前倾其所有参与人类基因组计划的科研精神,又有面对上游压制反向收购的霸气。

 

但更多看到的,是这个集产、学、研于一身的企业在基因领域的多年耕耘,从无到有,从有到强的探索。如今,中国基因测序达到国际水平,测序企业遍地开花,华大基因功不可没。尽管如此,基因组学还有很多未知的数据价值,华大基因仍旧走在时代前列,继续探索和挖掘。


「路漫漫其修远兮,吾将上下而求索」

文章标签 基因大数据
注:文中如果涉及企业数据,均由受访者向分析师提供并确认。
声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。转载请联系tg@vcbeat.net。

周梦亚

橙果局主编,Making an impact

分享
动脉橙
以上数据来自动脉橙产业智库

我们以独创的在线数据库方式,为健康产业人士提供全方位和实时的市场资讯、行业数据和分析师见解。现已覆盖数字健康、医疗器械、生物医药等近500+细分赛道,涉及公司名单、招投标、投融资信息、头部企业动态等各类数据并持续更新。

点击 【申请试用】了解动脉橙产业智库更多内容。
精彩内容推荐

继突破DNA合成的规模、通量和成本后,Twist Bioscience向DNA数据存储发起挑战

三孩政策来了,辅助生殖又要火了?

自兴人工智能:聚焦AI染色体核型分析,遗传生殖和血液肿瘤领域各大头部医院都在用

【首发】赛福基因完成超亿元B轮融资,推进产品迭代助力儿童遗传/罕见病的精准防控与诊疗

周梦亚

共发表文章361篇

最近内容
  • 华山医院 & 微创医疗,新增一项运动康复专利公开

    2024-04-11

  • 西安交大一附院磁外科团队,再现国际首创!

    2024-02-19

  • 复旦大学华山医院,新增一项IBD专利

    2024-02-04

上一篇

服务10多万患者,合作60多家三甲医院乳腺科,这家公司是乳腺单病种管理的第一人

2017-04-25
下一篇

华海药业投资8亿设立子公司,进军生物药生产研发

2017-04-25