国家基因库基于阿里云搭建生命数据领域的谷歌

9月22日,位于深圳大鹏新区的中国首个、全球第四个国家级基因库正式投入运营。国家基因库是全世界最大的综合性基因库,1期建成后,综合能力世界第一。

这里既有保存动植物、微生物和人类组织细胞等样本的“湿库”,也有汇集各种生物信息的“干库”——数据中心。为了确保“干库”具备优良的数据吞吐能力和足 够安全可靠,国家基因库运营方华大基因同阿里云达成战略合作,基于阿里云飞天操作系统构建了基因检测大数据分析平台,解决了生物大数据高性能计算难题。

国家基因库执行主任、华大基因研究院院长徐讯介绍说:“我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌。”记者在现场看 到,基因库内摆放的多台基因测序仪正不停的运转。它们每天都产生着大量的基因数据,这些数据被传输到数据中心,并面向全球的科研机构和企业开放。

据了解,国家基因库已实现对基因信息数据总量达20PB的访问支持。20PB是什么概念?以一部电影500MB计算,20PB(1TB=1024GB,1PB=1024TB)相当于4千万部电影,一个人一天看一部电影需要10万年才能看完。

国家基因库是真正的‘国库’,比银行的金库还要宝贵。因此,技术是否自主可控、是否足够安全,也成为运营方衡量的标准。阿里云的飞天系统,由阿里巴巴的工 程师自主研发,能够将成千上万台机器变成一台超级计算机,在存储和计算性能上远超国外技术。同时,具备支付宝、淘宝同量级的安全防御能力。

徐讯说,在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多的基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。

在国家基因库建成前,我国每年产出的大量基因数据都存在国际三大数据库——NCBI、EBI、DDBJ中,在基因数据已成为战略资源的现在,国内不能保存我国独特的基因数据,这本身就是一种风险。

阿里云的计算能力还将为科学家解读生命密码提供帮助。徐讯说,“我们每个人大约有3个GB的基因组大小,但是我们真正能读得懂的区域只有1%的区域,99%的区域我们是不理解的。”

基因库的建立将推动基因的进一步解读和利用。“怎么样能理解更多呢?就像我们做人工智能研究一样,机器要想学会下棋就需要看上万部的棋谱。这个也是一样 的,要看懂人类基因组上的未知区域就必须依赖更多的数据,增加10%的理解至少需要一百万到一千万新增人的数据。所以,只有大量提供数据才能产生出新的理 解,而产生出新的理解之后测序的价值就会更大。”

基因与云计算的结合已成为一种趋势。即将开幕的全球云计算顶级会议——2016杭州·云栖大会上,更是单独为基因计算设置了专场讨论,引发关注。


极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。