“人类DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。”
——诺贝尔生理学与医学奖获得者杜伯克
在基因这本“生命天书”里,藏着有关健康的秘密,人类通过基因探索生命科学的脚步从未停歇。然而,对生命科学的探究离不开对基因数据信息的存储、挖掘、管理。其数据信息的巨大规模、结构复杂、快速增长等特点,对信息系统的存储能力、计算能力、扩展能力都提出了非常高的要求,成为许多科研单位进一步取得成果所面临的难题。
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。在序列对比的过程中将会产生巨量的数据,这对我们的存储系统带来了较大规模的挑战。
现在用于存储的硬盘容量每14个月会有一倍的增长,而基因序列的数据量则每5月左右会翻一番,例如:CeleraGenomics 和Sanger Centre 等主要基因研究机构都在管理数以万亿字节计的数据,其数据库信息量已经超过美国国会图书馆全部藏书,也超过了人类开展生物学研究以来积累的数据量。
序列拼接是将测序生成的reads短片段拼接起来,恢复出原始的序列。该问题是序列分析的基本任务,是基因组研究成功与失败的关键,拼接结果直接影响到序列标注,基因预测、基因组比较等后续任务。基因组序列的拼接也是基因组研究必须解决的首要难题。其困难不仅来自它的海量数据(以人类基因组序列为例,从数量为10兆级的片断恢复出长度为亿级的原始序列),而且源于它含有高度重复的序列。
从计算机方面来讲,在拼接初期,会有大量的初始数据导入内存,然后对这些数据进行处理,因此,序列拼接对于计算机的内存量和计算能力都有非常大的需求。
生命科学类计算的核心内容是计算高性能、内存密集型和存储密集型,结合有孚云多年的经验,有孚云可为生命科学提供专业的方案如下:
计算能力
对于生命科学高性能计算需求而言,主要通过CPU综合性能提供必需的浮点运算和整点运算,CPU的浮点运算能力能够完成图像处理、科学计算等需要更高精度计算的任务。有孚云依据生命科学计算特点,推荐使用高主频Intel处理器,既能实现较高的计算处理性能,又在能效比、内存支持,以及CPU本身的架构上具有很大的优势。
内存配置
在生命科学计算中需要高效实现先期数据的载入,这对计算节点内存容量的要求越来越高,有孚云主机支持处理器与内存配比为1:8,充分满足了生命科学应用的实际需求。
存储性能
海量存储系统是生命科学计算的基础条件,有孚云提供高性能的基于三副本的SSD存储系统,10GB高速网络接口构建分布式存储资源,总体存储容量可达到EB级,同时还通过多副本机制,保障了数据的安全,从根本上解决了生物信息学的数据存储难题。
系统稳定
一套高稳定性的系统能够使生命科学应用更加方便快捷,同时也能够高效率的处理数据,保证业务不中断,有孚云平台持续提供作业调度、集群监控和数据管理能力,并结合有孚云高性能的服务器、灵活的弹性扩展特性和超高的存储性能,从各个方面保证了高性能运算平台的稳定性,降低了系统故障率,可为生命科学提供持续不间断的计算服务。
生命科学已经开始从根本上改变我们的生活。以创新技术助力科研发展是有孚网络一直以来的努力方向,有孚网络将不断发挥自身优势,为各领域科学研究提供强有力的IT支持,助力前沿科技成果的取得,加快创新成果转化应用,让科技造福社会。