英伟达利用高性能计算和人工智能推动下一代测序

2021-08-23 17:35 来源:电子说

科学家和医学研究人员一直受到湿实验室研究样本数量和观察细胞时显微镜质量的限制。现在,他们正在使用强大的计算工具从不断扩大的生物数据库中获取见解。

正是高性能计算系统和特定领域软件框架的结合支持了数字生物学的这场革命。

在最近公布的全球最强大系统500强榜单上,我们看到了两台超级计算机:专注于医疗行业的NVIDIA Cambridge-1和生物技术公司Recursion的BioHive-1。两台超级计算机均基于NVIDIA DGX superpad参考架构。

全世界的医学研究机构、制药公司和生物技术初创公司都在使用NVIDIA Clara Parabricks(一套基因组学库和参考应用程序)来推动下一代测序。

位于上海的明明生物科技有限公司成为中国第一家能够让Clara Parabricks Pipelines支持精准医疗工作的研究实验室。这是继今年在泰国和日本启动大型基因组计划后的又一项举措。基因治疗初创公司Greffex最近使用Parabricks Pipelines加速开发其通用流感疫苗项目。

可用于人口研究的基因组见解

Parabricks Pipelines在NVIDIA GPU上将DNA和RNA项目的速度提高了50倍,这使得科学家能够从每天生成的数百兆仪器数据中提取尽可能多的有用信息。进行人口研究的公共卫生机构和研究实验室需要这种加速,因为它们需要分析数万个基因组。

明明生物科技公司使用Parabricks Pipelines和NVIDIA T4张量核心GPU加速其测序和多组数据分析。该公司为医疗机构、制药公司和研究人员提供用于疾病研究和药物开发的基因组见解。

泰国国家生物银行的英伟达DGX A100系统正在推动泰国的基因组研究。该倡议旨在使基因组医学成为该国的常规医疗服务。该研究所正在使用Parabricks Pipelines分析5万名泰国志愿者全基因组测序数据中的遗传变异。

通过将DGX系统与Parabricks Pipelines相结合,该项目的全基因组数据处理时间缩短了4个月。这项工作的结果将有助于研究人员更好地分析泰国人口特有的遗传变异。

日本东京大学人类基因组中心最近推出了日本生命科学领域最快的超级计算机——SHIROKANE。这台由DGX A100驱动的超级计算机正在运行Parabricks Pipelines,对92000名患者的全基因组进行测序,创建了一个数据库,为癌症和难治性疾病的精确医疗奠定了基础。

促进临床测序和新药研发

Parabricks Pipelines基因工具包可以进行配置,以满足每个实验室的特定需求。研究人员可以在各种NVIDIA GPU系统上运行Parabricks Pipelines工作负载,包括桌面工作站、GPU加速云和一些世界上最快的超级计算机。

休斯顿的Greffex开始使用NVIDIA RTX数据科学工作站,现在该公司正在使用Parabricks Pipelines和NVIDIA Clara Discovery来推动其通用流感疫苗的开发。

这家初创公司将基因组测序、分子动力学工具和湿实验室研究结合起来,研究流感毒株如何随时间演变,以及这些变异如何影响疫苗的效力。

为了监测流感的变化,Greffex从世界各地收集了数万个流感基因组,并使用NVIDIA RTX 8000 GPU运行大规模序列比对,识别出病毒遗传密码的变化。通过使用GPU运行基因组工作量,该公司在每个样本上节省了多达13个小时,还使其团队能够重新运行不同参数的样本,从而微调排列结果。

Greffex科学家对流感病毒表面的蛋白——血凝素进行了计算密集型分子动力学模拟,以了解其在自然环境中的表现。

一旦确定了基因变异,Greffex的科学家将使用分子动力学来观察这些基因变化如何改变流感病毒的物理形状。他们现在正在密切观察流感病毒的多态性变异,这种变异可能会将流感病毒转化为无法与疫苗抗体有效结合的形状。

Greffex生物信息学科学家Daniel Preston表示:“如果一种疫苗不仅需要能够与当前的流感病毒株结合,还需要能够与多种其他病毒株结合,那么其蛋白质结构的优化将是一个非常漫长且昂贵的过程。现在,我们可以通过计算方法了解在实际实验室测试之前可能会起作用的东西,这与过去的方法有很大不同。”

关于英伟达克拉拉帕拉布里克斯

NVIDIA Clara Parabricks为博德研究所的行业标准基因组分析工具包和谷歌的DeepVariant基因调用者等热门工具带来了GPU加速。Parabricks在NVIDIA A100 Tensor Core GPU上运行时,可以将整个人类基因组的二次分析时间缩短至23分钟,从而实现DNA种系变异的鉴定。而且如果在CPU系统上运行,需要20多个小时。

除了DNA测序解释,Clara Parabricks Pipelines还可以对生殖系和体细胞变异检测中的变异进行比对、分类、筛选和鉴定,并支持RNA

类应用。生殖系变异是通过个体祖先遗传的变异,而体细胞变异会在人的一生中发生并且可能引发癌症。

Parabricks Pipelines 3.6版本将提供更多用于体细胞变异识别和新生殖系变异识别的工具,前者将为研究人员提供适用于精准肿瘤学的洞见,而后者将为自闭症等复杂疾病的研究提供信息。

新生殖系变异识别管道(de novo germline variant calling pipeline)是与华盛顿大学医学院研究人员合作开发的一项技术。该技术将基因组数据的解析时间缩短至一小时以下并能够识别家族史或父母-子女三人组中的新变异。

可在NGC 或 AWS Marketplace 上获得用于加速基因组分析的NVIDIA Clara Parabricks Pipelines。

责任编辑:haq

延伸 · 阅读