中华网四川消息(刘文君)从24小时到7分钟,四川大学华西医院(以下简称“华西医院”)生物医学大数据中心将人类全基因组测序时间从以小时计缩短至以分钟计,刷新了基因分析的“中国速度”。这也意味着,该项研究成果将直接加速基因测序从科研到临床的进程,未来会有更多精准的基因数据辅助于医疗诊断及治疗。
据了解,基因测序和分析技术现已应用于生育健康、肿瘤个体化诊断和治疗、遗传病、传染病检测、疫苗研发等领域。而生物信息作为“医学+信息”研究领域的主战场之一,华西医院为该领域,率先启动了“十万中国罕见病患者全基因组测序计划”项目。
但完成如此庞大的队列研究,其中一只不可避免的挑战就是——时间。按照传统技术30X人类全基因组数据分析24小时/例的速度计算,该项目投入100台计算机也需要30多年才能完成。为此,2021年6月,华西医院联合华为、赛乐基因组建联合研发团队,开展多组学数据加速分析平台系统的开发,旨在打造坚实的科研基础底座。
据该项目负责人、华西生物医学大数据中心于浩澎副研究员介绍,之所以能实现时间上质的突破,根本在于打破计算算力和储存性能的瓶颈。他将其形象地比喻为吃得快的“大嘴巴”和装得下的“大肚子”:“大嘴巴”实现了大文件的直通读取和小文件的聚合读取,数据读取的效率更高,“大肚子“可以对数据分析的各个作业流程进行融合调度的优化,I/O流更加顺畅,从而实现了“吃得更多、消化更快”。
研发团队在全基因组数据分析加速上,以GATK(The Genome Analysis Toolkit)流程为基础,经过不断的流程拆分与重组改写、不断的分布式存储软硬优化打磨,最终完成了速度的飞跃,实现了30X人类全基因组测序胚系变异分析时间从24小时到7分钟的极限压缩,同时保证了分析结果的准确性:和GATK结果高度一致。
据悉,华西医院生物医学大数据中心本着“开放、创新、共享”的宗旨,依托四川大学超前部署学科“医学大数据“和四川大学“医学+信息“中心持续推进医工交叉融合研究创新,与华为、赛乐的基因加速合作项目与研发成果应用是一个成功案例。基于大数据与人工智能技术,华西医院深度推进医工融合、联合创新,力争构建覆盖全生命周期的健康服务体系。(四川大学华西医院供图)