AtacWorks是一个用于表观基因组学研究的深度学习工具包,能够减少罕见细胞实验与单细胞实验所需的成本和时间。
如同旅行者带着塞满衣服的行李箱一样,人体中的大多数细胞都携带着完整的DNA拷贝,而且细胞核中拥有数十亿个碱基对。
每个细胞只能取出它所需要的基因片段,且不同的基因需要由不同类型的细胞激活,比如肝脏、血液或皮肤细胞等。DNA中决定细胞独特功能的区域为开放区域,因此不难接近,但其余部分被包裹在蛋白质中。
NVIDIA和哈佛大学干细胞与再生生物学系的研究人员开发了一个深度学习工具包,帮助科学家研究这些可接近的DNA区域,包括在样本数据嘈杂或有限的情况下。此类情况经常在癌症和其他遗传疾病的早期检测中出现。
近期,AtacWorks在《自然-通讯》期刊上发表。该工具包既能对测序数据进行去噪,又能识别出可接近的DNA区域。AtacWorks基于NVIDIA Tensor Core GPU,只需要半个小时就能对整个基因组进行推理。NVIDIA Tensor Core GPU可以在NVIDIA的GPU优化软件中心——NGC上获得。
AtacWorks可用于ATAC-seq,ATAC-seq是目前在健康和病变细胞中寻找基因组开放区域,从而为药物研发提供关键洞见的常见方法。
ATAC-seq通常需要数以万计的细胞才能得到一个明确的信号,这使研究罕见的细胞类型变得异常困难,比如产生血细胞和血小板的干细胞。通过将AtacWorks应用于ATAC-seq数据,只需几十个细胞就能获得相同质量的结果,这使科学家能够更多地了解罕见细胞类型中的活动序列,并识别出使人们更容易感染疾病的突变。
论文合著者、哈佛大学副教授兼ATAC-seq方法的开发者Jason Buenrostro表示:“有了AtacWorks,我们就能进行以往需要10倍细胞数量才能进行的单细胞实验。使用GPU加速深度学习对低质量测序的覆盖范围进行去噪,有效地帮助我们研究罕见细胞发育和疾病所引起的表观遗传变化。”
2013年,Buenrostro开发出ATAC-seq这一表观基因组扫描方法。该方法被用于定位染色体内可接近区域的位点(即染色质)。由于可以测量整个基因组中每个区域的信号强度,这个方法受到了顶尖基因组学研究实验室和制药公司的欢迎。信号中的峰值表示DNA的开放区域。
可用的细胞越少,数据就越嘈杂,因此很难确定DNA的哪些区域是可接近的。
AtacWorks是一个基于PyTorch的卷积神经网络。该神经网络使用经过标记的匹配ATAC-seq数据集配对进行训练,其中一个是高质量的数据集,另一个是有噪声的数据集。通过数据的降采样副本,该模型可预测准确的高质量版本并识别信号中的峰值。
研究人员发现,他们可以使用AtacWorks在有100万个读段的嘈杂序列中识别可接近的染色质,而且几乎与传统方法使用5000万个读段的干净数据集所取得的效果一样好。凭借这一能力,科学家们可以使用比较少量的细胞进行研究,从而大大降低样品采集和测序的成本。
AtacWorks还在提高分析的速度的同时,降低了分析成本。基于NVIDIA Tensor Core GPU运行时,该模型推理整个基因组所需的时间不到30分钟。而在有32个CPU核的系统上,这一过程需要15个小时。
该论文的首席作者兼NVIDIA研究人员Avantika Lal表示:“对于非常罕见的细胞类型,仅凭现有的方法无法研究其DNA差异。AtacWorks不仅帮助降低了采集染色质可接近性数据的成本,还能为药物研发和诊断提供新的可能性。”
观察DNA的可接近区域可以帮助医学研究人员判断使人们更容易罹患阿尔茨海默症、心脏病或癌症等疾病的特定突变或生物指标。这些知识也可以为药物研发提供洞见,让研究人员更好地了解疾病的机制。
在这篇发表在《自然-通讯》上的论文中,哈佛大学的研究人员将AtacWorks应用于干细胞数据集。干细胞是红细胞和白细胞的来源,而且属于无法用传统方法研究的罕见亚型。
在一个仅有50个细胞的样本组中,该团队能够使用AtacWorks识别出与发育成白血球的细胞相关的不同DNA区域,以及与红血球相关的独立序列。
如欲进一步了解NVIDIA在医疗健康领域的工作成果,欢迎观看4月12日至16日举行的GTC 2021。大会免费注册观看。医疗健康分论坛包括16场直播网络研讨会、18场特别活动和超过100个演讲视频,其中包括Avantika Lal的演讲《用于表观基因组学数据的深度学习和加速计算》。
这篇《自然-通讯》论文的DOI号是10.1038/s41467-021-21765-5