四分之三的 DNA 序列如何被激活?Nature 新论文报道人工智能获得的重要突破

来源: 生物通 / 作者: 万纹 / 时间: 2020-09-10
2

科学家们早就知道,人类基因会依照我们 DNA 的精确顺序传递的指令付诸行动,这些指令由四种不同类型的单个的碱基分别编码:A,C,G 和 T。

众所周知,将近 25% 的基因被类似于 TATAAA 的序列(称为 “TATA 框”)转录,那其它 75% 的基因是如何开启的呢?这依然是一个谜。

最新一项研究中,加州大学圣地亚哥分校的研究人员确定了一种 DNA 激活码,他们称其为下游核心启动子区域(downstream core promoter region,DPR),这一发现最终可用于控制生物技术和生物医学应用中的基因激活。

相关成果公布在 9 月 9 日的 Nature 杂志上。

文章深作者 James T. Kadonaga 说:“DPR 的鉴定揭示了激活我们大约四分之一至三分之一基因的关键步骤。DPR 一直是一个谜,它是否甚至存在于人类中一直存在争议。幸运的是,我们已经能够通过使用机器学习解决这个难题。”

1996 年,Kadonaga 及其同事在果蝇中发现了一种新的基因激活序列,称为 DPE(DPR 的一部分),该序列可使基因在没有 TATA 框的情况下被打开。之后在 1997 年,他们在人类中发现了一个类似 DPE 的序列。但是,从那时起,对人类 DPE 的细节和流行程度的解读就变得扑朔迷离。最惊人的是,在成千上万的人类基因中仅发现了两个或三个活跃的 DPE 样序列。

20 多年后,为了解答这个谜题,Kadonaga 与博士后学者 Long Vo ngoc,Cassidy Yunyun Huang,Jack Cassidy(已退休的计算机科学家)合作利用强大的人工智能工具得到了答案。

研究人员汇集了 500,000 个随机版本的 DNA 序列,并对每个序列的 DPR 活性进行了评估。从那里开始,使用 200,000 个版本创建可以准确预测人类 DNA 中 DPR 活性的机器学习模型。

结果正如 Kadonaga 所描述的那样,“非常好”。他们创建了类似的机器学习模型,作为识别 TATA 框序列的新方法。他们用成千上万的测试评估了新模型,其中的 TATA 盒和 DPR 结果是已知的,而且研究人员发现其预测能力是 “令人难以置信的”。

这些结果清楚地揭示了人类基因中 DPR 基序的存在。此外,DPR 的出现频率似乎与 TATA 盒的发生频率相当。研究人员观察到了 DPR 和 TATA 之间的有趣双重性——用 TATA 框序列激活的基因缺少 DPR 序列,反之亦然。

Kadonaga 指出,在 TATA 框序列中找到 6 个碱基很简单。在 19 个基准点上,破解 DPR 的代码更具挑战性。

“找不到 DPR,因为它没有明显的序列模式。在 DNA 序列中存在被加密的隐藏信息,使其成为活跃的 DPR 元素。机器学习模型可以解密该代码,但是我们人类却不能。”

展望未来,将人工智能进一步用于分析 DNA 序列模式应会提高研究人员对人细胞中基因激活的理解和控制能力。 Kadonaga 说,这种知识可能对生物技术和生物医学领域有用。

“机器学习使我们能够识别 DPR,相关的人工智能方法可能对研究其他重要的 DNA 序列基序很有用。许多无法解释的事情现在可以解释了。”

声明:本网所有文章(包括图片和音视频资料)系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(edit@bio360.net ),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。