新型人工智能模型学习 DNA 的隐藏语言

导读 DNA 包含维持生命所需的基本信息。了解这些信息如何存储和组织一直是上个世纪最大的科学挑战之一。借助 GROVER(一种以人类 DNA 为训练
2024-08-06 11:33:45

DNA 包含维持生命所需的基本信息。了解这些信息如何存储和组织一直是上个世纪最大的科学挑战之一。

借助 GROVER(一种以人类 DNA 为训练基础的新型大型语言模型),研究人员现在可以尝试解码隐藏在我们基因组中的复杂信息。

GROVER 由德累斯顿工业大学生物技术中心 (BIOTEC) 的一个团队开发,它将人类 DNA 视为文本,学习其规则和背景,从而提取有关 DNA 序列的功能信息。这款新工具发表在《自然机器智能》杂志上,有可能改变基因组学并加速个性化医疗。

自从发现双螺旋结构以来,科学家们一直试图了解 DNA 中编码的信息。70 年后,人们清楚地认识到 DNA 中隐藏的信息是多层的。基因组中只有 1-2% 由基因(编码蛋白质的序列)组成。

“DNA 除了编码蛋白质之外,还有许多其他功能。一些序列调节基因,另一些序列用于结构目的,大多数序列同时发挥多种功能。目前,我们还不了解大多数 DNA 的含义。在理解 DNA 的非编码区域方面,我们似乎才刚刚开始触及表面。这正是人工智能和大型语言模型可以提供帮助的地方,”BIOTEC 研究小组负责人 Anna Poetsch 博士说。

DNA 是一种语言

大型语言模型(如 GPT)彻底改变了我们对语言的理解。大型语言模型仅基于文本进行训练,因此具备了在多种语境中使用语言的能力。

“DNA 是生命的密码。为什么不把它当成一种语言呢?”Poetsch 博士说。Poetsch 团队在参考人类基因组上训练了一个大型语言模型。由此产生的工具名为 GROVER,即“通过提取表征获得的基因组规则”,可用于从 DNA 中提取生物学含义。

“GROVER 学习了 DNA 的规则。就语言而言,我们谈论的是语法、句法和语义。对于 DNA,这意味着学习控制序列的规则、核苷酸和序列的顺序以及序列的含义。就像 GPT 模型学习人类语言一样,GROVER 基本上学会了如何‘说’DNA,”该项目的研究员 Melissa Sanabria 博士解释道。

研究团队表明,GROVER 不仅可以准确预测后续的 DNA 序列,还可以用于提取具有生物学意义的上下文信息,例如识别 DNA 上的基因启动子或蛋白质结合位点。GROVER 还可以学习通常被认为是“表观遗传”的过程,即在 DNA 之上发生而不是被编码的调控过程。

免责声明:本文由用户上传,如有侵权请联系删除!