谷歌DeepMind的AI模型通过分析人类基因预测患病风险——《华尔街日报》
Jo Craven McGinty
左侧HBB基因(编码血红蛋白亚基β-珠蛋白)的突变可能导致镰刀型贫血症,而离子通道蛋白CFTR的突变则可能引发囊性纤维化。图片来源:谷歌DeepMind生物学家面临的最大挑战之一,是甄别人类遗传密码中哪些变异可能导致疾病。人工智能正在帮助解决这一难题。
谷歌母公司Alphabet旗下DeepMind Technologies开发的机器学习模型,已对蛋白质结构中7100万种可能引发人体疾病的基因突变进行了分类。
蛋白质对人体组织器官功能至关重要。每种蛋白质基于特定氨基酸序列形成独特结构,决定其功能与作用机制。虽然多数蛋白质结构变异无害,但某些突变会直接导致疾病。
血液中运输氧气的血红蛋白若出现变异,会引发镰刀型贫血;而调控细胞内外盐分与液体流动的蛋白质若发生突变,则会导致囊性纤维化。
DeepMind的AlphaMissense人工智能模型能评估蛋白质结构变异,并预测突变致病的可能性。该模型专门检测"错义"突变——即蛋白质序列中单个氨基酸发生改变的变异类型。
“这是你最常见到的变异类型,”谷歌DeepMind研究科学家、项目负责人及该研究的合著者程军表示,该研究于周二发表在《科学》期刊上。
该模型评估了超过19,000种人类蛋白质中2.16亿种可能的单氨基酸变化,并预测出7,100万个错义变异。通过依赖生物数据中的模式,模型预测了变异致病的概率。研究人员发现32%的变异可能致病,57%可能是良性的。
相比之下,在人类中观察到的400万个错义变异中,仅有2%被分类为良性或致病性,其余均未分类。
AlphaMissense建立在DeepMind科学家此前利用人工智能预测蛋白质结构的研究基础上。那个名为AlphaFold的项目根据氨基酸序列编录了超过2亿种蛋白质的三维结构。
借助AlphaMissense,研究人员着手评估这些结构变化的潜在影响。谷歌DeepMind研究副总裁、该研究合著者之一普什米特·科利将这一过程比作为句子选择正确的词语。
“如果你替换英语句子中的一个词,立刻就能看出替换是否改变了句子的含义,”他说。
研究人员将他们的模型与四个基准进行了测试,包括专家整理的数据库和测量基因突变影响的实验测试——这些方法既昂贵又耗费人力。他们表示,他们的模型显示出高度一致性,并且比其他类似的人工智能工具表现更优。
DeepMind正在公开其错义突变目录,以帮助分子生物学家、遗传学家和医生改进罕见病诊断,并开发针对这些疾病遗传原因的治疗方法。
在《科学》杂志的一篇相关文章中,未参与该项目的爱丁堡大学计算蛋白质生物学主席约瑟夫·A·马什和威康桑格研究所细胞遗传学负责人莎拉·A·泰希曼称赞了这项工作,但表示其当前实用性有限。
“目前的计算预测工具被认为可靠性不足,无法单独用于基因诊断,”马什说。
请致信乔·克雷文·麦金蒂,邮箱:[email protected]
本文发表于2023年9月20日的印刷版,标题为《谷歌DeepMind的人工智能用于疾病基因搜索》。