DeepMind与Meta科学家推动人工智能与生物学的融合——《华尔街日报》
Steven Rosenbush
AlphaFold团队成员在德国海德堡欧洲分子生物学实验室前合影。AlphaFold的训练数据来源于公共资源库,包括由EMBL欧洲生物信息学研究所管理的数据库。图片来源:Massimo del Prete/EMBLMeta Platforms公司最新发布的能预测数亿种蛋白质结构的工具,是计算生物学领域突破性进展的最新例证,这一突破始于几年前Alphabet公司旗下的一项研究。
一些科学家预计,这类人工智能新系统将加速生命科学领域的研究,尤其是药物开发。
谷歌母公司Alphabet旗下位于伦敦的DeepMind Technologies首次利用人工智能解决了一个困扰科学家50年的难题,替代了速度更慢、成本更高的实验室技术来测定蛋白质的三维结构。这些结构对药物和疫苗开发、气候变化研究等领域至关重要。DeepMind在7月份表示,其于2021年7月首次发布的AlphaFold2人工智能系统已被用于预测科学界已知的几乎所有蛋白质结构。Meta在3月16日表示,其ESMFold系统已用于解析更庞大蛋白质组的结构,包括最难理解的那些——存在于土壤微生物、深海微生物以及人体内部的蛋白质。
Facebook母公司Meta的ESMFold采用了一个大型语言模型,该模型能够基于与OpenAI的ChatGPT相同的技术,从几个字母或单词预测文本。DeepMind则设计了一种采用双神经网络的不同方法。Meta表示其方法比DeepMind快60倍,但准确性较低。
“这些蛋白质极其多样化,人们对它们知之甚少。要达到这个规模并超越它,可能涉及数十亿个序列,预测速度的突破至关重要,“Meta AI研究科学家亚历山大·里夫斯说。通过采用大型语言模型,Meta能够在两周内对超过6亿个蛋白质进行预测,他说。
“借助AI,现在可以深入观察蛋白质的结构和分子尺度上自然界的惊人复杂性,“他说。
自DeepMind取得突破以来,AI在生物学中的应用兴趣激增。
“AlphaFold是蛋白质结构预测的巨大进步。他们的进展激励了我们,引发了一波使用深度学习的新浪潮,“华盛顿大学生物化学家和计算生物学家大卫·贝克教授说。
“ESMFold的优势在于它非常快,因此可以用来预测比AlphaFold更大规模的蛋白质结构,尽管准确性略低,类似于RoseTTAFold,“贝克博士说,他指的是2021年从他的实验室诞生的一个工具。
DeepMind开源了AlphaFold2的代码,使其可以免费供社区使用。科学界已知的几乎所有蛋白质——约2.14亿种——都可以在公开的AlphaFold蛋白质结构数据库中查询。Meta的ESM宏基因组图谱则包含了6.17亿种蛋白质。
投资生命科学技术的成长型股权公司Biospring Partners联合创始人詹妮弗·卢姆表示,过去研究人员需要花费数月甚至数年时间才能确信自己理解了某种蛋白质的结构。“AlphaFold大大缩短了这一过程,使团队能将时间转移到下游的研究和产品开发上,进入其他增值领域。“她说。
AlphaFold系统的研发经历了两个截然不同的阶段,体现了DeepMind将学术研究的严谨性与科技初创企业文化相结合的独特方式,以应对世界上一些最大的科学难题。
DeepMind AlphaFold团队首席科学家约翰·詹珀表示,转折点出现在2018年,当时DeepMind联合创始人兼首席执行官德米斯·哈萨比斯在一次AlphaFold会议上询问团队,是应该解决寻找更好预测蛋白质结构方法的问题,还是应该转向其他课题。
“那是我在DeepMind参加过的最令人不安的会议之一,“38岁的詹珀博士说。他于2017年在芝加哥大学获得理论化学博士学位后加入该实验室。
2018年,AlphaFold1在两年一度的CASP实验中取得了最佳成绩,该实验是科学家们测试各种蛋白质结构预测方法的平台。但DeepMind对此并不满足。
2018年CASP结束后,AlphaFold团队投入大量时间尝试改进AlphaFold1的不同方法,通过测试验证这些方法能否达到实验室测定蛋白质结构的精确度。
这个15至18人的跨学科团队中,大部分成员拥有机器学习背景,其他人则具有生物学背景。“但在项目推进过程中,他们都…实质性地成为了生物学家,“Jumper博士说。AlphaFold的训练数据来自公共资源库,包括欧洲分子生物学实验室下属欧洲生物信息学研究所管理的数据库。
Jumper博士表示,团队持续工作到2019年,他才真正确信他们能够完成使命。
据Jumper博士介绍,传统上生物学家需要借助X射线等技术,通过实验室手段解析单个蛋白质结构,这个过程至今仍可能耗费数年时间和10万美元成本。
虽然计算方法在理解蛋白质结构方面已取得进展,但其准确性始终不足以替代实验室方法。
最初的AlphaFold模型利用人工智能预测氨基酸对之间的距离,这些距离分布数据在第二步用于推导蛋白质的预测结构。第二个步骤中,AlphaFold利用这些信息生成蛋白质的可能构象模型,该环节并未使用人工智能技术。
据Jumper博士介绍,在AlphaFold2中,蛋白质结构完全由神经网络自主预测。科学家解释,该神经网络与一个基于注意力机制的神经网络协同工作,能同时处理结构的各个部分并将其连接起来,其原理类似于人类拼图游戏。“这与时间无关…关键在于准确性,“Jumper博士强调。
DeepMind表示:“在某些情况下,AlphaFold能在20秒内以极高精度预测蛋白质结构。“该公司指出,在AlphaFold问世前,没有任何计算方法能达到实验级别的精确度。虽然该方法存在一定局限性,但"它解决了一个重大难题”,1994年共同创立CASP实验的马里兰大学生物科学与生物技术研究所John Moult教授评价道。
Jumper博士透露:“团队正将注意力转向蛋白质创新的新挑战。”
目前研究致力于理解基因突变与蛋白质功能变化间的关联,以助力疾病治疗。牛津大学团队在多年尝试其他方法未果后,借助AlphaFold成功解析了一种关键蛋白质结构,现正基于此开发疟疾疫苗。“当我们将模型与AlphaFold预测的结构结合时,整个系统的工作原理突然变得清晰可见,“分子寄生虫学教授Matthew Higgins表示。
联系记者Steven Rosenbush请致信[email protected]
出现在2023年3月23日的印刷版中,标题为“Meta工具推动机器学习与科学的融合”。