《自然-生物技术》:人工智能有望在最短的时间内发现更多新型抗生素_风闻
中国生物技术网-中国生物技术网官方账号-2022-05-13 09:10

抗生素是全球健康的重要组成部分,它通过杀死或抑制细菌生长,帮助人类治疗肺炎、葡萄球菌和肺结核等感染性疾病,使人类的预期寿命从上个世纪开始延长了至少20年。然而,这个曾经的功臣目前已成为人类面临的十大公共卫生威胁之一。
全世界每年有127万人死于耐药性细菌感染。如果没有新的抗菌素疗法,严重感染造成的发病率和死亡率将增加,预计到2050年,因无法治疗的感染造成的死亡人数将达到每年1000万人。我们该如何应对这种威胁?
早在2017年,世界卫生组织就指出,目前正在研发的抗生素远不足以应对多重耐药性造成的感染与并发症,且耐药性增强的速度远超抗生素的研发速度。
世卫组织已经强调了五种称为ESKAPE病原体的细菌,它们是经常表现出多重耐药性的优先病原体。而用生物制品替代抗生素将有助于解决耐药性的问题。
2022年5月6日,美国宾夕法尼亚大学机器生物学组助理教授Cesar de la Fuente-Nunez博士在**《Nature Biotechnology》**上发表了一篇题为“Antibiotic discovery with machine learning”的观点文章。

抗菌肽(AMP)是一种长度通常为8-50个氨基酸的小蛋白质,可以提供对病原体的保护作用。由于AMP不太可能引起耐药性,因此是传统抗生素的替代品。然而,这些分子中只有少数进入了临床试验,其中几十个正在进行临床前试验。
目前,使用微生物组数据的高通量方法扩大了对有前景抗菌肽的搜索,可能为对抗抗生素耐药性的病原体提供了新的候选药物来源。
近日,发表在**《Nature Biotechology》**上的一项研究中,中国科学院微生物研究所王军研究员和陈义华研究员团队合作,利用机器学习方法,从一万多个肠道微生物中“海淘”出三个具有显著活性和安全性的抗菌肽“潜力股”。

这种新方法有助于将依靠艰苦的试错实验研究迈向新的通过机器学习快速发现分子的时代。

还有几个研究团队正在使用机器学习来发现新的抗生素,包括使用预测模型和生成模型。生成模型已被用于设计在动物中具有疗效并显示出低毒性的新型AMP。深度学习和其他算法已经成功地重利用以前未被识别的具有抗生素活性的分子,并在人体中发现具有抗菌特性的隐性肽。令人兴奋的是,比较基因组学管道已经被开发出来,可以探索人类微生物组以发现生物活性肽和微生物蛋白。
王军和陈义华团队通过对大规模宏基因组数据进行搜索,识别出与已知AMP相似的序列,作为设计用于AMP识别的管道。他们结合了几个基于深度学习的自然语言处理模型(如循环和注意力神经网络),并对其性能进行优化。为了训练数据,该团队还使用了大量来自蛋白质序列数据库UniProt的非AMP数据集,以增加用于模型训练的数据集,同时最小化假阴性的可能性。
研究人员总共检索出4409个代表性基因组,并从长度为6至50个氨基酸的表达蛋白中筛选出了2349个候选AMP。接下来,该团队研究了基因表达数据、相对丰度和与选定细菌的关联,以从列表中删除不太可能的AMP。这一步鉴定出241条抗菌肽序列。一旦确定了这些候选肽,研究人员就用化学方法合成这些肽,并在体外评估了它们的抗菌活性。
在241个多肽中,研究人员合成了216个,其中181个具有抗菌活性,命中率为83.8%,优于先前的工作。
这些算法的一个潜在限制是它们倾向于偏差。例如,UniProt中存在的大量肽序列以甲硫氨酸开始,由起始密码子AUG指定,但与生物活性无关。这可能会使训练产生偏差,因为机器学习方法将在考虑甲硫氨酸的情况下构建具有明显(和高估)高精度的预测器。额外的偏差可能会进一步限制旨在药物发现的机器学习工作。然而,**王军和陈义华团队合成并实验验证了肽的抗菌活性,表明尽管存在潜在的偏差,但他们的机器学习模型仍然能够有效地发现AMP。**未来的工作应着重于生成强大的训练集和最佳模型,并对所有(或大多数)在计算机预测和生成的序列进行实验验证。
我们选择了对耐药性细菌(包括ESKAPE病原体)具有最强抗菌活性的11个AMP进行了深入的特征分析。在这11个序列中,有7个来自人类肠道微生物组中的一个优势属,这表明该菌群可能是AMP的一个来源。肽c_AMP1043显示出最强的抗菌活性,对所有测试的临床分离物的最小抑制浓度