Meta AI解锁数亿蛋白质结构助力药物研发 - 《华尔街日报》
Eric Niiler
Meta AI研究人员使用名为ESMFold的新型人工智能工具,生成了这一百万种蛋白质的数字图谱。图片来源:ESMATLASFacebook母公司Meta Platforms公司开发出一款利用人工智能预测数亿种蛋白质结构的工具。研究人员表示,该工具将深化科学家对生物学的理解,并可能加速新药研发。
Meta旗下研究机构Meta AI采用名为ESMFold的新型AI计算机程序,建立了包含6.17亿种预测蛋白质的公共数据库。蛋白质是生命体及许多药物的基本构成单元,对组织、器官和细胞的功能至关重要。
基于蛋白质的药物可用于治疗心脏病、某些癌症和艾滋病等疾病,许多制药公司已开始利用人工智能研发新药。使用AI预测蛋白质结构不仅有望提升现有药物及候选药物的疗效,还能帮助发现治疗疑难病症的分子。
通过ESMFold,Meta正与谷歌母公司Alphabet旗下DeepMind Technologies开发的AlphaFold蛋白质预测模型展开竞争。AlphaFold去年宣布其数据库包含2.14亿种预测蛋白质,可助力加速药物研发。
Meta表示,ESMFold的速度比AlphaFold快60倍,但准确性稍逊。由于ESMFold能对先前未研究的基因序列进行预测,其数据库规模更为庞大。
据《科学》期刊周四发表论文的合著者、Meta AI研究科学家亚历山大·里夫斯介绍,预测蛋白质结构有助于科学家理解其生物功能。该论文已于2022年11月发表在预印本服务器上。
“具有相似结构的蛋白质往往具有相似的生物功能,“里夫斯博士表示,“如果能获得极高分辨率的蛋白质结构,就能进一步探究这些蛋白质的实际生化功能。”
Meta称,ESMFold预测的蛋白质中约三分之一能达到高置信度。
过去十年间,科学界持续探索着蛋白质结构及功能的预测方法。由于蛋白质在形成最终结构前会不断折叠重组,传统测定方法既困难又昂贵。与使用原子级显微镜观测不同,新型AI模型能在数小时或数日内完成过去需要数月乃至数年的蛋白质结构预测。
Meta研究人员采用了一种大型语言模型AI进行预测,该技术仅需少量字母或单词即可预测文本内容。这与OpenAI的ChatGPT生成类人回应的底层技术相同。
Meta科学家们向ESMFold程序输入了一系列代表蛋白质遗传密码的氨基酸字母。该AI模型随后学会了如何填补序列中空白或隐藏的部分。在生成完整序列后,ESMFold便能通过学习已知蛋白质序列与科学家已充分理解的结构之间的关系,来预测新蛋白质的结构。
Meta科学家表示,ESMFold的优势在于其预测蛋白质结构的速度,使研究人员能够快速筛查大型基因数据库,寻找在医学、健康、食品和环境领域的潜在应用。
“这是一项重大成就,但它很大程度上依赖于前人工作,“卡内基梅隆大学计算生物学家奥列克桑德尔·伊萨耶夫表示,他未参与此项研究。
一位生物科技公司高管表示,由于准确性考量,他更倾向于选择AlphaFold而非ESMFold。“瓶颈不在于计算能力,所以速度更快并不代表更好,更准确才是关键,“Chris Bahl说道,他是波士顿初创企业AI Proteins的首席科学官兼联合创始人,该公司正利用人工智能工具开发合成蛋白质。
Rives博士透露,目前已有多个学术研究团队和生物技术公司开始使用ESMFold。
据Meta发言人介绍,自2022年发布以来,ESMFold模型每月下载量约达25万次,每小时可预测1000种蛋白质结构。
根据DeepMind数据,自2021年AlphaFold首次发布以来**,**已有190多个国家的超100万名研究人员和生物学家使用该数据库查看了300万种蛋白质结构。
“从我们目前观察到的情况来看,像ESMFold这样的蛋白质语言模型在准确性上尚未达到理想水平,其预测精度低于AlphaFold等模型,”DeepMind的一位女发言人表示。“不过,我们预计ESMFold数据库的许多案例中仍会有优质预测结果。”
据生物科技公司Evozyne联合创始人、芝加哥大学分子工程学副教授安德鲁·弗格森分析,DeepMind和Meta各自的人工智能预测模型各有所长,都将推动新发现。“它们具有互补性,”弗格森博士评价道,并补充说Meta的AI模型“是个非常精妙的设计”。
Evozyne与科技公司英伟达合作开发了能跳过蛋白质结构、直接预测其生物功能的专属语言模型。根据1月份发布于预印本服务器的论文,该公司已运用该模型成功研发出两种蛋白质。
联系记者埃里克·尼勒,邮箱:[email protected]
本文发表于2023年3月17日印刷版,标题为《新型AI工具旨在加速药物研发》。