《华尔街日报》:AI加速实现像编程一样操控生物技术
Steven Rosenbush
人工智能正在加速推动生物学研究的前沿发展,帮助科学家像软件工程师编写代码那样对生物体进行编程。一些科学家甚至开始创造自然界中不存在的新蛋白质。
这个被称为合成生物学的领域,正在打破医学与制药、食品科学与农业、能源及气候变化研究之间的壁垒。
合成生物学作为一个广义术语,常被用来描述对现有蛋白质或生物材料进行重编程或改造,以实现新功能或目标的做法。“你实际上是在编码和编程一个细胞,让它产出特定物质,“生命科学技术投资公司Biospring Partners的联合创始人詹妮弗·卢姆解释道。
云计算和分布式计算的兴起推动了这一进程,使得处理更大规模数据集成为可能。卢姆指出,科学家现在能以更快速度和更大规模进行基因与DNA测序。随着对特定类型细胞DNA组成和功能的深入了解,科学家能够操控并重新设计这些细胞,从而获得从生物燃料到抗病作物等各种预期成果。
“这既压缩了研究时间,又拓宽了实验范围,使科学家能在更广泛的设计方案上进行测试,“她在描述这些因素的影响时说道,同时提醒仍需攻克诸多挑战。
卢姆表示,近期一系列突破性发现之所以成为可能,正是得益于更强大的计算能力。科学家能更精准地模拟和研究由DNA序列编码的蛋白质相互作用。
尽管通过合成生物学生产的产品仍需经过标准监管程序,但这项技术可能引发更严格的监管需求,并面临公众接受度和信任度的挑战。
“广义而言,合成生物学涵盖了生物医学领域的大部分研究工作。即我们如何首先理解生物体,然后利用这种理解来编程或引导它们执行不同任务,“斯坦福大学医学院院长兼医疗事务副校长洛伊德·迈纳博士表示。“我确实认为它在各个领域都具有巨大潜力。”
“生物学的挑战在于,改造生物体、设计生命系统去做可能极具危害性的事情并不十分困难。因此我们该如何思考生物领域的监测、监管和安全监督问题,“他补充道。
合成生物学企业发现,人工智能在产品开发全周期中均存在应用机遇——从初期设计阶段(科学家可借此分析更多变量和选项),到构建阶段,再到测试环节(利用其预测能力快速确定结果)。
据卢姆所言,AI在规模化生产阶段也能发挥作用,这是产品实现应用的关键步骤。同时可能产生重大经济影响。
据MarketsandMarkets研究机构数据,2022年全球合成生物学市场规模达114亿美元,预计将以25.6%的年复合增长率增长,到2027年达到357亿美元。
华盛顿大学生物化学与计算生物学教授大卫·贝克运营的实验室里,研究人员已设计出多种新型蛋白质,其用途涵盖药物开发及获韩国批准的SKYCovione新冠疫苗等领域。拥有近80名博士前/后研究人员的贝克实验室隶属于该校蛋白质设计研究所。
贝克博士指出,得益于深度学习与实验室验证技术的结合,过去两年该领域的创新速度提升了十倍。研究人员通过实验确保新型蛋白质能按预期发挥作用。
据贝克博士介绍,实验室正开展癌症疗法、流感疫苗、乳糜泻及克罗恩病治疗等多项研究。
“这完全是科幻情节。至今我仍难以置信这些能实现,“他坦言。
实验室数据显示,过去二十年已孵化17家衍生企业(部分由贝克博士参与创立),仅今年还将诞生3-4家初创公司。
其中Arzeda公司展现了合成生物学从实验室走向多元商业市场的路径。这家西雅图初创企业运用智能蛋白质设计技术开发酶和蛋白质序列,融合生成式AI、其他人工智能及基于物理模型的传统算法。联合创始人兼CEO亚历山大·赞格利尼表示,公司通过实验室验证后,与代工合作伙伴共同开发规模化生产的成本优化方案,并与联合利华等可参与研发投资的伙伴进行产品分销。
例如,Arzeda公司表示已开发出用于提升甜菊植物提取物转化为高纯度、更高价值甜味剂形态的酶技术。尽管其他企业能通过传统方法实现这一转化,但Zanghellini指出,Arzeda凭借其计划在第四季度上市的ProSweet Enzymes,可大幅降低该工艺成本。
“蛋白质设计是如此复杂的问题,人类根本无法完成我们人工智能能解决的任务。”Zanghellini说道。
Arzeda透露正与联合利华合作设计既能提升性能又具可持续性的洗涤剂酶。
该公司迄今已筹集5100万美元,拥有65名员工,主要分布在西雅图。
Zanghellini认为,当前认知的合成生物学在过去三四年因大语言模型、生成式AI等创新及更多训练数据的可获得性而迅猛发展。
“变化是颠覆性的。我们看到设计速度大幅提升——可以说在生物设计与编程方面快了五到十倍。”Zanghellini表示,“这让我们能突破自然界的限制,影响极为深远。”
巴拉圭某种植园的甜菊幼苗。Arzeda称其开发的酶技术可将该植物提取物转化为更高价值的甜味剂形态。照片:豪尔赫·阿多诺/路透社尽管合成生物学取得了进展并展现出前景,但它仍是一个新兴领域,在推广和成长过程中面临障碍。卢姆表示,与其他行业相比,合成生物学乃至整个生命科学领域在利用人工智能方面存在一些局限性。她指出,近期基于语言和图像训练的人工智能模型突破性进展,得益于互联网上"海量数据"和系统化知识的支持。而在生物学和生命科学领域,许多重要发现尚未实现。现有数据中,很大一部分未以最有效的方式格式化,且相当比例未向公众开放。
“我认为目前在这个领域应用人工智能所能取得的进展,无法与其他某些行业相提并论,“她说,“但我相信这一天终将到来。只是由于数据障碍,这个过程会相对缓慢。”
汤姆·洛夫特斯对本文亦有贡献。
联系作者史蒂文·罗森布什:[email protected]