强生公司雇佣了数千名数据科学家这一策略会奏效吗?——《华尔街日报》
Peter Loftus | Photographs by Michael Bucher/The Wall Street Journal
强生公司正在医疗保健行业进行最大胆的赌注之一,即利用数据科学和人工智能来加强其工作。
这家拥有137年历史的制药和医疗器械公司近年来雇佣了6000名数据科学家和数字专家,并投入数亿美元用于他们的工作,例如使用机器筛选庞大的健康记录数据集。去年,该公司在旧金山附近开设了一个拥有先进数据科学技术的现代化研究基地。
一些早期努力集中在诊断领域,比如一种算法可以分析心脏测试,比人类更早发现一种致命的高血压类型,以及语音识别技术通过分析言语来发现阿尔茨海默病的早期迹象。还有一套虚拟现实眼镜,用于帮助外科医生进行膝关节置换等手术的训练。
然而,长期目标是一个备受炒作但缺乏具体证据证明其能实现的目标:利用人工智能进行药物发现。
初创生物技术公司正处于人工智能发现药物的人体测试初期。谷歌今年推出了基于云端的人工智能工具,以协助制药商寻找新疗法。但距离监管机构批准人工智能发现的药物上市可能还需要数年时间。
一些制药行业的领导者曾表示怀疑,认为人工智能在发现新药方面可能永远不会比人类做得更好。
强生公司表示其拥有独特优势:一个名为med.AI的海量数据库,可通过筛选数据模式来加速药物研发。该数据库包含"真实世界数据"(从日常患者就诊记录中收集的匿名信息)以及多年临床试验结果。
强生生物特征平台采用自动化筛查技术提供数百万数据点。人工智能和机器学习算法能解析数据,协助识别化合物并发现潜在新药的全新作用机制。“人工智能与数据科学将成为我们转型创新的核心,“强生制药研发部门首席数据科学官兼全球战略与运营负责人纳贾特·汗表示,“数据量持续增长,算法不断优化,计算能力也在快速提升。”
强生透露已运用机器学习技术辅助设计一款实验性抗癌药物,该药物计划于明年进入人体试验阶段。
汗指出强生战略的三大差异化特点:数据科学团队深度参与公司药物研发战略决策;庞大的med.AI数据库(存储量超过3PB)向数万名员工开放;招聘兼具数据科学与化学、生物学或药物开发技能的复合型人才。
拥有有机化学博士学位的汗,在2018年加入强生公司之前,曾为波士顿咨询集团工作,为制药公司提供研发战略咨询。她被选中领导数据科学在制药研发业务中的应用,并与科学家们并肩工作。
分析师认为,强生是对人工智能承诺最积极的大型制药公司之一。市场情报公司CB Insights最近在其制药人工智能准备度指数中,将强生列为50家公司中的第三位,该指数跟踪公司的专利申请、投资、交易和其他与人工智能相关的努力。
强生庞大的业务——拥有超过13万名员工和800亿美元的全球年销售额——多年来一直有基于数据的项目,但公司领导层大约在十年前开始采取更协调的方法,并在大约四年前加大了投资。
如今,公司大多数药物开发项目都融入了数据科学的某些方面,而五年前只有少数项目如此。其位于加利福尼亚州布里斯班的研究基地,将数据科学项目与专注于视网膜和传染病治疗的研发项目并列。强生的许多数据工作人员分布在美国、中国和比利时等多个公司地点。
此图展示了筛选数百种化合物以确定最佳化合物和最佳剂量,以破坏蛋白质-蛋白质相互作用,作为潜在的癌症治疗方法。强生制药研发前负责人马泰·马门表示,追求精准医疗是推动因素之一。他在2018年至今年早些期间负责构建强生的数据科学能力。精准医疗旨在根据患者疾病的基因或其他变异特征提供个性化治疗方案。强生希望通过智能利用数据,揭示疾病的分子特征及如何针对这些特征开发靶向药物。
“我们更有可能在全球范围内找到适合的患者,并为其匹配真正有效的药物,“现任生物科技公司FogPharma首席执行官的马门表示。
在近期一个项目中,强生科学家牵头13家药企合作,分析了英国生物银行国家数据库中5万余人血液样本。他们发现了数千种影响特定血液蛋白水平的基因变异,其中约80%属首次发现。
强生计划用人工智能和机器学习分析该数据集以识别模式,这可能催生针对基因-蛋白质与疾病关系的新药或诊断方法。传统做法是通过查阅学术文献寻找分子靶点,而AI方法能更快发现更多潜在靶点。
该公司还运用AI算法研究活检数字化图像,以检测肿瘤间的细微差异,从而识别特定肿瘤的基因亚型。研究人员可利用这些信息开发针对特定基因亚型的药物。
强生公司策略的一个标志性特点是合作——与数据科学初创企业等外部伙伴建立了超过50项合作关系。Emerj人工智能研究公司(一家位于波士顿、专门研究企业AI应用市场调研的机构)的首席执行官兼研究主管丹尼尔·法杰拉表示:“相较于其他生命科学公司,他们似乎正以更具风险投资意味的方式,加大对其他公司、初创企业和创新项目的投资力度。”
其中一个与梅奥诊所及马萨诸塞州剑桥市健康科技公司Anumana合作的项目,旨在加速肺部高血压(即肺动脉高压)的诊断。目前确诊这种致命疾病可能需要两年甚至更长时间。
强生及其合作伙伴汇集了600万份去标识化的患者记录,包含超过800万份心电图读数。心电图(ECG)是记录心脏电信号的过程。他们将数据输入软件算法,训练其识别后来被确诊为肺动脉高压患者的心电读数特征模式。强生表示,将该算法与心电图结合使用,可将肺动脉高压的确诊时间缩短12至18个月。
美国食品药品监督管理局(FDA)已授予该算法"突破性设备"认定,该称号针对可能改善重大疾病诊断或治疗的产品。FDA目前尚未批准该算法,但决定可能在明年作出。
记者彼得·洛夫特斯联系方式:[email protected]
出现在2023年12月1日的印刷版中,标题为’强生公司招募数千名数据科学家押注健康领域’。