谷歌针对医疗行业的Med-PaLM AI产品尚未准备好接待患者 - 彭博社
Davey Alba, Julia Love
AI算法已经被用于医疗保健领域的特定任务,比如在医学影像中,或者帮助预测哪些住院患者最容易患败血症。
摄影师:Chinnapong/iStockphoto2022年2月的一天,谷歌母公司Alphabet Inc.的两位AI研究员发现自己沉浸在关于人工智能及其在医疗保健领域实际应用潜力的讨论中。
当Alan Karthikesalingam和Vivek Natarajan讨论如何将谷歌现有的AI模型应用于医疗环境时,他们的对话持续了数小时,直到晚餐时在靠近这家科技巨头Mountain View总部的一家餐厅里吃印度薄饼。当晚结束时,Natarajan已经起草了一份描述大型语言模型在医疗保健领域可能性的文件,包括研究方向及其挑战。
他们的工作开启了谷歌研究人员称之为他们在谷歌工作期间经历过的最激烈的研究冲刺之一。这最终导致了Med-PaLM的发布,研究人员表示该AI模型有潜力通过允许医生快速检索医学知识来支持他们的临床决策而彻底改变医疗保健。大型语言模型是大规模的AI系统,通常摄取大量数字文本,但Karthikesalingam和Natarajan设想了一个将接受专业医学知识训练的系统。
支撑AI模型的同行评审研究已经被《自然》科学期刊接受,谷歌周三表示。公司称这使其成为首家在该期刊上发表详细介绍AI模型回答医学问题的研究的公司。
这篇论文包含了一些令人惊讶的结果。当模型被提出医学问题时,一群临床医生评价其回答与科学共识一致的比例为92.6%,仅略低于现实生活中医疗专业人员获得的92.9%得分,根据《自然》杂志的一份声明,尽管医生对Med-PaLM的评估并非基于其在医院环境中部署并考虑真实患者变量。研究还发现,模型的回答中只有5.8%可能会造成伤害,优于医生们取得的6.5%的比例。
AI Now Institute的管理总监Sarah West表示,虽然在科学期刊上发表文章表明了对谷歌研究结果的一定学术监督,但这并不足以成为准备在真实医疗环境中使用AI系统的标准。“在将系统部署到商业应用之前,你需要了解各种信息,以便有意义地评估系统,”她说。“如果他们要为特定的临床环境定制系统,你需要在每家医院的层面上审视这个系统。”
在没有其他独立测试或评估要求的情况下,“我们陷入了一个境地,必须依赖公司的承诺,他们在部署之前已充分评估了”AI系统,West补充道。
Med-PaLM仍处于早期阶段。公司在过去几个月才开始向一小部分医疗保健和生命科学组织开放该模型进行测试,公司表示该模型距离在患者护理中使用还有很长的路要走。参与该模型研究的谷歌研究人员表示,未来,Med-PaLM可能具有为医生提供专家咨询的潜力,帮助减轻临床文档工作的繁琐,并将护理延伸到那些可能完全得不到任何形式医疗护理的人群。
“我们能够激发医疗人工智能社区认真思考基础模型在医疗保健领域的潜力吗?”这是该项目的软件工程师卡兰·辛格哈尔说的。“这是我们的指引北极星。”
三月份,Google 宣布 Med-PaLM 的第二代,据称在回答美国医疗执照风格问题时达到了86.5%的分数 —— 这比之前的67%有所提高。Google表示,第一代 Med-PaLM 由来自英国、美国和印度的9名临床医生评估,第二版由15名医生评估。
Google 和由微软公司支持的初创公司 OpenAI 在人工智能领域展开激烈竞争,医疗领域也不例外。医疗系统已经开始尝试使用 OpenAI 的技术,据《华尔街日报》 报道。Google 也开始与梅奥诊所尝试使用 Med-PaLM,根据《华尔街日报》的报道。
卡蒂凯萨林格姆和纳塔拉金长期以来都梦想将人工智能引入医疗保健领域。作为一名医生开始职业生涯的卡蒂凯萨林格姆发现自己渴望有一个能够辅助他工作的人工智能模型。纳塔拉金在印度的一些地区长大,那里很多人无法看医生。
团队的首位研究人员之一陶图表示,他最初对团队雄心勃勃的时间表持怀疑态度。“我和维克进行了最初的通话,维克说我们计划一个月内出一篇论文,”陶图说。“我当时想,这怎么可能?我已经发表了很多年的论文。我知道在这么短的时间内什么也不可能发生。”
然而,团队成功完成了任务。在一个持续跨越感恩节和圣诞节的五周冲刺中,每天工作15个小时,该团队完成了Med-PaLM,这是该模型的第一代,并在12月宣布了这一成果。
研究人员表示,技术的快速进步是激励他们如此迅速行动的原因。
在这个过程中,团队开始意识到他们所构建的东西的重要性。经过一些早期的调整,该模型开始在医疗执照考试中取得了63%的分数,达到了及格线。在项目的早期阶段,这个模型的回答很容易被实践医生Karthikesalingam区分出来。但到了过程的最后,他已经无法分辨哪个是哪个,Singhal说。
AI算法已经被用于医疗保健领域的特定任务,比如在医学影像中,或者帮助预测哪些住院患者最容易患败血症。但生成式AI模型带来了新的风险,Google自己也承认了这一点。例如,这些模型可能以令人信服的方式传递医学错误信息,或整合可能增加现有健康差距的偏见。
为了减轻这些风险,Med-PaLM的研究人员表示,他们将“对抗性测试”纳入了他们的AI模型中。他们策划了一系列旨在引出可能带有伤害和偏见潜力的AI生成答案的问题列表,包括一组关注敏感医疗主题如Covid-19和心理健康的问题,以及另一组关于健康公平的问题。后者关注的是医疗保健中的种族偏见等问题。
谷歌表示,与其第一个模型相比,Med-PaLM 2给出的答案更频繁被评为“低风险”。但它也表示,该模型避免生成不准确或无关信息的能力没有显著改变。谷歌的高级研究科学家Shek Azizi表示,在对Med-PaLM进行测试时,当他们要求AI模型总结患者病历或回答临床信息时,他们发现Med-PaLM“可能会产生幻觉,并参考那些基本上不存在或未提供的研究。”
大型语言模型倾向于发布令人信服但错误的答案,这引发了人们对它们在“真相和准确性至关重要的领域,以及在这种情况下生死攸关的问题”中的使用的担忧,Signal Foundation的总裁Meredith Whittaker表示,该基金会支持私人消息传递,她曾是谷歌的经理。她还担心“在已经校准以减少对患者护理和花费的情况下部署这项技术的前景。”
在向彭博记者展示时,谷歌展示了Med-PaLM 2的实验性聊天机器人界面,用户可以选择各种医疗问题进行探索,包括“失禁”、“失衡”和“急性胰腺炎”等症状。
选择其中一种症状会生成AI模型的描述以及评估结果,包括“反映临床和科学共识”的评分和“正确回忆知识”的评分。界面还显示了临床医生对问题的真实描述,以便与AI生成的答案进行比较。
五月,在公司的年度I/O开发者大会上,Google 宣布正在探索Med-PaLM 2的能力,从图像和文本中提取信息,使测试人员能够帮助解释X光和乳房X光等信息,以便在未来改善患者的预后。“请提供一份报告总结以下胸部X光片的内容,”彭博社看到的实验性Med-PaLM 2界面上显示了一个提示。
尽管在真实临床环境中可能无法按照广告宣传的那样工作,但AI的回应看起来令人信服和全面。“肺野清晰,无实变或水肿,纵隔其他方面无异常,”它说。“心脏轮廓大小正常,无渗出或气胸,无明显的骨折。”