人工智能能否帮助医生做出更准确的诊断?——《华尔街日报》
Laura Landro
当医院开始采用新算法和聊天机器人时,他们也意识到了使用人工智能的局限性和风险。插图:基尔斯滕·埃森普雷斯人工智能被誉为解决医生当前最棘手挑战之一的圣杯:做出正确诊断。
尽管医学影像和其他技术已取得多年进展,诊断错误仍是报告最多的医疗失误,每年影响约1200万门诊成人患者。住院患者数据显示每年近25万例有害诊断错误,大多数人一生中至少会经历一次误诊,有时后果不堪设想。
目前,学术医疗中心的研究人员正与AI开发者和信息技术巨头合作,探索如何最佳结合机器学习与人类专业知识以提高诊断准确性。他们培训医生将技术融入日常工作流程,将其定位为“增强智能”——帮助医生正确诊断和制定治疗方案的工具,而非取代人类判断。
但随着医院开始采用新算法和聊天机器人,它们也意识到这项技术的局限性和风险。虽然人工智能能处理和解读海量医疗数据,但诊断是一门人文艺术——新技术无法复制医生所见的诸多细微差别。更重要的是,在对其准确性存疑的情况下,患者和医生都需要信任人工智能。
以下是关于结合医生与AI减少误诊的早期经验。
AI无法替代经验
所谓预测性AI经过医学专家针对特定任务的数据训练,正被用于从X光片、CT扫描、核磁共振成像以及病理切片等医学影像中识别模式,帮助预测癌症风险和诊断特定疾病。而另一种生成式AI,则通过互联网等渠道的海量信息训练聊天机器人,使其能提出诊断建议,并提醒医生注意患者病情中那些不易察觉的模式或趋势。
诊断专家表示,目前没有任何AI能取代临床医生与患者建立情感联结的能力,也无法像人类那样在体检或检测结果中捕捉微妙线索,发现患者叙述或病史中的漏洞,或重新审视不合常理的细节。
“AI有潜力减少诊断错误,但现有技术无法应对临床诊断中真实世界的复杂性——这需要与患者动态互动,且比图像诊断存在更多不确定性,“研究诊断准确性的哈迪普·辛格博士表示。他身兼休斯顿迈克尔·E·迪贝基退伍军人事务医疗中心的健康政策、质量与信息学联合主任,以及贝勒医学院教授两职。
“优秀的诊断医生不会只看表面现象,”加州大学伯克利分校公共卫生学院健康政策与管理副教授齐亚德·奥伯迈耶博士指出,比如面对因药物滥用或创伤等问题感到不适或不愿交谈的患者时,“算法永远无法观察患者的神态,也无法识别他们是否在刻意回避某些问题或话题。”
人工智能的水平取决于其使用的数据质量
AI在诊断领域面临的核心问题在于构建算法所依赖的训练数据质量。以最知名的聊天机器人ChatGPT为例,它通过文章、图像等数据训练生成对话文本,虽在医学考试答题和病例诊断建议中展现出惊人能力,但其数据源未经事实核查,且需通过人工反馈提升准确性。
聊天机器人还存在所谓"幻觉"问题,可能生成虚假或无关信息。英国一项研究发现,在35例模拟病例诊断中,聊天机器人有21例漏诊关键病症,原因难以追溯。伦敦盖伊和圣托马斯医院临床AI研究员约书亚·欧阳博士警告:“危险在于它可能漏掉资深医生第一时间就能想到的致命性疾病。”
技术革新有望缓解部分担忧。斯坦福大学研究显示,最新版GPT-4在需要临床推理的医学考试中表现远超GPT-3.5——不仅完全避免幻觉现象,成绩甚至优于一、二年级医学生。
ChatGPT的开发者OpenAI表示,新版本生成事实性内容的可能性比GPT-3.5高出40%,但在进一步减少幻觉发生概率方面仍需大量工作。OpenAI官方立场表明,其模型未经过优化以提供医疗信息,绝不应被用于重大医疗状况的诊断服务。
该研究的合著者、斯坦福大学医学院临床副教授Eric Strong博士)指出,两个版本间的进步表明人工智能将持续改进。“我们并非宣称聊天机器人将很快取代医生”,但若研究证明医生在AI辅助下表现更佳,“临床实践中不使用AI是否反而有违医德?“Strong博士如是说。
部分医疗机构正利用自身电子病历系统开发可靠算法。但不完整或不准确的病患信息可能带来新的诊断失误与疏漏风险。
在明尼苏达州罗切斯特市的梅奥诊所,研究人员耗费数年时间从海量医疗数据中排查错误与矛盾。“开发AI模型前必须对数据进行整理净化,“梅奥诊所平台部门主席John Halamka博士强调。
为设计能辅助诊断多种疾病的算法,梅奥正与圣路易斯Mercy医疗集团合作。双方共享去标识化的患者数据,通过分析数百万次诊疗记录寻找规律,旨在更早确诊疾病并确定最佳治疗方案。
人工智能必须易于使用
为了让医生采纳决策辅助工具,AI模型必须无缝融入医生的日常诊疗流程。“将其整合到工作流程中是一门艺术,“梅奥诊所的哈拉姆卡表示,“最不该对临床医生说的一句话就是’去单独打开一个应用,再额外占用你的时间’。”
例如,梅奥开发了一款能检测房颤迹象的算法,这些迹象在常规诊疗中难以发现。这种心律不齐会提升血栓或中风风险,并加剧现有心脏病症状。该算法已投入使用,医生只需点击嵌入梅奥电子病历系统的AI仪表盘,即可查看所有因任何原因做过心电图的患者数据。
该技术研究的合著者、心脏病学家彼得·诺西沃西博士指出,算法信息有助于风险评估,但后续检查与治疗方案仍需医生判断,“为每位患者做出最优决策”。
人工智能可能存在偏见
加州大学伯克利分校奥伯迈耶的研究揭示了医疗算法中潜藏的种族偏见。例如,若算法以医疗费用而非疾病程度作为需求评估标准,就会低估黑人患者的优先级——因为他们医疗支出较低。但这实际反映的是其获得平等医疗的机会不足。他分析的某个算法因此错误判定:同等病情下黑人比白人更健康且所需治疗更少。其主导的研究表明,通过调整算法聚焦更相关的预测指标,可消除预测中的种族偏见。
其他研究人员正致力于解决诊断中的不平等问题。以周围动脉疾病为例,这种疾病影响着多达1000万美国人,但诊断不足且治疗不足——尤其在少数族裔患者中更为明显。这种被称为PAD的疾病会使下肢血液循环血管变窄,导致足部伤口和溃疡,最终可能引发截肢甚至死亡。
杜克大学健康创新研究所的研究人员开发了一种算法,基于诊断代码和其他病史数据(包含大量黑人患者样本)来识别PAD患者。在试点项目中,由PAD专家组成的团队运用该算法识别新患者并更新现有患者状态,优先处理即将就诊的高危患者,以便向他们的初级保健医生发送治疗建议。
专攻群体健康与数据科学的杜克大学医生马克·森达克博士表示,该项目目标之一是通过识别需要进一步确诊的患者,以及已确诊但未获得必要护理(可能面临截肢风险)的患者,来缩小诊断与护理中的种族差异。
森达克指出:“通过识别这些偏差,‘我们能改变流程并消除诊断障碍’"。
若医生抵触AI,需寻求折中方案
要让AI成为诊断助手,医生必须接纳这项技术。在依赖影像解读的放射学领域,研究表明AI在某些疾病诊断上优于放射科医生,但在其他方面仍有不足。然而AI的普及引发了放射科医生对职业安全的担忧,也导致了对该技术的抵触情绪。
在最近的一项研究中,哈佛大学和麻省理工学院的研究人员将180名放射科医生随机分为四组进行胸部X光诊断,并在开始时提供不同信息。其中两组仅获得带有AI预测结果的胸部X光片或仅获得病史资料,另外两组则同时获得AI预测和病史信息,或两者皆无。
研究人员要求放射科医生评估特定疾病的概率并提供治疗或随访建议,其准确性由五位获得委员会认证的放射科专家组成的预后评估小组进行衡量。
研究发现,在获得病史信息的组别中,AI预测的准确性超过了近三分之二的放射科医生,尽管该组表现优于未获得病史信息的组别。
但平均而言,获取AI预测并未提高放射科医生的诊断准确率。医生们的认知偏差包括低估AI辅助价值,以及忽视AI预测与自身判断的关联性。研究还发现其他弊端:获得AI辅助的放射科医生决策时间更长;对于原本确信自身结论的医生,AI预测反而降低了其诊断准确性(不过确实帮助了那些信心不足的医生)。
“AI模型和放射科医生各自具有独特的优势和待改进领域,“该研究的合著者、麻省理工学院经济学教授尼基尔·阿加沃尔博士指出。例如,放射科医生常能发现AI程序未设定的所谓偶发症状——这些意外发现可能导致需要进一步疾病检测。
研究人员得出结论,最优的合作方式是让AI算法先对胸部X光片做出初步预测;如果预测的可信度超过90%,则无需放射科医生复核即可采纳诊断结果。对于可信度较低的预测,将由一位未接触AI预测结果的放射科医生进行复查——若与AI意见一致则采用该诊断,若存在分歧则提交进行二次会诊。
劳拉·兰卓(《华尔街日报》前助理总编辑)著有《幸存者:掌控你的抗癌之战》一书,联系方式:[email protected]。
本文发表于2023年9月25日印刷版,原标题为《AI能否帮助医生做出更精准诊断?》。