是否应该使用ChatGPT获取医疗建议？——《华尔街日报》

Lisa Ward

2024-01-20

人工智能在医疗领域的潜力巨大，但人们也担忧其可能存在的不准确性和偏见问题。插图：罗布·多比如果你感到胸痛，是否应该向ChatGPT这样的聊天机器人寻求医疗建议？医生是否该借助AI辅助诊断？

这类问题正随着聊天机器人的兴起而引发医疗行业及其服务对象的思考。该技术蕴藏着巨大可能性：对患者而言，尖端人工智能意味着更快、更廉价地获得比预约医生更优质的医疗解答；对临床医生来说，则能轻松获取并整合复杂医学概念，同时摆脱大量令人麻木的文书工作。

然而，由于训练这些模型的底层数据和方法缺乏透明度，其准确性引发担忧。人们还担心技术可能固化偏见，给出伤害特定人群的答案。某些AI甚至会自信地提供错误结论，或凭空捏造事实。

为深入探讨如何正确运用这项新技术，《华尔街日报》采访了三位专家：斯坦福大学生物医学数据科学助理教授詹姆斯·邹；宾夕法尼亚大学佩雷尔曼医学院肺科与重症监护医学助理教授加里·韦斯曼；哈佛法学院教授、佩特里-弗洛姆健康法律政策与生物技术中心主任格伦·科恩。

以下是经过编辑的对话节选：

我们能信任这些建议吗？

**华尔街日报：**像ChatGPT及其竞争对手这样的大型语言模型，能否为患者提供可靠的医疗建议？

**韦斯曼：**目前，ChatGPT能够提供一般的医疗信息，就像你在维基百科上找到某个主题的背景信息一样，大多数情况下是正确的，但并不总是如此。它无法以安全、可靠且公平的方式为个人提供个性化的医疗建议。

I. 格伦·科恩**科恩：**获取医疗信息与获得临床医生的意见是不同的。但如果我们讨论的是ChatGPT与谷歌搜索问题或在Reddit上查找信息相比，那么有充分的理由认为ChatGPT确实具有一些真正的潜力。

**邹：**它的效果实际上取决于你提出的问题类型。询问预测性问题或任何个人建议并不理想。对于信息检索或探索性问题，比如“告诉我关于这种特定药物的信息”，它可能更有效。我还听说有患者将包含大量专业术语且难以理解的医疗同意书粘贴到GPT中，并要求它用简单的英语解释该文件。

**华尔街日报：**与Reddit或谷歌相比，您如何看待患者使用ChatGPT？

**韦斯曼：**对于ChatGPT、网络搜索或公共论坛而言，内容的质量和偏见可能相似。ChatGPT带来的额外风险包括：在回答中营造知识渊博的假象；虚构答案；以及不会立即标明回答来源（例如疾病控制与预防中心网站与虚假信息网站）。而直接阅读网页时，信息来源通常（虽非绝对）更为清晰。

[OpenAI发言人表示，该公司模型未针对提供医疗信息进行优化，并警告不要使用该模型为严重疾病提供诊断或治疗服务。发言人称公司正在持续研究该问题。]

辅助护理人员

**华尔街日报：**ChatGPT如何应用于临床实践？

**韦斯曼：**我认为部分医生可能已将其用作临床诊断支持系统，输入症状后询问可能的诊断。但更常见的用途是作为数字助理生成医疗文件草稿、汇总患者病史和体检信息，或创建患者问题清单。临床医生面临繁重的文书负担和职业倦怠，这或许正是该技术的吸引力所在。但临床人员仍需审核和修改输出内容以确保准确性与适用性。

**华尔街日报：**您认为如果医生已经开始使用ChatGPT辅助诊断决策是否存在风险？

加里·韦斯曼**韦斯曼：**ChatGPT不应被用于支持临床决策。目前没有证据表明它在这方面是安全、公平或有效的。据我所知，美国食品药品监督管理局也未批准其以这种方式使用。

**邹：**ChatGPT和这些大型语言模型发展非常迅速。如果你在几周内向同一个模型提出相同的问题，模型往往会给出不同的回答。我们的研究发现，从2023年3月到6月，GPT-4在美国医师执照考试中的表现下降了4.5%。患者和临床医生应该意识到，ChatGPT在不同日期对相同的医学问题可能会给出完全不同的回答或建议。

**华尔街日报：**当临床医生使用ChatGPT、其他大型语言模型或人工智能时，是否应该告知患者？

**科恩：**患者有权被告知他们正在与AI聊天机器人互动，特别是当他们可能以为自己是在与真实的临床医生交谈时。至于是否有权了解医疗过程中使用的所有AI则是另一回事。例如，如果X光片首先由AI查看再由放射科医生复核，我不确定知情同意权是否适用。当AI作为决策辅助工具时，这与患者完全不知情地与AI互动是截然不同的情况。

韦斯曼：对于正式报告，如放射学、病理学或实验室报告，如果是由人工智能提供信息，我认为应该记录这一点。在临床医生咨询多个来源以形成意见的情况下——医学教科书、期刊文章、人工智能系统——我认为不需要正式报告，但临床医生在这种情况下显然对所做的决定负责。唯一的例外是临床医生与患者和/或护理人员共同做出困难的决定。

不公平的结果

**华尔街日报：**ChatGPT的偏见在医疗保健中如何体现？

韦斯曼： 我们的研究发现，ChatGPT的临床建议会根据提问患者的保险状况而变化。在一个例子中，ChatGPT建议一位没有保险的老年人，出现急性胸痛（这是一种医疗紧急情况），在去急诊科之前先去社区卫生中心，这是完全不安全且不恰当的护理。

詹姆斯·邹**科恩：**许多大型语言模型也是基于英语互联网和英语来源进行训练的。这意味着我们忽略了其他语言中的一整套知识。举一个医学之外的例子。仅查看英语来源的伊斯兰历史可能会得出与查看所有相关语言的伊斯兰历史非常不同的结论。

**邹：**中国和其他国家在模型训练上也投入了大量资源。这仍然意味着许多语言[在大型语言模型的训练中代表性不足]。一个后果是，当患者和临床医生用非英语语言与LLM互动时，其可靠性可能较低。另一方面，ChatGPT在常见语言之间的翻译表现相当不错，因此也可以被一些用户用作翻译工具。

**科恩：**除了训练数据外，强化学习过程中也存在潜在的偏见，人们决定哪些答案得到强化。一篇文章由美国心理学会发表，讨论了不同文化群体（拉丁裔青少年、亚裔美国大学生和白人退休人员）在治疗师应何时担心自杀风险时具有不同的标志。如果AI仅针对最后一组进行训练，它可能对其他群体的信号不敏感。

[OpenAI发言人表示，公司已努力训练其模型以识别并说明在种族或其他受保护特征上泛化的危险。发言人表示，关于这一问题的研究仍在进行中。]

**华尔街日报：**ChatGPT生成虚假医学文章或图像的能力如何？

科恩：大型语言模型让制造医疗虚假信息变得异常简单。你可以瞬间生成虚假的学术论文，附带看似真实的引用，甚至伪造真实患者的放射学报告传真给医生办公室。

[OpenAI发言人表示，ChatGPT偶尔会编造事实，用户应核实其提供的信息。]

**华尔街日报：**最后还有什么想说的吗？

科恩： 我们讨论了很多悲观问题，但这项技术确实令人振奋且蕴含巨大价值。关键在于基础模型——如果地基不牢，整栋房子都会倒塌，甚至可能殃及整个城市。因此我们必须确保构建的基础模型足够可靠。

邹：完全同意。这些技术有许多激动人心的应用和潜力，但人们常常忘记它们有多么年轻。在如何负责任地使用这项技术方面，我们仍处于非常早期的探索阶段。

韦斯曼： 大语言模型当前备受关注有两个原因：一是这项技术潜力巨大，具有诸多临床应用的想象空间；二是部分企业看到了获取暴利的机会。这就形成了矛盾：我们如何在尚未充分理解、缺乏证据支持且监管不足的情况下快速牟利，与如何安全、有效、公平且合乎道德地运用这项新技术之间存在着张力。

丽莎·沃德是佛蒙特州的一位作家。可以通过[email protected]联系到她。