《华尔街日报》:自称用AI撰写病历的初创公司,实则大量工作由人工完成
Joseph Walker
全美数百名医生将他们与患者的私密对话录音委托给一家初创公司,该公司承诺通过人工智能将这些对话转化为可用的医疗记录。通过人工智能。
据现任和前任员工透露,该技术在生成报告时会出现多种错误,例如未能使用正确的医学术语,以及添加患者并未服用的药物。
该公司创始人表示,为了修正这些错误,健康科技初创公司DeepScribe依赖200名外包人员来听取医疗对话并修改记录。这些工作人员还会通过谷歌搜索来查找计费代码。
医疗行业充斥着行政任务、数据录入和文书工作,因此成为人工智能成熟应用的目标领域。DeepScribe对其人工智能的能力做出了全面承诺,但其外包人员执行的关键工作表明,在没有大量人工协助的情况下,该技术仍无法完成医疗领域的一些基本任务。
DeepScribe联合创始人Matthew Ko和Akilesh Bapu表示,诸如列出患者未服用的药物等错误在许多人工智能算法中很常见,这些算法经常出现“幻觉”,将虚假信息呈现为真实信息。
创始人表示,DeepScribe的软件能够完成每份记录的80%,但公司雇佣了200人来“捕捉可能是人工智能等新兴技术产物的问题,并通过我们团队训练有素的成员审核记录以确保准确性,从而让医疗服务提供者充满信心。”
柯和巴普表示,让人类审查人工智能的工作并指出其错误,有助于训练算法并提高其准确性。他们称,DeepScribe在其网站和销售演示中披露了质量保证工作。
医生需确保添加到患者病历中的报告准确无误。DeepScribe现任及前任员工表示,他们未发现医生未能捕捉到通过人工审核的错误。
以下关于DeepScribe、其技术及人工使用的描述,基于对现任及前任员工的访谈,以及对DeepScribe员工间交流和其他公司材料的审查。
该公司在医疗保健领域从事一项单调但至关重要的环节:记录保存。
DeepScribe在其网站上描述了如何利用人工智能填写电子健康记录。医生将对话内容输入患者病历。医生和其他护理人员随后可查阅摘要,快速了解患者的病史并辅助治疗决策。健康保险公司则根据这些记录确定支付给医生的服务费用。
但将对话整理成连贯的笔记是项耗时工作。为节省时间,许多医生直接复制粘贴患者上次就诊的记录,仅根据需要稍作修改。部分医生会使用语音识别软件口述患者报告,或安排工作人员陪同就诊并记录。
DeepScribe对其技术自动化记录管理的强大功能做出了大胆承诺,声称将"彻底改变医疗文档的书写方式"。
该公司表示其不仅转录医生对患者就诊的记录。其人工智能系统会将每次长达数千字的医患对话逐字转录,并转化为标准化报告,可直接整合到患者的电子病历中。
DeepScribe提供的销售演示材料和官网常见问题解答显示,其设有质量保证团队对AI生成报告的准确性进行人工审核。
员工曾在DeepScribe的Slack频道中咨询诸如AI在记录中误添药物名称等问题。但官网主要突出其"人工智能驱动"技术的优势,宣称该软件比传统服务"更精准"且"更少人工干预"。“人工智能正在革新几乎所有行业,现在轮到医疗保健了”,官网如此宣称。
医疗支出占美国GDP近五分之一,使其成为AI领域最热门且最具盈利潜力的市场之一。数据分析机构PitchBook显示,2018至2022年间,风险投资家向医疗AI公司投入了173亿美元。
哈佛医学院生物医学信息学系主任Isaac Kohane教授指出,许多健康科技初创公司对其技术的宣传与实际交付效果存在巨大差距。
“泡沫如此严重,以至于有太多资金追逐太少的优质公司,”他说。
根据PitchBook数据,总部位于旧金山的DeepScribe成立于2017年,已筹集了3730万美元的风险资本融资,在2021年12月最近一轮融资后估值达到1.8亿美元。
Ko和Bapu表示,该公司约有1000名医生和其他医疗保健提供者使用其服务。他们称公司今年收入有望大幅超过650万美元。
创始人表示,与其他AI医生笔记竞争对手每月向医疗机构收取2000至3000美元费用相比,该公司仅收取其六分之一到八分之一的价格。
通过DeepScribe的产品,医生使用该公司开发的智能手机应用程序记录每次就诊情况,然后将录音上传至DeepScribe数据库。
Ko和Bapu称,DeepScribe使用其他公司的软件生成音频文本记录,随后其AI系统会总结文本内容并录入患者病历。
AI会分析文本并突出医学相关信息,如患者病史、当前症状及医生随访计划,然后将重点信息整理成完整句子。
DeepScribe内部称为"记录员"的员工会复核录音,将其与文本记录和AI生成的句子进行比对。
现任和前任员工指出,问题首先出在文本记录上——经常出现支离破碎、毫无意义的句子。
DeepScribe表示其软件还会推荐将关键数据纳入患者病历,包括保险结算代码。
工作人员称,转录文本和AI生成的摘要有时也会错误拼写药物名称。例如,有转录文本将患者自称用于治疗偏头痛的药物记录为"Shelby",而实际患者使用的是品牌药Ubrelvy。
DeepScribe软件有时会对转录文本中拼写正确的药物提出修改建议。例如,有人指出,该软件曾建议将抗抑郁药Remeron改为鱼类名称Remora,或将止痛药Toradol替换为西班牙语"斗牛士"一词Toreador。
“有人注意到AI有时会擅自添加额外药物吗?“2022年11月,一位审核AI工作的员工在Slack工作群中向同事写道(该信息已被《华尔街日报》查证),“我已多次发现不同药物出现这种情况,所以想确认一下。”
现任和前任员工表示,他们经常需要修正AI的错误并填补遗漏。多数情况下,每份医疗报告的大部分内容仍需人工撰写。
《华尔街日报》查阅了记录员使用的Slack频道信息,发现他们经常需要讨论各类问题。讨论话题包括:对于主诉睡眠不佳的未具名患者,应记录为鼻窦充血症状还是失眠症状。
《华尔街日报》查看的Slack消息显示,DeepScribe的人工智能经常无法将患者的口语表达替换为医学术语,该公司期望由人工员工完成这项工作。
“肚脐有没有医学术语啊哈哈”,一名记录员问道。“脐部!“DeepScribe管理员回复道,“谷歌还告诉我叫’脐点’。”
一名员工表示,过去几个月公司开始使用新版本AI软件后,转录报告的质量有所提升。
Ko和Bapu表示,该算法还能学习每位医生的对话和书写风格以提高准确性。员工称他们负责根据医生偏好调整记录内容,这些偏好由医生传达给DeepScribe的销售团队。
DeepScribe称其AI完成报告主体内容,人工员工负责检查转录文本和报告以补充AI可能遗漏的信息。员工将AI工作的准确率提升15个百分点至95%,剩余5%由医生在采纳前校对完成,Ko和Bapu说道。本报联系的使用DeepScribe软件的医生未回应采访请求。
现任和前任员工表示,由于DeepScribe的AI无法提取编码,记录员还需负责选择用于标识每位患者诊断、症状和操作流程的计费代码。
DeepScribe的Slack频道上,员工们群策群力讨论病历记录中应包含哪些医疗账单代码。许多大型医疗机构和医院会聘请经过证书或副学士学位项目培训的专业编码人员来完成编码工作。据一名员工透露,DeepScribe对记录员的培训非常基础,仅包括指定常用代码及如何上网搜索其他代码。管理人员指导记录员使用谷歌搜索诊断代码(即ICD-10代码)。
今年早些时候,一名记录员在Slack上询问:在不清楚关节炎类型和具体膝盖部位的情况下,该使用哪种ICD-10代码。一位经理回复了谷歌搜索"关节炎未特指膝盖ICD10"的结果页面截图。
DeepScribe表示会为记录员提供ICD-10代码培训,并强调这些代码仅供医生参考,准确性由医生最终确认。
现任和前任员工透露,部分医生和患者似乎不知道有人工在听取录音。根据员工描述,某些录音中医生告知患者诊疗过程会被录制,但完全由AI分析,不会有人工参与听取。
DeepScribe员工表示,患者在问诊时会向医生透露吸毒史、家庭问题等隐私细节。据透露,文字记录通常包含患者全名和医生诊所名称缩写。
根据联邦《健康保险可携性和责任法案》(简称HIPAA),法律专家表示,DeepScribe及其员工可以查阅患者的医疗信息,但他们有义务保护数据的机密性。
现任和前任员工表示,他们接受的关于联邦HIPAA法律和健康隐私方面的培训非常有限。
法律专家称,HIPAA并不要求医生告知患者可能有其他人会查看他们的数据,包括就诊录音。
然而,科技公司健康隐私顾问乔伊·普里茨表示,即使合法,出于道德原因,医生也应告知患者他们的对话正在被录音并与第三方公司及其员工共享。
“他们向患者歪曲了自己的行为,这种方式让患者感到更自在,说话更无拘无束,“普里茨说。
DeepScribe表示,所有员工都完成了包含HIPAA合规内容的17步培训计划。
联系约瑟夫·沃克,邮箱:[email protected]
本文刊登于2023年7月24日的印刷版,标题为《医疗记录初创公司结合人工智能与人力》。