聊天机器人如何失控——《华尔街日报》

Julie Jargon

2023-06-07

一款偏离脚本的心理健康聊天机器人——向饮食失调互助团体求助者提供饮食建议——在团体不知情的情况下被植入了生成式AI。

名为Tessa的机器人上周成为社交媒体焦点，当时全国饮食失调协会网站用户报告了其异常建议。该事件表明，随着AI助手日益成为日常生活的重要组成部分，它们可能产生意外且危险的后果。

旧金山软件开发公司Cass首席执行官米希尔·劳斯表示，2022年该公司为其聊天机器人增加了AI组件，其中就包括Tessa。

劳斯称Cass完全遵守与NEDA的合同条款。未支付服务费的NEDA已于上周将Tessa下线。

“对方既未征询我们意见，也未获得我们授权，“NEDA首席执行官莉兹·汤普森谈及此次AI升级时表示。

随着身心医疗需求激增，而全球临床医生短缺导致许多人得不到治疗，采用治疗学语言训练的AI助手虽具风险却充满诱惑力。

“我们根本没有足够的护士和医生来提供惯常所需的护理，需要技术手段来解决这个问题，“咨询公司埃森哲全球医疗健康行业负责人里奇·比汉泽尔表示。

但他表示，利用技术填补空白必须谨慎行事。

从一开始，人工智能聊天机器人就因出错而闻名。在与微软OpenAI驱动的必应聊天机器人进行的一次测试对话中，该软件表示想要窃取核密码。谷歌的版本Bard在其首次公开演示中提供了错误信息。最近使用OpenAI的ChatGPT起草法庭文件的律师们引用了该机器人明显虚构的不存在的法律案例。

包括华盛顿大学医学院和斯坦福大学医学院在内的多所大学的研究人员将Tessa构建为一个封闭系统。研究人员之一、华盛顿大学医学院精神病学副教授Ellen Fitzsimmons-Craft表示，它不能偏离脚本。

研究人员设计了一个决策树，回答人们可能提出的关于身体形象、体重和食物的问题。该聊天机器人最初无法像ChatGPT那样，从吸收的信息中生成新的答案。

Tessa在一项临床试验中进行了测试，六个月后研究人员对用户进行回访时认为其有效。2022年2月，NEDA决定将其作为其网站上有风险访问者的资源（但不提供给被认为患有饮食失调的人）。

Cass从Tessa一开始就为NEDA管理该软件，但人工智能组件是在当年晚些时候添加的。

“在大多数情况下，它表现得非常好，做了正确的事，说了正确的话，并帮助人们获得护理，”劳斯说。他表示当用户指出缺陷时，公司能在不到一小时内修复问题。

劳斯称其数据集仅限于权威来源。作为保障措施，AI生成的答案会附带免责声明。在减肥建议的案例中，聊天机器人建议咨询医疗保健提供者。

汤普森表示，NEDA不知道已添加生成式AI功能，该组织原以为聊天机器人仍在原始封闭系统上运行。

她补充说，饮食失调是复杂的身心疾病，在与患者交流时，“每个字都至关重要”。

汤普森称，在NEDA和最初创建Tessa的大学研究人员重新验证所有聊天机器人内容前，Tessa将保持离线状态。

“我们还不能信任AI能提供可靠的心理健康建议，”菲茨西蒙斯-克拉夫特表示。

Tessa未经批准的建议在阵亡将士纪念日周末曝光，此前新闻报道称NEDA正用Tessa取代人工信息帮助热线。虽然该组织确实关闭了热线，但汤普森表示用机器人取代热线的说法是错误的。

据卡斯所述，这些报道将人们引向NEDA网站，许多人测试了Tessa，向机器人提出大量关于减肥和健康饮食的问题。部分用户收到了节食建议。

聊天机器人正在发展讨论治疗或医疗场景的能力。加州大学圣地亚哥分校的研究人员开展了一项研究，参与者表示ChatGPT能提供比医生更具同理心的回答。

为这些聊天机器人添加生成式人工智能功能——即脱离预设脚本的能力——增加了审核此类软件的难度，因为它们的回答没有明确来源。机器人通过海量文本数据进行训练，但它们不会照搬原文段落。

埃森哲的比尔汉泽尔表示，在医疗健康领域，基础数据源必须经过严格审查并保持更新，即便如此，基于这些数据训练的机器人也需要精心设计和控制。他建议客户全面了解所部署聊天机器人的数据模型，并进行彻底测试，以确保不会出现意外回答。

“如果打算依赖提供建议的AI系统，人们必须对其抱有极高信任度。“他说。

比尔汉泽尔指出，尽管存在固有风险，软件机器人在临床环境中仍可能激增。虽然汤普森表示Tessa并非旨在取代热线工作人员，但未来回归的很可能是聊天机器人而非人工服务。

“我们不会关闭技术，“汤普森说，“但必须对我们服务的人群格外谨慎。”

——欲获取更多《家庭与科技》专栏文章、建议及家庭技术问题解答，请订阅我的每周通讯。

联系朱莉·贾贡请致信 [email protected]

本文发表于2023年6月8日印刷版，标题为《心理健康聊天机器人Tessa失控事件》。