人工智能能否比人类更擅长共情？企业正在尝试——《华尔街日报》

Lisa Bannon

2023-10-07

忙碌、压力大的人类并不总是善于表达同理心。如今，计算机科学家正在训练人工智能替我们展现共情能力。

基于海量语音、文本和视频对话训练的AI驱动大型语言模型，如今已能智能识别并模仿同理心等情绪——有人认为其表现有时甚至优于人类。技术专家表示，这些强大的新功能有望改善客户服务、人力资源、心理健康等场景的互动体验。但这也引发了道德伦理争议：缺乏悔意和责任感的机器是否应被允许解读和评估人类情感？

电信巨头考克斯通信（Cox Communications）和电话营销巨擘Teleperformance等企业正运用AI来测量客服人员的共情水平，并将评分纳入绩效考核。医生和治疗师则借助生成式AI撰写富有同理心的患者沟通内容。例如，用于培训评估治疗师的AI平台Lyssn.io正在测试专用GPT模型，该模型能针对患者情况生成建议回复文本。当一位女性倾诉工作压力导致焦虑时，Lyssn的聊天机器人会提供三种专业回复选项：“听起来过去一周工作确实让你精疲力竭”；“很遗憾听到这个消息，这周你是如何应对压力和焦虑的？"；或"感谢分享，你过去通常用什么方法缓解焦虑？”

即便是来自银行或网络服务商的来电者，也可能正在朗读由AI助手生成的脚本。下次当你接到电话、短信或邮件时，或许根本无法分辨回应你的究竟是人类还是机器。

企业高管们认为，这项新技术将带来颠覆性变革。支持者指出，在客服领域，经过训练能提供贴心建议的聊天机器人可即时提升消费者互动体验，促进销售和客户满意度；治疗型机器人则有助于缓解心理健康专家严重短缺的问题，为无法获得其他护理资源的患者提供帮助。

“AI在辅助社会情感学习方面甚至可能超越人类，因为我们可以为其输入全球顶尖心理学家的知识来指导培训人们，“华盛顿州贝尔维尤市对话分析公司mpathic.ai的临床心理学家兼首席执行官格林·洛德表示。

部分社会科学家质疑：使用从未体验过人类痛苦的AI来解读情绪状态是否合乎伦理？临床环境中使用的人工共情可能贬低"处于困境的人类理应获得真实人文关怀"这一基本期待。如果人类将善意言辞的构建权交给AI，我们自身的共情能力是否会退化？

加州大学伯克利分校生物伦理学教授、共情与技术研究权威乔迪·哈尔彭指出，AI或许具备"认知共情"能力——即基于训练数据识别并回应人类需求，但这与"情感共情"截然不同，后者要求设身处地体会他人的痛苦、希望与磨难，并产生真挚的关切。

“最具临床价值的同理心要求医生在倾听患者时有所体验，”她说。这是没有情感或经历的机器人无法做到的。

以下是人工同理心应用的发展方向。

心理健康

支持者表示，经过动机性访谈和认知行为疗法等结构化治疗方法训练的AI，可以帮助解决从戒烟、物质使用问题到饮食失调、焦虑和抑郁等各种问题。“长期以来，我们一直有自助、在线CBT、视频和互动工作表，无需人类治疗师。我们知道技术可以有所帮助。这是合乎逻辑的下一步，”临床心理学家、Lyssn首席执行官兼联合创始人大卫·阿特金斯说。

研究表明，使用AI建议和重写治疗师对患者的回应可以提高同理心评分。在在线同伴支持平台TalkLife上进行的一项实验中，一个名为Hailey的AI训练机器人向300名志愿支持人员建议如何使他们对用户的建议更具同理心。例如，当支持者输入“我理解你的感受”时，Hailey建议替换为“如果这件事发生在我身上，我会感到非常孤立。”当支持者写道“别担心，我在这里”时，Hailey建议改为“这一定很艰难。你试过和你的老板谈谈吗？”

研究发现，与仅有人类回应相比，人类和AI的回应共同使同理心回应提高了19.6%。“当与人类配对时，AI可以增强同理心，”华盛顿大学计算机科学助理教授、该研究的作者之一蒂姆·阿尔托夫说，他与阿特金斯等人共同完成了这项研究。

心理健康专家表示，人工智能治疗需要政府监管和专业指导方针，以确保透明度并保护用户。今年早些时候，一项在线治疗服务因未披露使用GPT-3生成建议而激怒了用户。另外，国家饮食失调协会信息热线使用的聊天机器人因向用户提供不当建议而被暂停服务。该机器人不仅提供信息，还向部分用户提供具体的治疗建议，如减少卡路里和设定每周减重目标，专家表示这对患有厌食症等疾病的患者可能有害。

客户服务与销售

长期研究表明，在商业互动中，从房地产销售到投资建议，那些体谅他人感受的人更容易取得成功，研究早已证实这一点。

总部位于加州帕洛阿尔托的企业人工智能平台Uniphore销售一款AI虚拟会议工具，该工具可追踪通话参与者的情绪线索，帮助主持人实时分析哪些人参与度高、哪些人未投入，以及哪些内容引起共鸣。该技术通过分析面部表情、语调和用词来测量愤怒、快乐和困惑等情绪信号。屏幕上的仪表盘显示参与者的情绪和参与度评分，并提供提示，告知主持人是否需要放慢节奏、展现更多同理心或做出其他调整。

一些评论家质疑当人们的行为被公司记录时，是否无意中放弃了隐私。Uniphore的首席执行官兼联合创始人Umesh Sachdev表示，公司在使用这项技术之前必须披露并征得参与者的同意。

Sachdev说，未来，这种技术可以应用于教育领域，当教师需要在虚拟教室中跟踪数十名学生时。它也可以用于娱乐领域，进行电视和电影的虚拟观众测试。

人力资源

人力资源专家表示，在对话中评估同理心的人工智能将越来越多地用于绩效评估和招聘。

Humanly.io是一家招聘和分析公司，客户包括微软、Moss Adams和Worldwide Flight Services，它评估聊天机器人和人类招聘人员在求职面试中表现出的同理心。Humanly的首席执行官兼联合创始人Prem Kumar表示：“对话中更高的同理心和积极倾听与工作和销售中更高的录用接受率相关。”

Kumar说，在一家大型科技公司，Humanly的对话分析发现，招聘人员在面试女性时缺乏同理心和积极倾听。在模型识别出问题并招聘人员收到反馈后，女性的工作接受率提高了8%。

费城以外的医疗服务公司Accolade过去让主管们听取其1200名健康助理与客户关于敏感医疗问题的电话交谈录音。但他们每周只能审查每位员工的一到两个电话。

“我们评估员工最重要的标准之一就是‘你在通话中是否展现了同理心？’”Accolade运营高级副总裁克里斯汀·布鲁泽克表示，“同理心是我们的核心价值，但它也是最难衡量和校准的复杂要素之一。”

Accolade目前采用Observe.AI开发的机器学习模型，专门用于检测客服通话中的同理心表现。Observe.AI的预制同理心模型虽能识别“听到这个消息我很难过”等固定句式，但无法涵盖因年龄、种族和地区差异产生的多样化表达。为此，Accolade工程师正在训练算法识别更广泛的情感表达，将员工可能使用的关怀语句——如“这一定很可怕”、“我无法想象那种感受”、“这肯定非常艰难”——植入计算机模型。

据Accolade估算，当前该模型的准确率约达人工评估的70%。即便如此，其效率已显著提升。布鲁泽克指出，Observe.AI每日可分析1万次客户与员工互动，而过去人工仅能评估100至200次。

随着自动化绩效评估日益普及，部分学者提醒人类需认清AI测量的能力边界。“如果机器无法准确衡量人类重视的同理心维度——比如疾病、痛苦、爱与失去的体验——会怎样？”麻省理工学院科学技术社会研究教授雪莉·特克尔质疑道，“机器可量化的标准终将成为同理心的定义。”

写信至 [email protected]

刊登于2023年10月12日印刷版，标题为《人工智能能否比人类更擅长共情？企业正在尝试》。