关于DEI消亡的报道被严重夸大了 - 《华尔街日报》

Hal R. Arkes

2024-01-11

多元化、公平与包容（DEI）虽受挫但未出局。去年，多个州、大学及企业表现出从相关项目中撤退的迹象。然而，这些动态并未阻止该运动的持续活跃，部分归功于内隐联想测试——这个声称大多数美国人存在种族偏见的流行工具。

三位学者在1998年《人格与社会心理学杂志》的论文《测量内隐认知的个体差异：内隐联想测试》中首次提出该概念。研究通过测量受试者将"好/坏"词汇与黑白人种面孔的联想速度，当人们更快地将"好词"与"白人"、“坏词"与"黑人"配对时，即被判定存在内隐偏见。

2007年《欧洲社会心理学评论》的研究显示，约68%的白人测试者呈现偏见结果。这很快被部分媒体演绎为"68%的白人存在种族偏见"的广泛论断。

该测试已成为全美DEI培训的固定项目，高校和企业常将其纳入学生员工的必修课程。哈佛大学"内隐项目"数据显示，其在线测试平台已吸引超2000万人次参与各类主题测试，包括种族内隐偏见检测。

事实证明，这个工具非常值得怀疑。要理解原因，我们必须用衡量任何其他心理测试的两个最重要标准来检验它：信度和效度。

重测信度指的是一个人两次参加测试获得相同结果的程度。如果测试者在同一测试的两次重复施测中得分完全无关，其信度为零；若两次得分完全一致，则信度为1。根据测量学者Jum Nunnally和Ira Bernstein的观点，可接受的重测信度阈值为0.7。2015年，1998年原始论文的作者之一透露，该测试的信度介于0.5至0.6之间，作为心理测试而言并不可靠。

第二个衡量指标是效度，即测试是否测量了它本应测量的内容。如果要分析影响棒球运动员薪资的因素，你会确定其击球率、守备失误、打点等指标，然后通过回归方程将这些数据与其他球员的统计数据和薪资进行比较。在对内隐联想测试进行元分析时，多位学者使用这种方法发现"内隐偏见"仅能解释2%至5.6%的偏见行为。即便是该测试最著名的两位倡导者Mahzarin Banaji和Anthony Greenwald也写道：“试图诊断性使用此类测量方法，可能会产生不可接受的高错误分类率。“换言之，这个测试对行为的预测能力极其微弱。

换个角度思考这些问题。假设有人发明了一种"罪恶检测器"取代美国法庭的陪审团制度，被告接受测试后，被判定有罪者将入狱服刑。

假设该检测器判定68%的人有罪，但工具可靠性仅为0.5或0.6，且仅能识别2%至5.5%的犯罪动机。如此一来，美国监狱将塞满无辜者。隐性关联测试同样如此——它错误地将大量美国白人归类为偏执者。

尽管该工具存在缺陷，却有一个群体从其流行中获利颇丰：提供反偏见培训的公司。2018年我曾询问一位"去偏见培训师"如何评估培训效果，她表示会对比培训前后学员对隐性偏见的认知水平。但这毫无意义——学员在接受培训后必然对该话题有更深入了解。关键在于培训是否真正减少了偏见，而这点恰恰未被测量。

当我追问是否评估过培训对团队士气、招聘实践及人际互动的改善时，她予以否认，因为培训公司不会回头追踪这些指标。

是否设置未接受培训的对照组来验证测试型培训的优越性？“当然没有，“她说，“公司不愿为对照组支付成本。“采用如此粗放的评估方式，根本不可能建立真正严谨的测量体系，更遑论消除实际偏见了。

尽管隐性培训测试揭示的内容微乎其微，但政府、大学、企业和非营利组织仍将其强加于无数人。这对从中牟利者而言合乎逻辑，却对我们政治生态的健康具有毁灭性影响。只要这种测试仍在流传，分裂且具有破坏性的DEI（多元化、公平与包容）产业就会持续蓬勃发展。

阿克斯先生是俄亥俄州立大学心理学荣誉退休教授。

图片来源：盖蒂图片社刊载于2024年1月11日印刷版，原标题为《关于DEI消亡的报道严重夸大其词》