数据科学家问:2020年人口普查有多准确?- 彭博社
Kriston Capps
一张航拍照片显示了2021年8月5日的纽约自由女神像。摄影师:Ed Jones/AFP/Getty Images纽约的自由岛,人口为0,已成为美国人口普查中不太可能的争夺中心。
除了自由女神像,自2012年前监护人的住所被飓风桑迪摧毁后,岛上再无人居住,使自由岛首次在数百年来无人居住。
尽管如此,目前这座占地12英亩的岛屿的官方人口为48。这是明尼苏达大学人口统计学家在去年4月将自由女神像的坐标输入2020年人口普查演示时发现的有趣现象。这种人口激增并非完全错误。这是数字安全的产物,是对人口普查数据添加的特殊校准噪音的结果。这种统计上的误导阻止了数字侦探将个人身份识别到单个人口普查区块或微小博物馆群岛的分辨率水平。自由岛的48名居民是机器中的幽灵。
BloombergCityLab拥抱开放的设计师山本理研获得2024年普利兹克建筑奖移民愤怒淹没了美国劳动力市场对工人的需求Muji 为日本的孤独流行病提供了处方芝加哥将继续推进改造空置的市中心塔楼计划美国人口普查局一直实施这样的隐私保护措施。2010年,人口普查正确地将自由岛的人口计算为一对亚裔夫妇,但据《纽约时报》2018年报道,尽管管理员和他的妻子是白人。这是一种名为“交换”的隐私协议的结果,人口普查算法实际上将小地理区域的居民身份与地图上其他地方的人互换,以防止任何精确的身份识别工作。
2020年人口普查的隐私预防措施更进一步。为了防止(令人恐惧地频繁的)精密数据攻击,美国人口普查局采用了一种被称为“差分隐私”的安全范式。这种向数十亿数据注入噪音的方法旨在防止用户不仅仅找到一个人,而是拼凑出整个画面。该机构的新防御方案,一种名为“TopDown”的算法,旨在保护该国的人口统计数据免受“数据库重建”这种新威胁。这种攻击可能被用来识别整个敏感人口。经过差分隐私保护后的合成数据 —— 计算机科学术语中指的是应用了这些保护措施后的表格 —— 应该可以防止这种情况发生。
数据隐私是有代价的,然而,随着人口普查局在未来几周发布其用于重新划分选区和其他目的的2020年数据,用户可能会看到数据在超局部级别的实用性(或表现出来的实用性)之间的权衡。差分隐私的批评者说,这是一个在寻找问题的解决方案。共和党州长和美洲原住民领袖等各方正在就差分隐私如何影响他们的数据提出直接问题。另一方面,这项安全措施的捍卫者表示,保护美国人的机密性对于巩固公众对人口普查的信心至关重要。数据隐私不是一种奢侈品;它是法律要求的。
2020年9月,人口普查工作者站在纽约市林肯中心外。摄影师:Noam Galai/Getty Images North America越来越多,辩论沿着党派线发展,从计算机科学家和社会统计学家之间的大多是理论争论,演变为在联邦法院的紧迫诉讼。这只是在发布重新划分数据后即将展开的战斗的前奏。2020年人口普查本来就是一个麻烦的事业:统计受到疫情挫折、政治诡计和预算短缺的阻碍。依赖人口普查数据的研究人员和其他人一直对人口普查局提供的数据质量感到焦虑。现在,一种保证数据隐私的复杂数学方法即将成为未来几周中政治地图上另一个极化但理解不足的维度。
“人口普查、选区划分和重新划分是美国最具冲突性的政治形式,而且是可以预测的,”哈佛大学定量社会科学研究所所长加里·金说道。“它们在历史上经常导致暴力事件 —— 比如在州立法机构的地板上发生拳击。这是一种极为原始的政治。”
制造噪音
在2016年选举之后,金想要研究世界上最大的数据库之一:Facebook。他多次前往旧金山湾区,说服该公司向哈佛的社会科学家开放其私人数据。研究人员并不是在寻找个人,他告诉Facebook,而是在寻找模式。
这是一次艰难的推销,金说,在前往门洛帕克的又一次令人失望的游说之后,他正在酒店房间里收拾行李准备回家时,收到了Facebook发来的一封电子邮件,内容是关于一场涉及一家名为剑桥分析公司的丑闻,该公司通过挖掘了大约8700万Facebook用户的数据来帮助当选总统唐纳德·特朗普。几天后,该公司召回了他。Facebook改变了主意。“市值一夜蒸发1000亿美元,让人警醒,”金说。
弄清楚如何访问Facebook的数据几乎和进入大门一样困难。金说,当时Facebook让某些员工获得几乎无限的数据访问权限。授权员工签出一台加密笔记本电脑,让他们可以跨平台查看 —— 每个在Facebook上点击的URL,点击它们的用户的每个细节,以及更多 —— 但监管机构永远不会给予学者这样的访问权限。这项任务是巨大的:研究人员需要在没有预先出版批准的情况下编写他们想要的内容,同时确保真实数据永远不会离开Facebook的设施。
花了两年时间才提出了一个系统,以授予外部学者访问权限。解决方案是差分隐私:研究人员现在可以访问一个隐私保护的Facebook用户数据集,其中包含40万亿个差分私密单元。
“我们的目标不是在一堆草堆里找针,”金说。“我们的目标也不是弄清楚你是否在分享假新闻。我们想要弄清楚的是,哪种类型的人在分享假新闻。”
人口普查数据存在一些相同的问题,但适用范围更广,从社会科学到联邦资金。从1990年到2010年,该机构选择的隐私保护方法是交换或甚至抑制那些太小的数据值。目标是确保用户无法确定在任何给定地点是否有任何特定个体与人口普查描述的人相符。研究人员使用数据进行深入分析时,对所看到的内容应该越来越不自信。这种权衡被称为隐私损失预算,在该领域中用 ε 表示,这是一个度量标准,其值范围从完全数据隐私到完全数据准确性。
噪音是为了发布聚合结果而必须付出的代价,而不是直接发布数据。了解添加了多少噪音有助于科学家(以及间接地,领导者和选民)知道对结果应该抱有多少信心。但在过去,用于模糊人口普查数据的算法是一个严密保守的秘密。公众无法知道由于这种安全性通过混淆的方法所添加的偏见(即对实际数字的更改)有多少。
“如果我们只是假装数据准确并忽略测量误差,那么我们将得到错误的答案。我不知道替换数据而不告诉每个人的后果。可能很大,可能很小,”金说。“由于有这么多东西是从人口普查中计算出来的,对这么多人感兴趣的数量,几乎可以肯定,自1990年以来,成千上万的学者和公众人士做出的一些计算是错误的。完全错误。我们作为一个国家一直生活在其中,因为我们不得不在个人隐私和造福社会之间取得平衡。”
差分隐私使用户能够知道引入了多少噪音,误差边界以置信区间来衡量。虽然差分隐私的机制很复杂,但最终噪音总和为零,这意味着它不会在结果中引入任何偏差。对于非常小的地理区域(如人口普查区块),这种噪音可能表现为难以解释的数字:0或48甚至负数。但在更大的分辨率(邻里、城市或州),噪音会逐渐消失。
2020年8月,一台带有人口普查2020年访谈问卷的平板电脑。长期以来,不完整的问卷一直是人口统计学家的统计“噪音”来源。摄影师:Patrick T. Fallon/Bloomberg人口普查受访者也会通过不回答问题来引入他们自己的噪音,这是人口统计学家通过从其他行政记录中推断正确答案来解决的一个长期恼人的问题。“在我们不使用差分隐私的对照世界中,这不是一个拥有完美数据的完美世界,”宾夕法尼亚大学计算机与信息科学教授亚伦·罗斯说。
随着2020年人口普查,潜在风险不仅仅是个人身份。Roth解释说,通过对足够多问题的准确回答,一个复杂的用户可以解决整个数据集。只是解决足够多的代数问题的问题,过去40年数据库重建变得更容易。人口普查局将这种曾经理论上的威胁视为一种明显而迫在眉睫的危险。保护人口普查法律规定的保密性意味着确保这些数据泄露不会发生。
“如果你已经决定,无论出于什么原因,公布每个人的个人记录都是一件坏事,那么你也必须已经决定,公布足够多足够准确的聚合统计数据也是一件坏事,因为这将使某人能够恢复这些数据,” Roth说。
严重威胁,还是干燥的辩论?
2016年11月,人口普查局对自己进行了数据库重建攻击。局长科学家约翰·阿博德组建了一个精英团队,使用摘要表格重建了每个美国人的2010年人口普查记录:性别、年龄、种族、族裔和街区级别位置。两年后,该团队完成了这个项目,为2010年人口普查表中的近80亿个数字组装了一个几乎完整且高度准确的匹配。使用相同的方法和现成软件,纽约时报能够为曼哈顿复制这一过程。阿博德描述了数据库重建的前景为“公共使用详细表格和微数据集的丧钟,因为它们一直以来的传统准备方式。”
当人口普查局正在意识到21世纪的数据攻击时,特朗普政府试图在2020年的人口普查中添加一个公民身份问题,引发了全国对极端党派利益操纵的警报。尽管这一努力失败了,人口统计学家仍然指出公民身份问题来支持更严格的数据安全。一个最糟糕的情况已经发生:在第二次世界大战期间,人口普查局向战争部门提供记录,以识别成千上万的日裔美国人并将他们重新安置到拘留营。
如果恶意行为者获得了被泄露的人口普查数据,他们可能会做些什么?差分隐私的支持者提出了一些假设情况。例如,美国住房和城市发展部门可以使用人口普查数据找到那些滥用第8款优惠券的家庭。家庭暴力施虐者可能会发现这些数据对追踪受害者很有用。人口普查数据可能会揭示那些不希望公开的人的性取向。
尽管存在这些不祥的情景,差分隐私的批评者表示,安全风险被夸大了。
“隐私很重要。我们需要采取一些披露控制措施来保护人口普查受访者的隐私,”明尼苏达大学社会研究与数据创新研究所的空间分析主任大卫·范·瑞珀说。“我不确定在十年一次的人口普查中发布的数据是否需要差分隐私。”
或者正如他的明尼苏达人口中心同事史蒂文·拉格尔斯所说:“整个问题都是虚构的。”
拉格尔斯已经成为对差分隐私的需求最为强烈的反对者之一。作为全球最大的人口数据库IPUMS的主任,拉格尔斯抨击了人口普查局提出的每一个论点。他利用人口普查数据演示,警告存在着没有成年人报告为居民的“蝇王”式区块和其他边缘怪异现象。拉格尔斯表示,任何人会花费数百万美元来重建人口普查以获取其数据(年龄、种族、性别、种族等等)的想法是完全荒谬的。他说,唯一威胁滥用人口普查数据的实体是美国政府,这一事实也得到了围绕人口普查的公众恐惧的证实。他还表示,该机构的数学也是错误的:在即将发表的一篇论文中,拉格尔斯和范·瑞珀表示,人口普查局的数据库重建实验的表现并不比基于随机猜测的构建人口更好。
“这是约翰的科学项目,”拉格尔斯指的是阿博德和差分隐私。“他让很多人对这种并不存在的严重威胁感到担忧。”
“在我们保护数据的热情中,我们正在伤害我们正在保护的同样的人。”
差分隐私的另一位批评者指出了更广泛的学术分歧。加州大学戴维斯分校的计算机科学教授诺姆·马特洛夫表示,计算机科学家和统计学家对世界的看法不同,在他们之间持续不断的冲突中,统计学界正处于劣势。马特洛夫将差分隐私描述为一个“强大的力量”,已经主导了这一领域。他说,统计学家更加敏感于整个合成数据概念可能会侵蚀公众对人口普查项目的信心;他说,对差分隐私的很多公众反对意见归根结底都是出于这个原因。
“任何一种隐私措施在某种程度上都是合成的,”马特洛夫说。“在人口普查对差分隐私的方法中,每一份数据都将是合成的,而不是数据交换,那里只有一小部分数据被交换。”
范·瑞珀表示,他希望人口普查局发布更多研究,展示在差分隐私和其他披露规避技术下,不同人口普查研究产品的比较情况。
根据两名未获授权发言的机构人员透露,一个由九名团队成员组成的团队确实进行了这样的审查 —— 该项目甚至赢得了内部工作奖 —— 但结果并未公开。人口普查局没有回答有关该项目的问题。
拉格尔斯同意,如果整个人口普查被海盗或顾问以某种方式重建,那确实会对人口普查造成打击 —— 但他认为这种可能性不大。此外,他说,人们可能会对此不屑一顾或将其加入他们对调查的其他担忧中。“人们经常对人口普查提出各种指控,包括他们将这些数据提供给国税局,并将其用于抓捕移民,”他说。“一般来说,我相信这些对回应率是有害的。如果有人声称成功发动了攻击,我认为这不会更有害。”
支持差分隐私的人承认,不可避免的权衡也可能影响人们对人口普查的看法。这是一个关于政策、民主的问题,是否应该牺牲一定程度的数据隐私来换取更大的数据效用。但对于像自由岛这样一个小地方的统计数字看起来如此离谱,这并不是一个缺陷,而是一个特性。这是为了保护特别脆弱的社区。
“对于这些人口中的特定成员来说,对他们来说什么更有价值?”罗斯说,“Steve Ruggles得到关于他们的准确统计数据,还是他们拥有更强的隐私保护?”
一个解决方案:双重数据集
三月份,阿拉巴马州 提起诉讼反对美国商务部使用差分隐私进行选区数据的初步禁令。 另外十六个州,其中大多数由共和党领导,为原告提交了友情意见书。历史学家 Margo Anderson,撰写了多部著作关于人口普查的书籍之一,也是20年前揭示人口普查局在日裔美国人拘禁中所起作用的学者之一。
阿拉巴马州输掉了它的挑战,主要集中在推动更快发布重新划分数据。但它提出了一些关于新隐私措施如何影响重新划分的高层问题。例如,根据简报,犹他州立法机构使用演示数据报告失去了近1.5万居民。两个小镇失去了一半的人口。人口普查局的 电子邮件揭示了内部对安全措施的分歧。“数据必须反映现实世界中所见的情况,因为它被用来改变现实世界与自身及政府的互动方式,”人口普查局重新划分和选举权数据办公室主任詹姆斯·怀特霍恩在2020年9月写给阿博德的一封电子邮件中写道,该电子邮件被包括在 阿拉巴马诉美国商务部的陈述中。“这并不意味着我不理解我们保护公众数据的义务,只是看起来在我们保护数据的热情中,我们正在伤害我们正在保护的同样的人。”
其他各方也在2020年人口普查之前发表了看法。代表美洲印第安人和阿拉斯加原住民(AI/AN)部落国家的美国印第安人国家大会(NCAI)在过去两年中概述了其对原住人口的负面影响的担忧。最近,该组织对阿拉巴马诉讼揭示的内部机构沟通提出了异议。电子邮件讨论了一个提议,即通过确保他们拥有更高的隐私损失预算来使部落地区的计数“基本不变” — 这意味着部落地区的小区块中的噪音更少。一个局方官员在2020年10月的一封电子邮件中反对了这一建议:“我们不能承诺做一些明显让一个种族群体获得优势而损害其他所有人的事情。”
在2021年5月致人口普查局的一封愤怒信中,NCAI指出,在2020年11月的人口普查演示和随后的2021年4月之间,更多部落人口显示出减少。结合在阿拉巴马州诉讼中的揭示,这一初步发现引发了令人不安的担忧:可以调高ε值的同一管理层也可以将其降低。如果人口普查局由于种族或族裔问题而使部落地区的任何数据不够准确,NCAI首席执行官丹特·德西德里奥在信中写道,那么该机构就犯了“一个重大而不祥的错误”。
至于阿博德,他在阿拉巴马州诉讼的补充声明中辩称,所有ε旋钮(“数百个可微调参数”)都是更大人口普查机器的一部分 —— 这个机器“不会也不会将更大的隐私损失预算分配给任何特定的人口统计学组或子组”。
人口普查局有一个主要工具来试图消除区块级别的任何混乱。为了避免由噪声引起的任何令人费解的结果 —— 分数人口、负计数等 —— 人口普查算法会用整数替换不合理的数字。在这个后处理步骤中,州级人口保持恒定,这意味着失去人口计数和获得人口计数的地区之间存在零和。虽然这一步骤使数据看起来更友好,但后处理引入的偏见可能是显著的。
“在后处理文件中,它往往会使分隔区域看起来更加分隔,而不那么分隔的区域看起来更少分隔,”哈佛法学院选举法诊所主任露丝·格林伍德(Ruth Greenwood)说。“在重新划分选区的背景下,这可能是一个问题,因为你试图确定有色人种居住的地方,并应该能够在一个选区内一起投票选举自己选择的候选人。如果数据没有准确地反映地面上正在发生的情况,那么很难在法庭上提出他们应该拥有的政治权力。”
在7月26日的一篇波士顿环球报*(Boston Globe)*的专栏中,三位哈佛学者(格林伍德、金和辛西娅·德沃克(Cynthia Dwork))提出了一个解决方案,他们称这个方案将满足所有(或大多数)批评者的要求:发布丑陋数据,“有噪音的测量”数据文件,并信任研究人员和分配者去做他们的工作。将其与后处理文件一起发布,以满足对简单整数的普遍需求。“后处理文件非常适合媒体向公众展示,‘这是一个点密度地图,大致上发生了什么。’它为你提供了地面上正在发生的情况的表现,”格林伍德说。
这篇专栏的三位合著者在该领域有很大影响力:金发明了用于确定选区划分中种族和党派偏见的测试,该测试是根据《选举权法案》制定的。格林伍德在美国最高法院之前曾处理过多起重新划分选区的案件。德沃克是发明差分隐私的科学家之一。他们将这种双数据集解决方案描述为“阿拉巴马州和拜登政府商务部能够达成一致的罕见情况。”拉格尔斯和范里珀表示,他们认为发布两个2020年人口普查数据集没有问题,即使他们对差分隐私的担忧没有改变。
到目前为止,格林伍德表示,这篇社论还没有引起人口普查局的回应。
虽然现在已经太迟解决大部分困扰2020年人口普查的其他问题,但该机构仍然可以发布数据文件,解决至少一些州在重新划分选区时将面临的问题。这可能对面临查询失败前景的人口统计学家来说是一种苦涩的安慰。而要解释为什么人口普查故意显示自由岛上空无一人,仍然是一项艰巨的任务。
隐私阵营表示,他们认为这样做比有一天美国人醒来发现整个人口普查被黑客攻击要好。
“认为人口普查人员就是真实的人是错误的,”格林伍德说。“有真实的人,还有人口普查所描绘的那些人。”