构建智慧城市的智能、安全方式 - 彭博社
bloomberg
麦迪逊·麦克维/城市实验室你不需要深入挖掘就能发现开放数据倡议可能出现的问题。只需回顾2014年,当时纽约市出租车和豪华轿车委员会发布了数亿条关于城市出租车行程的记录,数据经过匿名处理以保护可识别的细节——至少在理论上是如此。实际上,这些数据以一种格式记录,使得一名软件工程师可以 重新识别出租车和司机的牌照号码。一名 Gawker 记者随后将其与 在城市中乘坐出租车的名人 关联起来,推测他们所走的路线,甚至他们给的小费。
彭博社城市实验室麦格理的新总部被称为“迷你人”阿根廷毒品贩运热点谋杀案激增在一个年轻人的城市里,市长的标志性政策是学校午餐机器人出租车对公共交通并不友好这当然不是有史以来泄露或被黑客攻击的最敏感数据,但它确实重要地说明了城市在发布来自其众多组成机构的数据时面临的风险;这些影响往往在信息进入公共领域后很久才显现出来。
近年来,随着西雅图大都市区发展成为一个繁荣的科技中心,该市在发布公共数据方面开创了一种进步且经过深思熟虑的方法。市政府正在慢慢而坚定地制定他们希望能成为全球“智慧城市”模型的计划。这个计划的一个关键部分是在2016年,当时该市通过了一项决议,规定所有市政数据将“优先开放,”而不是“默认开放”。正如西雅图信息技术部的开放数据项目经理大卫·道尔所解释的,这一额外的谨慎措施旨在使城市在一开始就更加审慎地对待其数据实践。
“政策最初是以‘默认开放’为目标制定的,但考虑到隐私等因素,这并不真正可行,”他说。“西雅图采取了一种更为细致的优先开放的方法:这意味着在我们减轻隐私风险、发布个人身份信息和其他类型的伤害后,我们可以开放[数据]。”
从本质上讲,默认开放政策意味着“先发布,后提问”:所有市政府机构收集的数据集——警察局、住房管理局、交通部门等——将在线发布,除非有明确的理由不这样做。优先开放则意味着一种更为审慎的方法:市政数据集会主动评估,以便在可能的情况下发布,但仅在经过市政府官员审查后。
在一个例子中,道尔解释说,城市的老龄化和残疾服务的数据被发布,以支持一个专注于解决可及性挑战的黑客马拉松。由于关于残疾、收入、种族和确切位置的数据极为敏感,来自多个部门的团队共同合作,将其分组为社区段和年龄段,减少可识别性,同时仍为活动参与者提供有用的资源。
作为2016年开放数据决议的一部分,西雅图还承诺每年公开发布其开放数据计划的风险评估。今年,专注于隐私的非营利组织隐私未来论坛(FPF)被委托承担这一任务,最终在8月发布了一份草案报告,目前正在接受公众意见。
该报告不仅旨在分析城市在数据发布方面的进展,还旨在制定一个评估开放数据倡议整体风险的框架。其目的是列出明确的标准,以判断发布某个数据集的利弊,从而得出一个可以指导如何进行决策的评分。
然而,正确评估隐私泄露的风险是一项困难的任务:某些个人数据很容易被归类为过于敏感而不适合公开发布——社会安全号码就是一个例子,或者至少应该是。但其他数据则处于灰色地带。例如,公开某些医疗信息对流行病学研究很重要,但关于特定医疗状况的细节不应能追溯到个别患者。
为了获得敏感但不秘密类别的潜在好处,数据通常在发布之前会被匿名化——但真正保证匿名性远比说起来容易。在2000年一项广泛引用的研究中,哈佛大学教授拉塔尼亚·斯威尼(当时在卡内基梅隆大学)发现,87%的美国人仅凭 性别、出生日期和邮政编码 就可以在数据集中被唯一识别。然后可以与选民记录交叉引用,以按姓名识别每个人。
这是像西雅图这样的城市在尝试发布匿名数据时面临的核心问题:当孤立时不具识别性的细节在组合时可以轻易变得唯一。
鉴于数字时代对隐私控制的迫切需求,得知个人识别信息的法律定义已经几十年没有更新可能会让人感到惊讶。在美国,“个人识别信息”是一个具有特定含义的法律术语,出现在 1974年隐私法中;但该法律在识别信息和非识别信息之间划定的界限忽视了现代信息安全的现实。
“问题在于,作为一个实际的技术问题,这是一种没有意义的区分,”民主与技术中心的政策顾问约瑟夫·杰罗姆说。“当你查看开放数据政策时,存在一个问题,即可以将多少不同的间接标识符放入数据中,才能得到完全识别某人的信息。因此在某种程度上,这是一场法律政策辩论,但它也是一场技术辩论……而答案并不明确。”
辩论的复杂性在于需要发布对分析有用的信息,同时又要保护用户隐私,这两个因素往往是直接对立的。从技术上讲,如果组内每个个体在每个变量上的得分完全相同,那么数据的识别性最低——但这样数据实际上是毫无意义的。根据定义,有用的数据必须在某种程度上具有识别性,并且必须对两者之间的界限做出判断。
作为指导,统计去识别化专家Khaled El Emam建议任何数据集应包含不超过六到八个间接标识符,并且应进行修改以确保达到一定的“k-匿名性”:这个术语意味着即使通过组合间接标识符,始终会有最少数量的个体共享相同的值,从而使得没有任何记录是完全独特的。
所有这些技术和法律限制使得城市很难知道数据是否已经处理得足够好,可以安全发布。市民更难知道他们是否可能从给定的数据集中被识别出来。更复杂的是,市政府与私人公司不同,可能还会被迫根据公共记录法披露信息。
正是这种情况导致纽约的出租车和豪华车委员会发布了不足以匿名化的出租车行程数据。如果不是因为一位信息自由活动家的请求,这些数据本来不会被公开披露。
丹·贝瓦利是国家信息自由联盟(NFOIC)的执行董事,该联盟由倡导开放政府的公民社会团体组成。尽管他的组织游说以实现更大的透明度,但他也意识到谨慎的必要性,并建议为公共记录请求预算更多的时间和资源,以帮助在不限制信息获取的情况下实现这种平衡。
贝瓦利说:“我们看到一个需要更多专业化的领域,那就是公共记录管理者。我们认为必须提供更多的正式培训,主要是因为立法的变化和技术在管理信息和沟通中的日益使用。”
他还认为,公共机构可以更积极地提前发布经过适当清理的信息,从而减少在回应公共记录请求时处理不当披露的风险。但尽管贝瓦利和其他专家在塑造开放数据辩论中发挥着关键作用,但征求最大利益相关方的意见也是至关重要的:公众。
FPF在西雅图的评估的公众发布和咨询期是朝着这一目标迈出的一步,并且在实践中,也与面对面的外展活动相结合。项目经理大卫·道尔经常在会议和其他活动中发表演讲,比如西雅图公共图书馆的开放数据素养系列。尽管如此,他承认:“这确实是一个很难向公众解释的话题。”
根据政策顾问约瑟夫·杰罗姆的说法,如果我们想要促进开放性,我们也应该尊重那些不想参与的人的选择。
“我认为我们需要促进的不是个人的能力,而是社区的能力,让他们能够选择不参与这种事情:我认为这是选择退出能够发挥作用的层面,”他说。
尽管如此,杰罗姆表示,这在实际操作中并不明确;尚未出现任何大规模的开放数据选择退出,或许这表明了实施这一过程的困难。
随着开放数据运动的不断发展,围绕利弊的辩论能够以适合该主题的透明度进行是很重要的。并不是所有城市政府都具备像西雅图那样的财务资源或技术知识,但全国各地的小型政府仍然可以从大城市的成功与失败中学习。