达尔帕希望拯救我们免受自身危险数据的影响 - 彭博社
Paul Ford
插图 by 731作者威廉·吉布森曾坦言,他写了一个如此可信的恐怖主义阴谋,以至于他不想发表它。他把它从他的书中删掉了Idoru。“这个想法似乎如此可行且媒体高效,”他在2003年对Village Voice说,“以至于我觉得我不能让它曝光。”吉布森拒绝进一步评论。
如果他有心帮助,吉布森就是那种可以向美国国防高级研究计划局(Darpa)伸出援手的人。这个机构以其特有的偏执慷慨精神而闻名,给我们带来了杀手机器人和互联网,最近要求研究人员提交提案,研究自由可用的开放数据是否可以被武器化。
“一个资金有限的团体,”RFP问道,“能否仅使用公共数据实现国家级效果?”这意味着来自地理信息系统、市场数据库、Facebook、Twitter、开放网络——或者过去几十年中上线的数百万个新数据系统中的任何一个。是否有几个恶意行为者可以利用普通计算机和互联网造成大量美国人的死亡而不是黑客攻击——仅仅通过利用现有的可用数据?
在这个RFP发布的时机很有趣。Foreign Policy发布了“讽刺警报”,将Darpa的请求与最近泄露的关于国家安全局和间谍活动的消息进行了对比。“军方,”香农·哈里斯在FP的杀手应用博客上写道,“担心俄罗斯或基地组织会在翻阅人们的个人记录后造成全国范围的混乱。”
达尔帕担心并不一定是错的。公共数据绝对可以被用于恶意目的——我们已经看到人们被“曝光”后发生的事情,当网络义警找到他们的地址并公开它们。在中国,已经发生了数百起“人肉搜索引擎”——基本上是大规模曝光——聚集在一起,创建关于各种道德 outrage、腐败问题或通奸案件的巨大共享档案。事情在“恶作剧报警”中更进一步,其中恶作剧者假装是他们的受害者,拨打911,并以某种方式措辞他们的电话,以便协议导致警察特警队的到访。名人是常见的目标:迪迪曾被恶作剧报警。
所以你可以看到公式正在浮现:获取公共数据并从中提取有意义的东西,比如地址。了解导致特警队部署的执法程序。将两者结合起来,你就创造了一个危险的高风险局面。这里没有涉及“黑客”,在破坏计算机的上下文中。这只是社会工程。再说一次,人肉搜索引擎中的同样本能在整理和编辑维基百科时也在发挥作用。这些冲动可以转化为持久的利益。
这也是现代营销的命脉。拿一堆个人数据,将其与其他购买模式的数据库结合起来,瞧——你可以推断出谁怀孕了。作为一种文化,我们基本上对这些信息被用于模板商业(定向营销)和政治目的(红线划分和选区重划)感到舒适。但NSA的泄密事件清楚表明,这一切要深得多。我们不断生成信号,而这些信号不断被各种数字巨头所吸收。
现在达尔帕正在谈论“国家效应”。传统上,这涉及爆炸和枪支,但越来越多地涉及数据。进行有毒的猜测相对容易:假设一个国家或恐怖组织想要制造巨大的不和,并假装是一家大型公共公司,向美国成千上万的孩子发送含有蓖麻毒素的“样品包”水果零食。考虑到我们国家媒体的覆盖范围,以及美国邮政服务 拍摄我们所有邮件的照片,等等,这 可能 这样的行为可能会导致巨大的不和和疾病。但很可能,这场悲剧会被我们所建立的监控和控制系统所最小化。
或者从长远来看:想象一下,美国通过国家安全局不断监视自己的公民,实际上确实如此。中国的某个人购买了一份几百万美国人的名单,这些人开始收到中文电子邮件。这些信息大多数被归类为垃圾邮件。然而,随着时间的推移,国家安全局的勇敢调查员和他们的统计分析工具观察到,这些信息不仅仅是关于打印机墨粉的惊人优惠,还包括关于各种城市中心的惊人信息,以及日期和时间、航空旅行信息等等。如果你要发送编码信息,将其放入垃圾邮件中是一个很好的方法。你如何在那几百万个人中找到目标收件人?当然,这也是一个很好的方式来欺骗你的敌人。所有的数据都可能是假的;可能根本没有间谍。如果你创建了这样一个蜜罐,让人们认为你的垃圾邮件活动实际上是一个间谍网络,你可能会在全国范围内引发恐慌。
国家-国家效应!而且没有一枪被发射。
在过去,公共信息的数据库曾被发布并用于恶意或新闻目的。AOL在2006年发布了“匿名化”的搜索日志,这使得查找谁在进行搜索变得轻而易举。Netflix发布了大量使用数据,研究人员找出了谁观看了哪部电影。统计数据是一种强大的工具,这正是达尔帕提案特别关注的:衡量数据库的“可曝光性”。该小组正在寻求“创建工具、技术和方法论,以衡量给定公共数据集中的脆弱性。”达尔帕希望研究人员提出一个系统,用于分析给定的数据块并找出其是否脆弱:
“非国家行为者在多大程度上能够收集、处理和分析一组购买和开源数据,以重建组织档案、财政脆弱性、物理资产的位置、工作模式生活以及其他信息,以便对特定能力进行有针对性的攻击。”
最大的问题在于框架。因为基本上已经太晚了。普通公民凭借 谷歌地图、天气预测、电子表格和短信,拥有无与伦比的战争能力。准备D日对于使用iPad来说将是轻而易举的——你拥有内置的GPS、地图、卫星视图和天气预测。再加上我们生活在一个大数据的世界,这意味着你可以以过去需要间谍网络所有努力的方式来针对个人。如今,普通人已经被预先监视,无需间谍活动。
那么,达尔帕寻找大数据床下的怪物是错的吗?研究人员应该申请,因为政府正在发放资金。如果有一种有意义的统计方法可以揭示如何发现大型数据集中的漏洞,那么发现这一点将对社会产生净收益。即使它是机密的。科学第一。
但是,是的,将开放网络变成怪物工厂仍然是个坏主意。因为这会在哪里结束?你怎么能确定?你不能预防性地将 每个 数据源与 每个其他 数据源结合起来。(真的,连NSA都没有那种计算能力。)不仅如此,这种数据源的组合赋予了网络其经济推动力。攻击者可能会查看居住在克利夫兰周围的人的名单,并考虑如何攻击他们的水供应。团购网利用相同的数据向人们提供优惠券。我们正在以廉价获取曾经私有的数据为基础构建新的经济。Facebook和Twitter都是制造这种数据的工具,以便它们能够提供更高效的广告产品。当然,它们的规模超过了许多国家本身。
达尔帕真正要求数据科学家做的是提出一个指标,指示给定的精灵离给定的瓶子有多远——为一个巨大的国家失误量化,某种潘多拉概率。然后你可以扫描大量数据库,找出它们究竟能向世界释放多少邪恶。你可以测量整个互联网的整体邪恶潜力!
这听起来有点棒。但换个角度来看问题:美国显然已经失去了对私人数据的公民责任感。没有国家层面的隐私意识。唯一的解决方案就是关闭数据管道,但就像我们的石油供应一样,这几乎不可能发生。我们需要做的事情——停止随意使用社会安全号码等唯一标识符,停止用“第三方”cookie跟踪人们,停止跟踪位置——几乎都不是受欢迎的选择。而最终的解决方案——让一切都选择加入并默认匿名,并安全加密计算机之间的所有流量——虽然可行,但会让依赖于持续客户监控以维持利润的经济中越来越重要的部分感到震惊。
真可惜。人们应该有方式分享各种信息,而不必担心这些信息会被廉价出售给几乎任何竞标者,也不必担心他们的数据会被转化为某些坏人的知识。因此,我们最终陷入了这样一种局面:模糊的国家可能会窃取我们的开放秘密,将它们与其他开放秘密结合起来,并利用这些秘密发动战争。
真正的问题在于,政府通过这个达尔帕RFP资助的是分析性的权宜之计,而不是考虑如何保护其公民。一旦潘多拉概率建立起来,那又如何?互联网威胁等级?数据库锁定?我可以在一个便宜的硬盘上保存美国每个地址的列表,仍然有足够的空间存放几百部盗版电影。
这才是真正的担忧。一旦政府拥有了潘多拉概率,它是否会再次尝试封锁互联网中可怕的部分,或者至少是那些代表风险的部分?它是否会逆向追溯到源头,试图保护其公民不将自己生活中大量有价值的部分交给不断发出提示的手机?考虑到我们面临的两个不可能的任务,难道不应该更好地防止风险数据的产生吗?因为知识一直是危险的。而且它永远会是。