APUS研究院 | 1.3亿条开房记录的泄露原本可以这样避免_风闻
APUS-麒麟合盛(APUS),中国互联网出海领航者2018-09-03 11:35
距离欧洲GDPR的实施已经过去三个多月,在中文互联网的世界里,这个法规的热度一直在下降,毕竟欧洲距离我们太遥远,需要真正去应对GDPR的中国企业也太少,所以热度的下降无可厚非。更何况,目前介绍欧盟《通用数据保护条例》(GDPR)的文章和评论早已汗牛充栋,很少有人能再讲出新意。
但是,GDPR对中国企业来说,真的只是停留在法规中的概念吗?事实上GDPR一定程度上重构了数据世界的隐私安全与保护的理念,这不仅局限于欧洲,而更多有向世界上更大范围扩展的趋势。更重要的是,GDPR中的概念和理念并不是纸上谈兵,而是真真切切能够帮助我们正确处理隐私安全与保护问题。
就在上一周的8月28日,国内知名连锁酒店集团——华住集团被爆出数据泄露事件:根据媒体报道,涉及的数据包括身份证、手机号码、邮箱、登陆密码等官网注册资料,共 53G,约 1.23 亿条记录;还有包括身份证号、家庭住址、姓名等入住登记身份信息,共 22.3G,约 1.3 亿条记录;此外还包括姓名、手机号、邮箱、房间号、消费金额等信息在内的酒店开房记录,共 66.2G,约2.4 亿条记录。在看到这个消息的时候,作为隐私安全和保护的从业人员,笔者无疑是震惊的,不仅震惊于泄露数量之巨,更震惊于这些重要数据竟然没有得到妥善的保护。
熟悉GDPR的读者应该都知道,GDPR里明确界定了什么是“personal data”,而本次华住所泄露的数据毫无疑问都属于personal data的范围。对于个人数据,GDPR实际上主张的是“风险为路径”的保护理念,也就是说根据个人数据的不同风险值采取不同的保护程度与方式。GDPR里总的来说把个人数据划分为四个层次:
1. 已识别的数据,即能识别出具体自然人的数据,如华住事件中所泄露的姓名、身份证号、手机号等;
2. 可识别的数据,即通过一定的假名化处理,但保留了源数据且数据能够可逆的数据;
3. 去标识化的数据,即已经“无法识别出特定个人”,比如上文的消费金额、消费日期等数据单独来看实际是无法识别出特定个人的;
4. 匿名化数据,指已经无法完全与单一自然人关联的数据,如已经抽象化的用户画像。
其中去标识化,也就是GDPR中提出的“Pseudonymization”,是一个非常有新意的概念,它指的是“…the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person”,简单说就是这些数据与个人的身份完全脱钩,单独来看已经无法识别出特定个人。
回到华住的事件上来,GDPR的这套“风险为路径”的理念如何能够更好的帮助我们做好数据安全与保护呢?我们自己也进行了复盘,虽然泄露风险不可能百分之百避免,但做到以下几点,至少能够把泄露后的损失降低到最小:

1. 对数据进行分类建库管理,可以借鉴GDPR的理念和企业的商业需要,将数据进行风险分级,对于不同风险级别的数据单独建立数据库同时采取不同的权限控制系统。
以华住事件为例,姓名、电话号码、身份证号、家庭住址、邮箱号等个人隐私数据应该是最高权限的数据库并单独保管,一定权限以下的员工不应该能够直接获取。
2. 对必须识别的个人数据作最大程度的非关联和假名化。
我国法律法规对酒店服务的实名制度有强制要求,酒店确实必须保留客户的个人隐私数据和所有入住记录,但在数据分级管理的基础上,对于必须连接的数据库之间应该采取必要的假名和加密处理,如客户的个人隐私数据与客户的入住数据就应当是两个独立的数据库,同时二者之间的连接信息(如姓名、身份证号、手机号)应当遵循“最小必要”原则,不是必要的连接信息就应当不使用(如能用身份证号就没必要使用姓名和手机号),在此基础上连接信息应当进行加密处理,或者如果没有法律法规的强制要求,则应当为用户建立加密的虚拟ID,使用加密虚拟ID作为连接信息,使得任何单一数据库的泄露都无法获取完整信息,即便数据库整体泄露也无法直接建立关联而必须进行解密。
3. 对企业内部大数据和商业分析的数据采取去标识化。
其实,企业采集的一部分数据本身并不是为客户直接服务的目的和法律法规的要求,而是为了进行大数据和商业分析,那么对于这部分数据就应当坚决与用户识别数据脱钩,如房间等级、消费金额、消费内容等,这些信息应当在完成用户画像的基础上彻底与个人识别数据脱钩,既减少了企业的合规与保护成本,同时也能够最大程度地减少用户的数据泄露风险。
从华住事件来看,中国企业在隐私数据安全和保护上所作的工作仍然远远不够,GDPR对于我们来说并不是“屠龙术”,而是切切实实能够帮助提升安全保护能力的指导理念与工具,值得所有中国企业和从业人员在理论和实务中去深入学习与实践。
APUS研究院
APUS旗下专注于全球互联网发展研究的智库平台,是面向未来移动互联网创新变革的孵化器及加速器。
