《华尔街日报》:保护基因隐私为时已晚,数学原理揭示原因
Josh Zumbrun
远至第五代表亲之间共享的相同DNA数量之多,使得共同祖先成为唯一可能的来源。图片说明:安德鲁·布鲁克斯/图片来源/盖蒂图片社今年早些时候,俄勒冈州尤金市警方表示,他们已确认一名连环杀手身份,该男子在1986至1988年间犯下三起谋杀案。约翰·查尔斯·博尔辛格之所以能彻底逃脱追查三十年,是因为他早在1988年就已自杀身亡。
调查人员保存了犯罪现场的DNA样本,近期通过将其输入家谱数据库,首先锁定博尔辛格的远亲后最终确定其身份。这是执法部门利用家谱爱好者开发的技术,侦破日益增多的悬案中的最新案例。通过DNA样本找到几位二代表亲、三代表亲,再利用公开记录重建凶手的家族谱系。
若你担忧其中涉及的隐私问题,或许会想:“我绝不会把自己的DNA提交给这类网站。”
这想法看似合理?事实上,仅靠个人回避早已无法完全保护基因隐私。通过遗传学数学原理的简要分析,就能理解为何现在能通过远亲追查到凶手——乃至任何人。
“如果有人想运用法医家谱学家的技术,通过三代表亲来追踪你,他们完全做得到,“斯坦福大学隐私学者珍妮弗·金表示。
要了解你的基因可能暴露的程度,可以考虑一个不太为人所知的测量单位——厘摩(cM)。(它以托马斯·亨特·摩根的名字命名,他因对果蝇的实验在1933年获得诺贝尔奖,该实验揭示了染色体的遗传方式。)如今你读到的所有关于人们通过DNA和家谱研究发现未知联系的故事,其核心都离不开这个概念。
它衡量的是遗传距离,具体来说,是由于共同祖先而两个人共享的相同DNA片段的长度。
一般来说,人们大约有6,800厘摩的DNA。一个孩子从每个生物学父母那里继承一半的DNA——一组染色体。因此,孩子和父母将拥有大约3,400厘摩的匹配DNA。
(由于方法学上的细微差异,主要的测试公司报告的数字略有不同。)
每增加一个“亲缘关系度”,共享的厘摩长度就会减半。与父母相差一个亲缘关系度的叔叔或祖父母,平均共享的DNA数量减半,即25%,约1,700厘摩。再增加一个亲缘关系度:表亲或曾祖父母共享的DNA再次减半,约850厘摩。以此类推。
即使经过所有这些减半,远至第五代表亲的非常遥远的亲属之间仍然共享如此多的相同DNA,以至于共同的祖先是唯一可能的来源。
“我认为大多数美国人没有意识到这一点,”《迷失的家庭:DNA检测如何颠覆我们的身份》一书的作者莉比·科普兰说,“这是一个深刻的转变。”
寻找远亲很容易,因为一个普通人拥有如此多的远亲:根据不同的方法,大约有200个三代表亲,超过1000个四代表亲,以及5000到15000个五代表亲。
这不仅与犯罪现场有关。真正匿名的精子或卵子捐赠者、未知的父亲或封闭的领养已经不存在了。这些都是涉及亲子关系的秘密很容易被厘摩(centiMorgans)解决的例子。任何法院判决或保密协议都无法抹去这一科学。
一个不知道亲生父母的被领养孩子仍然与该父母共享3400厘摩的DNA,并与该父母家族的众多表亲共享数百厘摩。这个孩子,或者几代后这个孩子的后代,可以将他们的DNA上传到一个数据库中,通过寻找与其他上传DNA的人的匹配,发现一些远亲。这足以重建他的家谱并识别出父母,即使父母从未上传过他们的DNA——这与用于冷案DNA识别的过程完全相同。
倡导防止基因信息被滥用的遗传学与社会中心副主任凯蒂·哈森表示,只有集体行动——而非个人预防——才能解决由此产生的隐私问题。
“目前,法医系谱学应用仍处于高投入的新兴阶段,主要用于重大刑事案件和悬案调查,”哈森女士表示,“若缺乏切实可行的强制约束与法规限制,这类技术很难仅局限于此领域。”
检测规模极为庞大:根据国际遗传谱系学会数据显示,AncestryDNA拥有约2100万样本,23andMe存有1200万,MyHeritage达560万,FamilyTreeDNA则持有170万份。
法律保护存在明显空白。2008年《遗传信息反歧视法案》虽禁止将基因数据用于健康保险与雇佣决策,但立法时未能预见当今检测的普及程度、前沿医学研究的多样性,或是当拥有海量基因数据库的企业破产时可能出现的状况——比如数百万人的基因数据(每个样本都能匹配数千名远亲)在破产拍卖中被出售该怎么办?
在我的大家族中,有位远亲通过联系DNA匹配的陌生表亲,发现其曾曾祖父并无血缘关系。所有新确认的表亲都指向另一名祖先:1862年内战期间,有位士兵曾与她曾曾祖母在同郡驻留一个月,约九个月后便有婴儿出生。(应其要求隐去姓名。即便时隔160年,某些秘密仍令人难堪。)
这位内战士兵、他在1862年短暂邂逅的女子,以及20世纪80年代俄勒冈州尤金的连环杀手之间,真正只有一个共同点:他们从未向检测机构提交过DNA样本。但这并不重要。他们的厘摩单位遍布各处。
致信 Josh Zumbrun,邮箱:[email protected]
刊登于2022年5月21日印刷版,标题为《基因隐私缺失背后的数学原理》。