大数据+基因剪切,贺建奎不懂的 “DNA语法”有眉目了?_风闻
马前卒-马前卒工作室官方账号-万丈高楼平地起,NB社区在这里2018-12-17 07:53
序
上个月,贺建奎做人体基因编辑之时,有位程序员对他的行为做了比喻式阐述:
“一个上千亿行代码量的复杂系统,目前人类没有任何人能够读懂代码,但是却有了源代码和编辑器。这个时候有人删掉了两行代码,测试跑起来了。之后他还打包发布,并对外宣称修复了某个bug。”
话音未落,11月27日,《自然》的《生物技术》子刊(Nature Biotechnology)上刊登了一篇题为《预测由cas9诱导的双链断裂修复产生的突变》的论文。
(Predicting the mutations generated by repair of Cas9-induced double-strand breaks)
针对目前基因编辑存在的可靠性问题,该论文阐述了一种新分析方式,使CRISPR-Cas9的基因编辑作用更可靠。可以说,人类在解读基因编码模式、准确改造基因的道路上迈出了重要的一步。
该研究由惠康基金会桑格尔研究所(Wellcome Sanger Institute)主导,在剑桥大学的医学研究所、古尔登研究所、生物化学系、英国痴呆症研究所以及爱沙尼亚塔尔图大学计算机科学系等机构参与下联合完成。这是当今人类对CRISPR作用机制的最大规模研究,并开发了一种方法来较为精准地预测CRISPR-Cas9模式的效果。
“迄今为止,我们对CRISPR-Cas9作用进行了最大、最全面的研究,并分析了超过1亿个DNA序列,以便我们研究这一过程。我们证明了细胞以相同的方式修复了特定的靶序列,证明细胞机制的作用是可重复的。“
——Luca Crepaldi博士,论文第一作者
在详细介绍该研究工作之前,我们先来看看号称“基因魔剪”的CRISPR工具的原理。
1**“基因魔剪”**
CRISPR是Clustered Regularly Interspaced Short Palindromic Repeats的简写,意为规律成簇的间隔短回文重复。早在上世纪80年代末,随着对基因测序的研究,人类陆续发现:多种原核生物,包括真细菌和古细菌,都有21~37bp(base pair,碱基对)的片段在基因中不断重复。
直到2007年,人类才初步搞清楚这种不断重复的基因片段从何而来——这些DNA片段是细菌的获得性免疫,说白了,这些片段是曾经入侵细菌的噬菌体病毒或外源质粒。细菌的免疫系统为记住这些“入侵者”特征片段,便于下次遭受攻击时快速反应,用与该特征片段关联的蛋白质(简称Cas/CRISPR
associated蛋白质),将该片段整合到自身基因的短回文重复片段(CRISPR)中,形成免疫记忆。因此Cas基因与CRISPR序列在微生物进化史中共同进化。迄今为止,已经发现了Cas1~Cas10等多种Cas基因。
换言之,CRISPR/Cas是一套通缉/核查系统。而Cas蛋白复合体可以将这些“入侵者”的外源基因的特征片段剪切,在其它酶协助下,将该片段插入CRISPR序列,然后在DNA自我修复机制下,将被剪成两段的基因链修复成完整的一条。
以目前国际上最热门的CRISPR-Cas9工具为例,CRISPR识别目标基因由两个部分决定,即gRNA(向导RNA)与一个名为“原间隔序列临近基序”的短DNA序列(简称PAM,编码通常为NGG。N可以是A、T、G、C中任意一个。)。当gRNA于PAM“捕捉”到靶向目标后,Cas9内切酶会将对应位置的DNA进行剪切。这就是“基因魔剪”的基本原理。

CRISPR工具目前尚不完善,除了人们常说的识别错误造成“脱靶”乱剪,事实上就算准确剪切了目标,在DNA自我修复过程中,仍然可能会出现其它问题。DNA在对断裂部分的自然修复机制中,会随机在修复时增减若干碱基,术语上叫做“微同源介导”。当然,如果DNA修复时,断裂部分不增不减恢复原状,CRISPR工具就没有意义了,人们利用的就是用这种方式破坏原有蛋白质的翻译过程,来达到阻断某一性状表达的效果。
但长期以来,人们对DNA修复机制在编辑中的作用都不甚明了。由于参与翻译DNA片段的tRNA的基本识别单位是3个碱基,因此如果被剪目标处,在修复过程中出现以3个碱基倍数的增减,则意味着原DNA翻译成蛋白质的过程仍将继续,只不过是相比原来增减对应数量的氨基酸。而对于蛋白质这样的大分子结构,微小的氨基酸“扰动”,可能在宏观性状上仍保持相似(无效),但“扰动”多了也可能会出现不可控的性状表达。

蛋白质合成过程,注意tRNA以3个碱基为基本识别单位
这是限制CRISPR工具走向大规模临床应用的最大障碍。
2****大数据实验
桑格尔研究所是学界顶级研究所之一,这些科研人员为了寻找DNA修复规律,提高CRISPR工具的使用效率,走了一条不同寻常的道路:大样本量实验,大数据分析。
想要做大样本量实验,就要把实验设计得足够简单;想做数理统计,就要把变量因素尽可能缩减。为此,要在人为控制的理想环境下,对不同的人造基因片段(DNA
constructs,构建体)进行海量重复实验——如果在细胞中实验,有可能受到细胞复杂环境(如自然突变)干扰,对实验结果的可靠性造成影响。因此实验设计如下图(Target为目标基因,前后的Context为人工添加的片段):

既然是研究CRISPR工具使用中DNA修复机制的规律,研究的任务就是目前人类已经实验过的各式各样的“剪裁案例”的比对分析——也就是大量重复在线数据库中已有的CRISPR实验。因此,桑格尔实验数的科研人员,在将实验材料从细胞简化成人造基因片段“靶子”的时候,要论证自己造的构建体,是否能有效模拟其它实验(不然论文都发不出来)。
所以在制造构建体的时候,研究人员逐个对96个gRNA分子的223个人类基因组靶位点进行了扩增和测序,结论是一致性很好,构建体作为实验材料,几乎完全与细胞内的体系一致:

一致性很好
论证了实验设计有效性后,科研人员们展示了第一部分实验成果。在针对K562细胞(第一个人类髓性白血病人工培养细胞系,实验研究通用材料)特征DNA的实验中,他们使用了此前人类已验证有效的6568种gRNA(业内有基因研究在线数据库)作为识别目标的向导,对不同目标进行了剪切,然后梳理每次剪切后的DNA修复情况,统计如下:

DNA修复结果统计来看,最常见的情况是增加了1个碱基,其次是减少了1~2个碱基(增加数>10或减少数>30超出测序设备识别能力)。
换成饼状图如下:

紧接着,对这些剪切案例进行多轮重复实验,得出如下统计:

实验的可重复性达到了61%。可重复、可验证,这就意味着有规律。科研人员对这些经过重复验证的案例做了大数据分析,得到了此前人们从来没想到过的分析结果。
首先,在DNA修复中,存在“微同源互补结合”的现象。形象点举个例子:“…AAATTTAAACC…”这段DNA序列中,两组一致的“AAA”就是“微同源”,而“互补结合”,就是当上述基因片段被剪切为“…AAA”与“TTTAAACC…”后,在DNA修复阶段,由于两段“AAA”在微观上一致,导致“…AAA”与“CC…”直接接在一起,变成“…AAACC…”。
当微同源互补结合的片段(如上述重复片段“AAA”)长度为9个碱基的时候,根据两段重复片段中间间隔的碱基数量不同(横坐标轴),出现微同源互补结合的概率(纵坐标轴)也不同。统计趋势拟合成的线性回归如下:

将上图推而广之,将重复片段从3到15个碱基长度的各种不同情况,分别做统计趋势的线性回归,可整理如下:

其次,上面我们提到,在DNA修复中增加1个碱基的情况是最常见的情况。而且惊人的是,在修复中增加的这1个碱基,99%都是重复PAM远端(切口的两侧中,距PAM较远一端)的末位碱基(比如从“…T”变成“…TT”):

而且进一步看,这99%的末端新增重复单碱基,在末端为A、T、G、C时的分布率不同。这意味着,增加1个重复碱基的情况,在PAM远端为不同碱基时,出现概率不同(末端为T时最易出现新增重复单碱基,为G时最不易出现该情况):

再次,上面我们也提到,除了增加1个碱基,还有丢失1个碱基的情况,出现概率仅次于增加1个碱基。对于该情况,大数据统计表明,大部分是DNA切口的两侧是2个相同的碱基,然后在DNA修复时丢失了1个(如“…C | C…”在左右合并后变成“…C…”):

最后,上面我们还提到,还有丢失2个碱基的情况,出现概率也很高。具体统计情况如下:

图中“|”代表CRISPR-Cas9对DNA的切口,X、Y、Z、W是指代4种碱基在切口两侧的不同排列方式。如在丢失2碱基样本中,占比达到50%的“XY | XY → XY”,举例来说,可能就是“…AG | AG…”在DNA修复中变成了“…AG…”。
由于“XY | XY → XY”在2碱基丢失的样本量中占了一半,科研人员进一步对该类现象做了统计。因为“X”、“Y”分别可以指代4种碱基(A、T、G、C)中的1种,所以“XY”就有了4*4共计16种组合可能。该16种组合情况出现“XY | XY → XY”2碱基丢失类型的频次如下:

出现概率最高的是“AG”与“TG”,也就是说切口两侧同时出现该碱基组合时,最易出现丢失其中1组的情况。
该研究中,科研人员还进一步比对了不同类型的细胞中,该剪切修复机制的可重复性。以上面提及的长度为9bp的微同源互补结合的统计趋势线性回归来看,不同细胞环境下的情况如下:

3****意义
长期以来,各国科研工作者都在为提高CRISPR工具的使用效率而苦恼。前不久新闻上闹得沸沸扬扬的贺建奎“疯狂试验”,之所以被学界一致批评,就是因为CRISPR工具还远不成熟,还不满足作为临床治疗手段的基本安全性要求。
事实也证明,贺建奎“疯狂试验”的两个案例全部失败,没有一个婴儿达成CCR5Δ32基因缺失的剪切效果。
现在,通过大数据比对,机器学习分析,科学家终于找到了一些模糊规律——虽然离指导临床仍然很远,但至少在CRISPR研究上,第一次有了接近基因编辑“底层逻辑”的基础规律层面的研究方向。我们翻开了DNA编码规则手册的第一页。
从语言学的案例看,失传文字的第一批语法最难发现,之后会越来越容易。由此展望,再过十几年,通过对基因编辑规律的不断精细量化探索,我们应该可以利用DNA修复机制,精准地达成预期编辑效果。届时,广泛的基因编辑将成为推动人类前进的强力引擎——如果你愿意称编辑过基因的人类为人类的话。
