看图详解剑桥大学PNAS文章分析SARS-CoV-2病毒系统发生_风闻
今天敲钟人不来-2020-04-11 15:47
来源 | 谭亚娣(yaditan)
谭亚娣,药理学博士,从事药物开发和医疗相关国际交流工作。
一起读源头文章,看看和道听途说的结论有何区别。
昨天大家突然都讨论起一篇学术文章。我也认真研读了一下。发现广为流传的中文解读未必就是最完整和可信的信息,因此想和大家一起来看看数据。
文章题目和作者如下:

这一篇四个作者,来自多个英国和德国的五家单位,包括德国法医遗传学研究所,剑桥大学XX考古研究所,英国X科技公司,英国某医疗机构,德国某大学临床分子生物学研究所等,有的作者跨国及产学研一条龙地任职。
昨天网上传的结论是这样的:

我们一起看看原图:

这是正文的图一(也是唯一的一个图)。注意右下方那个最远最远的点是蝙蝠(BAT)。中心的三个圈按顺时针方向可以找到B,A,C三个字母。左上的图标黑色是BAT蝙蝠;黄色是CHINA中国,橙色是EAST ASIA东亚,深蓝是USA美国,灰蓝是CANADA加拿大,亮蓝是EUROPE欧洲,紫色是AUSTRALIA澳大利亚,深绿是MEXICO墨西哥,亮绿是BRAZIL巴西。
注意到B组中心圈最大,是黄色和橙色(中国和东亚人);A组和B相连的圈来自包括四类人群(中国和东亚+澳大利亚和欧洲),然后向下向右扩展到美国、澳大利亚、欧洲等地;C组和B相连的圈是澳大利亚,然后向左扩展到东亚、欧洲、美国人。
那到底是什么数据支持说A类变种在武汉很少呢?
(注意到这个图是由160个病毒基因组构成的,每个圈的面积对应其病毒基因组数目。所以,那种最小的圈应该是代表一个病毒株/基因组,从面积大小和扇形分区也很容易看出那些代表3-5个基因组的圈的大小。另外两个圈之间的距离和突变数目成正比;最短的距离就是一个突变)
这篇文章有个补充图集(Supplementary Figures),其中图5显示了细节的每个圈的病毒来自哪里。

看看这里A组里的黄圈圈,单纯的A组黄圈从左到右数一共有8个(+右边中间延伸出去一个黄圈标注北京),分别来自yu-an(云南?)、深圳、广东(较大圈估为5株)、武汉、重庆、武汉、武汉、四川。其中单病毒株小圈三个武汉。
总之,A组这边的圈圈大小不论一共30来个圈,考虑大小估出大约44个基因组,其中5个是武汉(A的初始根圈含2个武汉)。确实比例不高。而美国大约有10株,澳洲5株(原文说15/33是美+澳),东亚11株,欧洲3株(按所有A组黄色大概数出中国15株,其中5株武汉)。
(看到这里,A组含武汉病毒株少是确定了,但是对A组是root of outbreak?爆发源头的结论是不是有点疑心了?后面我们再看一个数据讨论这一点)
再看看C组的情况:

看到C组第一个点是单基因组点,悉尼株,是从B的中心圈突变了一个基因;然后它继续突变散发到美国、东亚、欧洲、澳大利亚等人。C和A中间的一个4基因组圈(3橙东亚1黄中国)不知算归为B还是C,应该可以算B组的延伸,然后其一个分支和C组交叉融合了(两个突变分两种顺序,然后汇合),三个分支独立发展分别去了东亚、欧洲和澳大利亚等;最右边一个分支又和A组出来的一个分支殊途同归了。
我们再看看B组吧。

为何网传图片说B组基因组没有传出东亚地区?原文是:
A complex founder scenario is one possibility, and a different explanation worth considering is that the ancestral Wuhan B- virus is immunologically or environmentally adapted to a large section of the East Asian population, and may need to mutate to overcome resistance outside East Asia.
翻译:复杂的创始者效应是一种可能;而值得考虑的一个不同解释是先祖的B型病毒是在免疫学和环境上适应了大多数东亚人群的,其可能需要突变才可克服东亚之外(人群对该病毒)的抵抗力。
图中我们看到,B型病毒的中心圈(根圈)全部是中国和东亚人;其向外第一圈(1个基因突变)有大大小小18个圈,其中只有4个圈感染了东亚之外人群,占比按种类4/18=22%;按个数4/27=15%。B型向外第二圈(2个基因突变)有大大小小24个圈,其中有7个圈感染了东亚之外人群,占比按种类7/24=29%;按个数13/37=35%(按图目视估算)。 这个数据确实可以支持“B型病毒需要更多突变才更能感染东亚之外的人群”的说法。【联想到了欧美一开始的轻敌态度?“东亚人的病”?】
再看一开始的网传图片说的“B类病毒有没有传出东亚地区”,其结论是不是有点简单粗糙?应该说B类病毒经过突变也传出了东亚地区。而且突变只需1步,只是突变越多,感染东亚之外人群的比例越高(至于这些突变如何影响了致病性,还不得而知)。
现在可以再讨论“A类病毒是源头”这个说法了。
先看一下作者提供了另一个数据。按病毒基因组检出的时间线作的图。
先熟悉颜色图标:
样本采集周(从2019年12月24日起)
黑色是蝙蝠;棕色0周;灰色1周;白色2周;黄色3周;橙色4周;红色5周;紫红、湛蓝、灰蓝、粉蓝分别为6,7,9,10周。我们需要记住早期第一周起的颜色依次为灰、白、黄、橙就好。

再看图:

第一:0周病毒株在B组11点钟方向,距离核心圈3个突变。
第二:1周灰色病毒株仅仅出现在B组核心圈及周围1-2个突变圈。不涉及A组和C组。
第三:2周白色病毒株出现在B组核心及周围1-2个突变圈,包括A组核心圈。不包括C组。
第四:3周黄色病毒株出现在B组核心及周边远达5个突变的距离;以及距离A组核心圈1-3个突变(等于距离B组3-5个突变)的距离(推测是广州最早发现的那一组人传人?)。不包括C组。
第五:4周橙色出现在B组核心圈及周边,包括A组核心圈及周边1-4个突变不等的距离。最远的一组是左下7点半方向距离B组核心圈8个突变。不包括C组。
第六:5周红色,全面爆发。C组一下出现很多(也许和澳大利亚和欧洲的 样本采集时间有关)
第七:后面的时间点都和前面的病毒株有关系。往往距离核心圈突变更多。
从这个时间点分析,说A组/型/类病毒是“爆发根源root of outbreak”,合理吗?如何理解才合理呢?况且0周样本隔那么远,和假设为源头的蝙蝠基因组呈对角线。
看到专家圈里的讨论,有一位这样说:A组病毒早就存在,但对亚洲人感染不强,需要突变发生,产生B组核心圈这种“创始者”病毒株的出现, 然后大量感染东亚人。这个确实有可能。不过是不是反过来B核心圈毒株发生变异产生A组病毒以及更为广泛的感染更有解释力?
这里我想指出,文章作者先预设了一个已知与2019新冠病毒序列最接近的蝙蝠毒株为源头。所以得到了A组最靠近源头的结论。这个预设有多大把握呢?应该说当前数据并不是很支持,特别是0周病毒序列和时间线数据。
现在病毒源头并不清楚。如果我假设源头病毒与B组核心圈病毒更为相似,B组核心圈病毒或其近距离毒株(比如位于B组核心圈与0周病毒的连线上)才是“爆发根源”,是不是更有说服力?因为那样演化和时间线就完全对上了。
也就是说,时间线的结果提示,还是B组病毒为最靠近先祖基因组,然后发展成A组及其分枝以及C组病毒。这样也更容易理解欧美的“东亚人的病”这样的态度。
所以这一篇文章,因为是基于2019年12月24日起的病毒测序结果,只能很好地呈现了病毒的扩散,并不能直接支持病毒的溯源。
欢迎留言讨论。
(完)