关于衡量国家整体研究水平的一些个人浅见 | 商逸澹_风闻
风云之声-风云之声官方账号-2020-05-18 16:40
导读
我们可以尝试从更多的角度入手,全面合理评估中国的科研质量,和它的变化趋势。
2020年5月14日,《科技袁人》节目做了一期名为“三个指标看中国科技实力,哪些领域已赶超美国成为世界第一?”的节目《从2020年最新定量指标看中国的科技实力 | 袁岚峰》。袁老师通过比较分析自然指数 Nature Index,美国科学工程前1%高引论文指标,同时结合国际合作的程度,来说明中国目前正处于科研质量的“大赶超”时代。
https://www.bilibili.com/video/BV1mZ4y1s7Wu?from=search&seid=13817315738870454603
这样的观察是合理的,但是这些指标只涵盖了基础和超热门科学的领域,不一定能反映中国整体的科研质量。除此之外,我们还可以尝试从更多的角度入手,全面合理评估中国的科研质量,和它的变化趋势。以下是我粗浅的个人思考,不一定对,欢迎交流批评指正。
什么是 Scopus?
Scopus是爱思唯尔(Elsevier)旗下的巨型文献数据库,涵盖了科学,技术,医学,数学,社会科学,艺术和人文学科等领域,从1970年以来多达17亿的文献资料。此外还收录了5千家出版社,7万家机构和1600万作者资料。
据我的了解,国内的朋友们好像知道Scopus的不多,但是澳洲的大学会优先考虑使用和参考此数据库的信息。我没有详细了解过其他国家,但是我猜美国可能差不多。例如Nature Index美国科学工程指标的Top 1% cited article index,也会使用Scopus的数据。


就我个人使用情况来说,Scopus是我检索文献的首选数据库。市面上那么多数据库,为什么我爱用它呢?因为在检索文献时,用它比较容易搞清楚各文献之间的发展脉络,和各研究者之间的互动关系。为了提高效率,我常常是先在Scopus找到需要的文献,再去Google Scholar下载全文。
此外,学者在写CV或者面试时常常需要介绍自己的academic performance。大多数人的标准操作是引用Google Scholar个人页面的数据来包装自己。但是Google Scholar有些不靠谱的地方:其一它严重依赖算法自动生成,经常重复计算;其二是不区分文献质量,经常收录不被业界认可的文献;其三是自己可以随意编辑,想夸大其词没有难度。这些因素往往导致基于Google Scholar的个人数据虚高。至少在澳洲,有不少领域是不认可Google Scholar个人页面的。
而Scopus在算法自动抓取和分类数据的基础上,还有专业人士加以维护。个人发现信息有不合理的,允许改动,但是需要提交申请,等管理人员审核通过(速度很快)。唯一的缺陷是数据更新会有一段时间的延迟,不过跟学术论文审稿动辄几个月的等待相比,那点延迟也不算什么了。所以对于大部分研究领域来说,如果用Scopus个人页面的数据还能把自己的履历讲的很漂亮,往往是一个加分项。
什么是SciVal?
SciVal是Scopus旗下专门用来分析其海量数据的工具,涵盖了5000万+的论文发表记录,2.2万+学术期刊,以及号称存有280万亿评价数据。它可以将Scopus里浩如烟海的信息可视化,为全世界研究者,1.4万家研究机构和230个国家的学术产出“画像”,并展示它们学术产出的变化趋势,甚至刻画出它们在整个或者细分学术领域的定位。以前阵子热议的2019年5月被美国“无故诱捕”的千人计划教授李晓江为例,他2014-2019年间的学术画像见下图。他5年间产出59篇高质量论文,5年h5-index为17,总的h-index竟高达63。饼状图显示,他的学术产出涉及了不少领域,但是主要集中在Neuroscience方面(24.2%)。

SciVal有一个其他平台没有的亮点:它把学术领域分的特别细。基于“引用网络”,SciVal把研究者发表的论文自动归入9.6万个细分领域中,这使得评估研究者在具体领域中的贡献和定位变得非常容易。还是以李晓江老师为例,他2014-2019的学术产出主要归到下图所示学术领域中。而占据其主导地位的学术细分领域是“亨廷顿疾病(编号T.472)”,非常准确。

如果想知道世界上有哪些研究者活跃于此领域,那么可以进一步查询SciVal对此细分领域的“画像”。比如最简单的,列出“T.472 Huntington Disease”2014-2019年学术贡献排行榜,可以发现李晓江老师排在全球第9位,如下图所示。此外还有大量有价值的信息可供探索,不再赘述。在澳洲申请基金,描述研究者能力时,SciVal的“画像”和“细分领域定位”已经变成通用指标。

什么是Field-Weighted Citation Impact(FWCI)?
传统的科研质量指标集中在文章数量,作者排序,影响因子,引用数,h-index等方面。然而,不同研究领域的情况千差万别,来自不同领域的学者难以放在同一框架下比较,是一个长期存在的问题。比如一些热门领域的期刊(如生物材料医学)普遍影响因子高,论文数量多;另一些领域的期刊(如古生物)不那么热门,但我们肯定不能说其研究不重要,或者研究者水平低。
传统的解决办法是对期刊分区。但国内分区系统的死板和分区方式的不合理,是一个被研究者们诟病已久的问题。而我们在使用海外的分区机构如SJR(Scimage Journal&Country Rank)时,也时常会觉得设计不合理,评价方式同业界的观感有出入,用起来浑身不自在。
基于对学术领域准确细分的能力,SciVal能够相对公平地用“领域权重引用影响力”指标,来反映一位研究者在他本领域内的学术产出情况,是高于平均水平,还是低于平均水平。对于某细分领域来说,Field-Weighted Citation Impact(FWCI)评价公式如下:
FWCI = 特定研究者的总引用数 /平均引用数
于是很直观地,FWCI > 1代表高于行业平均水平,FWCI < 1代表低于行业平均水平,FWCI = 1.5代表高出行业平均水平50%。至少在澳洲,申自然科学基金时,FWCI是被强烈建议放进申请书里的。还是以李晓江老师为例,他2017和2018年FWCI高达3.19和2.70,远远超出行业平均水平。如果还有人污蔑他是骗经费的,就可以直接拿这些硬数据怼之。
有趣的是,此指标不仅适用于评价研究者论文质量,还可以用来评价学术机构或者国家的总体科研产出的质量。现在中国比较关注的指标,如Nature Index和1% top cited article index,会过分偏向基础科学领域或者极度热门(前1%)的科研领域。这些领域要么藏身于高大上的研究机构里,要么比例实在太小,以至于普通民众看不见用不着,体会不深。而真实世界的科研领域五花八门,所以如果对一个国家所有参与研究的SciVal列出的细分领域做总体的评价,那么统计出来的“国家科研质量”,或者“国家科研影响力”,对民众来说会更有说服力。
中国的平均FWCI指标究竟怎么样呢?总的来看,势头应该算是乐观的。2017年中国的平均FWCI突破了1,后来呈缓慢上升势头,2019年到达1.07。有趣的是,2020年中国的FWCI指标暴涨到1.14,而美国从2019年的1.41爆跌到2020年的1.23,两国差距急剧缩小。然而,鉴于2020年才过去一半,而且数据统计不一定全面及时,我暂时对这种戏剧性的场面持观望态度,在此文图表中不予展示。
下图列出了2014-2019年期间,中国同五眼联盟,欧盟,制造业强国德日韩,以及典型新兴国家印度之间的FWCI指标趋势比较。有趣的是,并非美国,而是五眼联盟中除美国外的四眼,占据了FWCI指标的最高位。欧洲国家次之,中韩竞争激烈。日本估计是习惯自己玩,缺乏同世界学术圈的交流,所以FWCI指标一直稳定于0.95左右。图中印度的科研质量最差,但是也要关注其明显的上升势头。值得注意的是,同中国相反,美加德三国呈现出了明显的下降趋势。

尝试用FWCI和Science Prominence来衡量国家的整体研究水平
为什么Nature Index和FWCI对国家科研质量的评价出现落差呢?在我看来比较合理的解释有两点:其一,Nature Index统计的是累积量。中美两国是人口大国,其前沿科研产出总量高于中小型国家们“四眼联盟”和德日韩是相当合理的。事实上,如果将Nature Index除以各国的人口数,那排名会变动不少。其二,这是被不同国家的国情所影响的。比如中美这样的巨头,主导了世界格局,有条件有动力在科研上做十分长远的规划。它们相对地不在乎短期科研回报,会更偏向于基础科学,国防,或者高精尖的领域,而这些正是Nature Index关注的领域。而对于一些富裕的中小型国家来说,体量太小,去投资超大型基础科学项目是没有意义的。所以它们会偏向来钱快的热门领域;或者在巨头的资助引导下,做一些超大型项目下面的细分领域的工作。举个例子,美国把F35的一部分设计制造任务分给了不少盟友来做。尽管最近懂王威胁要把F35的产业链全部搬回美国,盟友们一片哗然,那又是另外一个故事了。
中国科研质量最高的是哪些细分领域呢?为了回答这个问题,我从SciVal拉了一张前三年(2016-2019)的表格,发现前10名的领域为:锂离子电池,诱导RNA,太阳能板,模糊决策模型,非线性方程,碳纳米管/石墨烯,长链非转录RNA相关的肿瘤学,OLED共轭聚合物,导电性高分子聚合物,生物电极传感器等。看起来都非常高大上。紧接着是另一个问题:和其他国家相比,中国的在各领域的科研质量是初在什么水平呢?于是我又画出了五个国家(代表我们关心的5类典型国家)在自身投入最高的前500个领域中的科研质量分布图。

首先我们可以合理地假设,曲线形状越接近“正态分布”,代表政府对科研人员的招聘越放任自流,定向扶持越弱。从上图可以明显看出,印度的曲线峰值对应的FWCI大概0.64,而且1以上的部分占比很小,这说明印度被低质量的科研所主导。此外,我们发现印度曲线仅在FWCI=1.3附近存在一个微弱的向上偏离,说明政府不怎么扶持。美德澳的曲线比较类似,曲线的峰值都显著大于1。美国的曲线相对顺滑,定向扶持最少。中国介于“印度模式”和“发达国家模式”之间,曲线峰值对应的FWCI大概是0.82。而且在FWCI > 1.4以上的区域,在定向扶持下已经初具规模,看起来在往越来越靠谱的方向发展。值得注意的是,澳洲对于FWCI > 2的部分显著向上偏离,说明定向扶持的力度非常大,可能由此拉高了平均FWCI指标。同时这也符合我对澳洲大学科研职位稀缺,招聘条件高的直观感受。
以上的分析仅局限在FWCI这一个指标上。除此以外,SciVal借助其强大的数据库,还推出了一个叫Topic Prominence in Science的指标。这个指标综合参考了某细分领域的总引用数,文献的总浏览数和相对引用数,大概能反映其热门程度。所以我又加入Prominence Percentage数据(0-100),做了一张各国对于科研质量和课题热门程度的热力图。图中横轴为FWCI指标,纵轴为领域的热门程度,颜色越亮代表某国这个区域附近的领域参与度越高。

在资源无限理想的情况下,我们当然是希望国家在所有领域的水平都做到最高,在图中相对应的就是靠右的一根竖线。但是资源总是有限的,那么次理想的情况,应该是热门的领域多投资保持高水平,冷门的领域少投资,在图中相对应的分布就是从左下到右上的一条斜线。
首先我们看印度的画风,它已经趋向于靠左边的一根竖线了,而且一点也不挑食,热不热门都要做,与其他四个国家显著不同,我们可以先跳过分析。中美澳德四国的热力图总体呈现了一种“左上三角”的分布,形如右图回力标
。比较中美两国,主要存在三个不同:其一是美国比中国稍微更爱追热门研究(见左直方图);其二是美国科研最集中的区域(下直方图的峰值),比中国水平要高上50%左右;其三是对于热门的领域(75%-100%),美国在右上角集中了不少FWCI>2的“超级大牛”,而中国的这一部分人很少。澳洲和德国非常相似,唯一的区别是澳洲相对不挑食,在不那么热门的领域里(30%-60%),也有不少人做,尽管水平只比业界平均水平高出一点点。它俩和美国有个显著的差异:在热门领域里(80%-100%),没像美国一样在FWCI=2.2附近出现断层,各研究水平之间的连续性相对好。还有一点让我惊讶的是,澳洲居然有不少FWCI接近4的热门领域,这是在其他4个图中都没观察的。我比照了一下表格,发现澳洲FWCI > 3.5并且热门程度 > 75%的细分领域有6个,分别是自然对流传热,免疫疗法,乳腺癌早期诊断,非小细胞肺癌,进化优化算法和败血症。显然,这些都是相当来钱的领域。
总的来说,尽管中国的科研水平在Nature Index这样的硬核基础科学指标上表现不俗,可是总览全局,还是有不少进步的空间。乐观的是,中国科研环境在往合理优秀的方向进步,并且增速不低。希望在不久的将来,中国会变成“高质量科研产出国”的标杆。
以上只是我个人的一些浅薄的思考,不可避免地会存在无知,荒谬和不周全之处,欢迎各位指出并与我交流。