Content uploaded by Hu Chuan-Peng
Author content
All content in this area was uploaded by Hu Chuan-Peng on Jun 25, 2021
Content may be subject to copyright.
Content uploaded by Huiyong Fan
Author content
All content in this area was uploaded by Huiyong Fan on Apr 20, 2021
Content may be subject to copyright.
开放式荟萃分析的规范化报告开放式荟萃分析的规范化报告
刘宇1, 陈树铨2, 樊富珉1, 邸新3, 范会勇4, 封春亮5, 郭双双1, 甘怡群6, 李会杰6, 吕小康9, 任志洪10, 徐鹏飞11, 袁博12, 左西年12 and 胡传鹏12
Citation: 中国科学: 生命科学 51, 764 (2021); doi: 10.1360/SSV-2021-0009
View online: https://engine.scichina.com/doi/10.1360/SSV-2021-0009
View Table of Contents: https://engine.scichina.com/publisher/scp/journal/SSV/51/6
Published by the 《中国科学》杂志社
Articles you may be interested in
精神分裂症中氧化压力标记物的荟萃分析
SCIENTIA SINICA Vitae 40, 88 (2010);
全国岩矿分析学术报告会
Chinese Science Bulletin 19, 95 (1974);
第6届全国毛细管电泳及相关微分离分析学术报告会即将召开
Chinese Science Bulletin 49, 941 (2004);
新型开放式结构复合磷酸草酸铟的水热合成及表征
Chinese Science Bulletin 49, 432 (2004);
NASA和NOAA发布2019年全球气温和气候分析报告
Chinese Journal of Space Science 40, 144 (2020);
开放式荟萃分析的规范化报告
刘宇1,陈树铨2,樊富珉1,邸新3,范会勇4,封春亮5,郭双双1,甘怡群6,李会杰7,8,
吕小康9,任志洪10,徐鹏飞11,袁博12,左西年13,14*,胡传鹏15*
1. 清华大学心理学系,北京 100084;
2. Department of Clinical and Counseling Psychology, Teachers College, Columbia University, New York City 10025, USA;
3. Department of Biomedical Engineering, New Jersey Institute of Technology, Newark 07102, USA;
4. 渤海大学教育与体育学院,锦州 121013;
5. 华南师范大学心理学院,广州 510631;
6. 北京大学心理与认知科学学院,行为与心理健康北京市重点实验室,北京 100871;
7. 中国科学院行为科学重点实验室(中国科学院心理研究所), 北京 100101;
8. 中国科学院大学心理学系,北京 100049;
9. 南开大学周恩来政府管理学院社会心理学系,天津 300350;
10. 华中师范大学心理学院,武汉 430079;
11. 北京师范大学心理学部,北京 100875;
12. 宁波大学心理学系暨研究所,宁波 315211;
13. 北京师范大学认知神经科学与学习国家重点实验室/IDG麦戈文脑科学研究院,北京 100875;
14. 国家基础学科公共科学数据中心,北京 100190;
15. 南京师范大学心理学院,南京 210023
*联系人, E-mail: hu.chuan-peng@nnu.edu.cn;xinian.zuo@bnu.edu.cn
收稿日期: 2021-01-08; 接受日期: 2021-04-14; 网络版发表日期: 2021-05-27
国家自然科学基金(批准号: 31900757, 32020103008)和中国科学技术协会学科发展项目(批准号: 2018XKFZ03)资助
摘要 荟萃分析(又称元分析)以量化方式综合实证研究结果,是积累整合证据并推进基础与应用研究的重要工
具.在开放式科学这种新型研究实践下,荟萃分析是整合开放数据、进行科学推断的重要手段.但荟萃分析的过
程繁复、方法多样,其执行上的严谨性对荟萃分析质量影响较大,因此报告的透明性和开放性对其结果的可重复
性尤为重要.为了解中文荟萃分析报告规范性的现状,让更多研究者了解荟萃分析报告的规范性与透明性,提升
荟萃分析报告的质量,本文以国际学界广泛使用的系统综述和荟萃分析优先报告条目(Preferred Reporting Items
for Systematic reviews and Meta-Analyses, PRISMA)以及开放式科学理念为基础,结合基于效应量的荟萃分析报告
特点,拟定《开放与可重复荟萃分析的报告清单》(Preferred Reporting Items for Open and Reproducible Meta-
analysis, PRIOR-MA), 并以心理学中的荟萃分析为例,对近五年国内发表的68篇中文荟萃分析的方法和结果部分
进行回顾.基于结果,本文建议荟萃分析报告需要在以下方面进一步加强其开放性与透明性:文献搜索的时间及
限制、研究筛选和数据收集过程的细节、文章筛选的流程图、效应量转换的细节、单个研究偏倚状况的评估
等.本文为开放式荟萃分析提供了一个较为全面的报告清单(PRIOR-MA), 为未来荟萃分析研究提供了参考.
引用格式:刘宇,陈树铨,樊富珉,等.开放式荟萃分析的规范化报告.中国科学:生命科学, 2021, 51: 764–778
Liu Y, Chen S Q, Fan F M, et al. A standardized checklist on meta-analysis reporting in the open science era (in Chinese). Sci Sin Vitae, 2021, 51: 764–
778, doi: 10.1360/SSV-2021-0009
© 2021 《中国科学》杂志社 www.scichina.com
中国科学:生命科学 2021 年 第 51 卷 第 6期: 764 ~ 778
SCIENTIA SINICA Vitae lifecn.scichina.com
迈向“发展群体神经科学”专辑
评 述
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
关键词 荟萃分析,报告规范,可重复性,质量评价,开放式科学
荟萃分析,英文meta-analysis, 另译“元分析”(本文
将meta-analysis翻译为“荟萃分析”基于如下考虑:英文
“meta-analysis”有将众多研究经筛选聚集后进行分析
之意.先前采用“元分析”的译法借用了心理学中“meta-
cognition”等术语的翻译,即某一主体对自己的认识和
分析,但汉字中“元”字本身并无类似用法.因此“元分
析”更像西方科学文化中的外来词.反之, “荟萃”一词
在现代汉语词典中有“会集”“聚集”之意,且“萃”字作为
动词用于“萃取”等情境.因此,本文采用更贴近中国文
化的“荟萃分析”一词), 是针对某一领域内出现的研究
问题,对先前实证研究进行量化综合的研究手段,是研
究者对该领域的进展进行量化评估、迅速掌握关于该
领域进展的重要信息源.荟萃分析在循证研究中备受
重视.荟萃分析一词最早源于心理学家Glass[1]对心理
治疗研究有效性之间差异的探讨,但广泛应用于实证
研究的各个领域.以“meta-analysis”为关键词在PubMed
数据库中进行检索,仅选择“meta-analysis”这一文章类
型可发现,近年来每年发表的荟萃分析数量超过15000
篇.在中国知网CNKI数据库中的检索也发现,近期每
年荟萃分析的数量也有3000余篇,增长迅速(图1). 在
神经信息学领域,荟萃分析也起着巨大的作用.例如,
大规模国际合作项目ENIGMA(Enhancing Neuro Ima-
ging Genetics Through Meta-Analysis)联盟即是通过对
多站点的神经影像数据进行荟萃分析的方式来理解正
常人脑的功能与结构,也为理解精神疾病的神经基础
提供了大量的实证数据.同样,中国研究者也开始领导
这类大规模的荟萃分析合作项目,例如,抑郁症静息态
功能磁共振多中心数据荟萃分析(REST-Meta-Major
Depressive Disorder, REST-Meta-MDD)项目[2~4].荟萃分
析提供的丰富数据和更有说服力的结论可以为理论和
实践带来巨大影响.在开放式科学这种新型实践下,荟
萃分析是整合开放数据,从而进行更合理推断的重要
手段,越来越多的研究者相信荟萃分析中的证据累积
思维是未来研究的重要原则[5].
图1不同年份发表的中英文荟萃分析论文数量.在PubMed数据库中以“meta-analysis”作为关键词进行搜索,选择“meta-ana-
lysis”为文章类型,共检索到135721条结果;在CNKI数据库中以“元分析”“meta-analysis”分别为关键词,并排除含有混淆词“有
限元分析”“边界元分析”“QTL元分析”和“求积元分析”的文章,共检索到26536条中文结果.两个数据库检索覆盖时间为
1976~2019年(为更清晰展示,排除1990年以前的3篇论文), 检索日期: 2020年11月26日
Figure 1 Number of meta-analysis studies published in Chinese and English over the years. For meta-analyses published in English, we searched the
PubMed database, used “Meta-analysis” as the key word, restricted the article type to “Meta-analysis”, and found 135721 items. For meta-analyses
published in Chinese, we searched the CNKI database, used “元分析”(Chinese meaning is meta-analysis) and “meta-analysis” as key words and
excluded items that contain “Finite element method”, “Boundary element analysis”, “QTL meta-analysis” and “Quadrature element analysis”, we
found 26536 items. Time range of the literature searching is from 1976 to 2019. Date of article search was November 26, 2020
中国科学:生命科学 2021 年 第 51 卷 第 6期
765
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
1荟萃分析报告的规范性
作为一种重要的研究方法,荟萃分析的研究思路
相对简单清晰,但其质量依赖于研究方法上的严谨性
和规范性.从已经发表的研究来看,国内研究者可能
对这些规范的关注不够.通过在CNKI检索发现,自
2009年PRISMA(Preferred Reporting Items for Systema-
tic Reviews and Meta-Analyses)声明发表以来,
2010~2019年共发表24147篇中文荟萃分析,然而提及
这一国际主流荟萃分析报告规范的荟萃分析文章仅有
48篇(本文以“PRISMA”为被引文献,并以“元分析”或
“荟萃分析”为关键词,在CNKI中对中文期刊进行检索
后发现检索结果为51, 排除2篇综述类与1篇英文文献,
最后结果为48篇,最后检索日期为2020年12月25日),
也就是说,大部分国内发表的荟萃分析在实施过程中
可能并未参考报告规范.尽管越来越多研究者意识到
通过发表荟萃分析论文能对某一领域带来较大影响,
然而未按规范实施的荟萃分析却可能带来结论可靠性
低,或难以重复的不良后果[6].研究者需要加强对荟萃
分析规范的认识,同时荟萃分析报告规范迫切需要进
行中国化,被更多国内研究者熟知.这种必要性在我
国当前需要提升科学产出质量的背景下,显得尤为
突出.
为了解当前中文荟萃分析报告规范性的现状,以
及让更多研究者了解荟萃分析报告的规范性,提升荟
萃分析的质量,本文尝试以心理学为例,对荟萃分析
报告规范进行中国化,并以此为标准对已发表的中文
荟萃分析进行初步评估.具体而言,首先以广泛使用
的PRISMA为基础,结合心理学荟萃分析中主流方法
的特点,并参考当前国际心理学界开放科学的趋
势[7,8],通过深入讨论,形成中文版的荟萃分析报告清
单.其次,根据中文版的荟萃分析报告清单中方法与结
果部分条目,对国内近五年心理学荟萃分析报告现状
进行评估,以了解当前中文荟萃分析报告中存在的问
题.最后,将结合评估结果和当前开放式科学的趋势,
有针对性地提供建议,借此希望国内研究者能够更合
理地使用荟萃分析方法.
1.1 国际学界关于荟萃分析报告的规范性
荟萃分析作为一种综合已有数据的方法,受关注
较多的集中于其数据来源和质量.例如, “同质性问题
(mixing apples and oranges)”“出版偏见(publication
bias, 也叫file drawer problem, 抽屉箱问题)”和“数据
质量”的讨论由来已久[9].但值得注意的是,荟萃分析
在文献选择、纳入、编码以及结果解释上存在许多的
决策和操作空间,并直接影响荟萃分析的数据来源和
质量,从而影响最终结论.也就是说,荟萃分析实施中
的严谨性和透明程度直接关系到其结论的可靠性和可
重复性[10].随着荟萃分析文章数量的激增,可重复性
问题也日益突显:针对同一研究主题的荟萃分析,结
论却存在差异,有时甚至完全对立[11].例如, Ferguson
和Kilburn[12]就暴力电子游戏与暴力行为之间的关系
进行了一项荟萃分析,结论认为两者之间不存在关联;
然而,在随后出版的针对同一主题另一项荟萃分析的
结论却完全相反,认为攻击性行为的增加与暴力游戏
存在强烈的正相关[13].类似争议让研究者开始反思荟
萃分析的可靠性与可重复性,关注荟萃分析的规范性,
以增强其严谨性和透明性. Gøtzsche等人[14]按照原作
者描述的方法对医学领域27篇荟萃分析数据转换后的
标准化平均差异(standardized mean differences)进行检
验与重复,结果发现10篇(37%)荟萃分析无法重现该效
应量,其中7篇存在明显错误, 1篇荟萃分析效应重复后
不再显著,另外2篇则变为显著. Maassen等人[6]试图重
复来自33篇心理学荟萃分析的500个主要效应量,但基
于荟萃分析所报告的信息, 224个效应量无法重复,其
原因大部分是由于这些荟萃分析文章对数据的选择、
效应量计算过程等方法信息报告不完整.
上述例子表明,荟萃分析结论的可靠性与可重复
性严重依赖于其报告的规范性,但研究者可能对这些
规范性的重视程度不够.事实上,荟萃分析在规范上
的严重问题早已引发一些研究者的讨论.在20世纪80
年代, Sacks等人[15]对86篇使用英语发表的荟萃分析从
6个重要方面(包括23个条目)进行了详细评估,结果表
明, 86篇荟萃分析中仅有24篇(28%)完整地报告了6个
重要方面的内容.针对同一主题在1999年更新的研究
发现,荟萃分析报告质量并未随时间推移而有所改
善[16],近期研究也得出类似结论[17].
为解决荟萃分析报告规范性的问题,一些研究者
和学术组织开始尝试制定荟萃分析的报告规范或指
南.由于荟萃分析过程繁复、方法多样所导致的过度
灵活性,报告规范的主要作用在于按照荟萃分析的大
致流程,指出需要报告的方法细节,从而让同行能够
刘宇等:开放式荟萃分析的规范化报告
766
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
检查或者重复这些步骤,增强分析的可重复性.报告规
范旨在起到三个重要的作用:第一,帮助研究者提前意
识到在荟萃分析过程中所涉及的各项元素,指导其实
施荟萃分析;第二,帮助审稿人、期刊编辑迅速地对
荟萃分析稿件质量进行检查;第三,帮助后续研究者
重复该荟萃分析或者对相似的荟萃分析进行比较.要
起到这些作用,一个好的报告规范应该包括三个重要
的方面:推荐价值、指导作用与成为荟萃分析文章出
版的参考标准.即一个好的报告规范,应能在方法上
严谨而规范,促进报告的透明程度,避免研究中的偏
倚(bias, 也译为偏见、偏差); 具有被研究者推荐的价
值;有详细的说明与指导,能够对研究者实施该研究进
行有效的帮助;同时这些信息有助于形成一系列具体
的准则与标准,成为期刊和学术组织制定相关审稿政
策或者标准时的参考基础.
医疗卫生领域专家率先组成国际性小组并于1999
年制定了首个报告规范QUOROM(Quality of Report-
ing of Meta-analyses statement)[18]. 2009年该规范得到
进一步修订,更名为PRISMA系列报告规范[19].该规范
包括7个部分, 27个条目清单和一个四阶段的流程图,
与其他报告规范相比, PRISMA具有两个方面的优势:
一方面, PRIMSA规范得到Centre for Reviews and
Dissemination, Cochrane Collaboration, Council of
Science Editors, National Evidence-based Healthcare
Collaborating Agency (NECA)与World Association of
Medical Editors 5个国际组织与几百种期刊支持;另一
方面, PRISMA能为研究者提供切实有效的指导,其不
仅涵盖了大部分随机对照实验,而且针对每一个条目,
均有完备与清晰的阐述与解释性文件,并配有具体的
例子[20].尽管目前难以比较参考报告规范与未参考报
告规范的荟萃分析在质量上的差异,但从已有的研究
来看,如果作者按照PRISMA要求进行报告,会有更多
的主观决策过程得以公开,这将增强该荟萃分析的重
复性.已有研究发现,在PRISMA发表后,有更多的文
章提到PRISMA中的相关概念与方法(例如,更多使用
PRISMA推荐的流程图), 文章总体质量呈上升趋势[21];
如果荟萃分析中提到了PRISMA, 它们报告的信息往
往也会更加全面[22].当荟萃分析中报告了更加全面的
信息时,那么结论也更可能被重复出来[6].
此外,从引用量上来看, PRISMA是目前引用最多
的报告规范:自2009年发表以来,截至2020年10月13日
搜索, PRISMA的两篇介绍性文章[19,20]在Google学术
上的引用量分别为26198和66667次.因此, PRISMA系
列规范形成了相对完备的规范体系,是比较成熟的荟
萃分析规范.美国心理学会(American Psychological
Association, APA)也做过类似的尝试[23,24],但其影响与
被引用度低于PRISMA(自2008年推出以来, MARS
(Meta-Analysis Reporting Standards)与更新版本在Goo-
gle学术上仅被引用170次与150次,检索日期: 2020年
10月13日).
1.2 对荟萃分析报告规范的中国化尝试
如前所述,国内研究者对荟萃分析报告规范关注
和使用较少,对报告质量的评估也鲜有报道.为了让
研究者能够直接参考中文荟萃分析报告规范,本团队
对目前国际上的荟萃分析报告规范进行中国化,整合
出适合心理学同时对其他荟萃分析具有参考意义的报
告清单.
根据上文所述,整合荟萃分析报告清单时主要遵
循两个原则:第一,符合国际主流的荟萃分析报告规
范,即该清单能够满足荟萃分析报告规范的三个重要
方面(推荐价值、指导作用和出版要求); 第二,能够体
现当前研究中的新动向,即开放与透明的研究实践需
求[7,25].遵循第一个原则,本文介绍的报告规范以PRIS-
MA为基础.如上所述,相较于其他报告规范, PRISMA
达到了好的报告规范的三个方面要求,同时具有很高
的关注度与认可度.但由于PRISMA主要应用于医学
研究,直接使用PRISMA对于心理学或其他领域荟萃
分析研究者来说并不满足“指导手册”的要求.因此,
本文在PRIMSA的基础之上,整合最新版MARS中的
相关条目.遵循第二个原则,本文参考目前被众多杂
志所采用的《提升透明与开放指南》(Transparency
and Openness Promotion, TOP, https://cos.io/our-ser-
vices/top-guidelines/)[7],加入对透明与开放的要求.虽
然PRISMA最近开始要求对荟萃分析方案进行预注
册[26],但其并未要求对荟萃分析中涉及到的数据与分
析代码进行开放.因此,本荟萃分析报告规范将TOP
规范中相关的要求采纳进来.
通过本文专家组的讨论与整合,最终形成《开放
与可重复荟萃分析的报告清单》(Preferred Reporting
Items for Open and Reproducible Meta-analysis,
PRIOR-MA, 核心方法部分见表1,完整版以及核心方
中国科学:生命科学 2021 年 第 51 卷 第 6期
767
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
法部分解释见存放于科学数据存储库(ScienceDB)中
的补充材料[27]). PRIOR-MA力图为常规的、基于效应
量的荟萃分析提供一个报告清单,以期为国内研究人
员撰写和报告荟萃分析提供借鉴与参考.本清单共有
30个条目,其中方法部分的14个条目(条目5~18)是其
核心内容.在这14个条目中, 12条为基础要求,均以
PRISMA为基础修订, 2条为开放式科学的新要求(表1
中带*的条目17与18, 均为PRIOR-MA的新增条目), 即
鼓励研究者报告.
从表1中可以看到,在方法部分, PRIOR-MA考虑
了荟萃分析中可能存在过度灵活性的方面:纳入荟萃
分析的文献(条目6~9)、作为荟萃分析“原料”的数据
(条目10~13)、进行荟萃分析的统计模型(条目14~16).
其中,条目12和15是偏倚评估,而条目5, 17和18则主要
关注透明性和数据开放,以保证其可重复性.关于方法
部分条目的更多内容与阐释请见线上补充材料[27].
2国内心理学荟萃分析文献报告现状
本团队以心理学为例,对已发表的荟萃分析文章
进行检索和评估,以了解国内荟萃分析报告的现状以
及需要加强之处.本文以PRIOR-MA为基础,选取荟
萃分析核心的方法与结果部分,对近五年中文心理学
期刊上发表的传统荟萃分析进行评估.评估的目的在
于以心理学中文期刊为例,了解当前中文荟萃分析报
告的情况,而非评价期刊或文章的质量.由于荟萃分
析的重要性,不少研究者均曾对其领域的荟萃分析质
量进行过评估[17,28~39].为避免误解,本文对所有纳入
的荟萃分析文章进行匿名化处理.
2.1 研究方法
(1) 文献纳入标准.根据研究目的,本文纳入标准
为: (ⅰ)荟萃分析类研究,纳入传统以效应量综合为目
的的荟萃分析,排除非效应量综合的荟萃分析,以避免
方法与结果报告中部分条目不适用带来的混淆; (ⅱ)
使用中文发表在主流心理学期刊上,排除非心理学期
刊上的荟萃分析文献; (ⅲ)选取完整已出版的文献,
排除增刊、未公开发行与会议摘要文献; (ⅳ)发表于
近五年的文献(2015~2020). 本纳入标准存在如下限制:
语言仅包括中文,文献来源仅包括期刊,但这些限制与
本报告的目的有关.
(2) 信息来源.所有文献来自中国知网数据库
(https://cnki.net/)和《心理学报》《心理科学》《心理
科学进展》《心理发展与教育》《心理学探新》《心
理与行为研究》《中国临床心理学杂志》七本期刊官
方网站数据,文献覆盖时间为2015年1月1日至2020年1
月1日,初次检索时间为2018年4月12日,最后一次检索
时间为2020年1月15日.
(3) 搜索过程.以“系统综述”“Meta分析”“荟萃分
析”“元分析”“Meta-analysis”作为关键词进行检索,通
过如下代码在CNKI上进行搜索:文献来源=(′心理学
报′或′心理科学′或′心理科学进展′或′心理发展与教育′
或′心理学探新′或′心理与行为研究′或′中国临床心理
学杂志′)和题名=(′系统评价′或′系统综述′或′Meta分析′
或′元分析′或′Meta-analysis′或′荟萃分析′). 共检索到88
条文献.整个检索过程由作者一独立完成.作者七使用
相同关键词在同样的数据库与期刊上进行独立的检
索,最终与作者一进行核对.文献搜索过程符合本研究
的目的,无纳入标准之外的限制.
(4) 研究筛选.通过文献题目与摘要,作者一与作
者七独立根据文献合格规范进行筛选.遇到分歧时与
通讯作者进行讨论并处理分歧.
(5) 数据收集过程与编码.首先根据PRIOR-MA内
容,进一步细化条目,编制出编码手册供评分参考(见
补充材料2). 其次建立数据收集表格,表格中需要纳入
文献中研究的基本特征,如题目、作者、发表时间与
期刊来源等,以及需要进行编码并评估的内容.作者
一与作者七独立完成数据收集,并对收集内容一致性
进行讨论与评估,无法统一时与通讯作者进行进一步
讨论并做出决策.
编码指南中的每一具体评分条目需要被编码为
“1”“0”“0.5”或“?”. “1”表示该条目完全报告,编码为“0”
表示该条目完全未报告, “0.5”表示该条目未完全报告,
“?”表示该条目在编码过程中很难判断.编码不清楚的
条目需要由作者一与作者七进行讨论并做决策,当无
法决定时,继续与通讯作者进行讨论并最终决定.为
使决策过程更加透明,我们在有争议的条目得分中增
加了描述来澄清原因.
编码过程由作者一按照编码指南对所有纳入的荟
萃分析文献进行独立编码,作者七随机从每年发表的
荟萃分析中抽取4~6篇荟萃分析文献进行独立编码(共
26篇), 两者编码完成后计算评价者一致性Kappa值[40]
刘宇等:开放式荟萃分析的规范化报告
768
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
表1PRIOR-MA(方法部分)
Table 1 PRIOR-MA (method section)
章节/主题 条目 清单条目
方法
方案预注册 5陈述是否提前对荟萃分析研究方案进行预注册.如果预注册过,则需要提供相关信息(例如,公开预注册的网址).
文献纳入标准 6
陈述文献纳入的标准:
6.1变量:自变量(例如,实验的操作,处理、干预或预测变量的类型), 因变量(例如,对临床研究中存在的潜在积
极与消极效应进行综合后的结果)或相关研究中涉及的变量;
6.2研究设计的标准(例如,样本抽样的方法或实验处理的方式);
6.3针对同一研究或同一样本存在多次报告或使用同一样本进行多次测量的情况,不仅需要陈述纳入标准的研
究特征(例如,自变量、因变量和研究设计等), 同时需要陈述报告特征(检索时间、语种、发表日期和发表状态
等), 以确定哪个研究需要进行报告;
6.4研究纳入中存在的限制(例如,研究的年代、语言、地区或进行报告的方式上存在可能因此产生偏倚的困
难);
6.5文献纳入标准的变化.预注册时提交的文献纳入标准是否在研究开始后发生改变,或者研究过程中文献纳入
标准是否发生改变(例如,增加或减少纳入研究的变量), 作者需要报告发生了什么改变,以及这些改变是什么时
间发生,原因是什么;
6.6如何处理文献中缺失信息,包括与纳入标准的信息相关信息的缺乏(例如,缺乏关于研究设计的信息)及与数
据分析相关信息的缺失(例如,没有报告关于结果的量化数据).
信息来源 7描述搜索得到所有信息来源(例如,包括数据库中获取的文献信息,联系作者后获取的额外信息)和最后一次搜
索日期.
搜索过程 8至少完整呈现一个主要使用的数据库在线数据搜索策略,包括限定的范围,搜索时使用的关键词、搜索代码等,
以确保搜索的可重复性.
研究筛选 9
陈述每一步研究筛选过程,包括:
9.1每一步筛选文献的决策方式(如通过阅读题目、摘要或全文);
9.2筛选过程中执行者的胜任力与人数.如果是一位执行者,如何评估提取数据过程的信度问题;如果有多位执
行者,如何处理多人进行筛选可能存在的不一致问题.
数据收集过程 10
描述从报告中提取数据的方法,包括:
10.1作为摘录数据依据的变量及其种类;
10.2数据提取过程中执行者的胜任力与人数.如果是一位执行者,如何评估提取数据过程的信度问题;如果有多
位执行者,如何处理多人提取可能存在的不一致问题.
数据条目 11 列出并定义纳入文献中所有与荟萃分析相关信息(如文献的作者、发表年份、被试信息、研究设计或控制组信
息等).
单个研究偏倚风险 12 描述如何评估纳入的研究本身可能存在的偏倚(说明这种评估是在研究方法过程层面还是结果层面,还是两者
都有), 以及这种偏倚如何在结果综合中进行处理.
描述性统计指标 13
描述使用的效应量指标(如相关系数、Cohen’s d), 包括用来计算单个研究效应量公式.如果同一研究存在多个
效应量可能引发的非独立性问题(例如,同一研究中存在多个实验处理、多个控制组、多个相关系数或多个指
标量等产生的非独立效应量), 陈述处理的方法.
结果综合 14
描述进行跨研究效应量综合和对不同研究的效应进行异质性评估的方法(如固定效应模型或随机效应模型的稳
健方差估计(robust variance estimation)), 具体包括:
14.1选取某一综合方法的原因;
14.2对研究结果进行加权的方法;
14.3估计单个研究与总体结果变异的方法(如置信区间);
14.4描述所有的转换/校正(如小样本或非等组样本数据)、调整(如聚合,数据缺失,或建构不同水平间的关系)以
及对其进行的数据验证;
14.5如果进行了贝叶斯分析,报告先验分布的选择与模型拟合的评估.
注: (如采用更加复杂或者新颖的方法,可以进行适当地调整)
跨研究偏倚风险 15 评估所有可能导致跨研究证据累积中产生偏倚的可能性(如发表偏倚、选择性报告).
额外分析 16 如果进行了额外分析,需要描述使用的方法(如亚群体分析、敏感性分析、元回归分析), 指出哪些是预先计划的.
数据可获得性* 17 荟萃分析中使用的数据(即从文献中提取的数据条目)是否公开.如将荟萃分析的原始数据存放在一个公开并可
长期存放的在线数据库中,方便其他研究者进行重复与在此研究基础上的累积.
分析过程可获得性* 18 荟萃分析中使用的软件名称及版本号.荟萃分析的代码是否公开,如果公开,在哪可以获得(例如,与数据存在同
一在线数据库), 方便其他研究者对分析过程的重复.
*为PRISMA 2009中未提及的开放科学新要求,鼓励研究者进行报告
中国科学:生命科学 2021 年 第 51 卷 第 6期
769
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
(计算过程见补充材料3[27]). Mchugh[40]认为, Kappa作
为一致性指标,相较于百分比,能更好地将偶然存在的
一致性情况加以考虑,避免对一致性进行高估.根据先
前的文献,本研究对于Kappa值的判断标准为:
0.40~0.59之间为一致性好,在0.60~0.74之间为相当好,
0.75及以上为一致性非常好[41].
(6) 数据条目.文献信息摘取条目包括: (ⅰ)文献
题目; (ⅱ)文献发表时间; (ⅲ)文献发表期刊; (ⅳ)文
献作者; (ⅴ)文中涉及PRIOR-MA方法与结果部分的
条目(条目5~25).
(7) 描述性统计指标.按照PRIOR-MA, 本文对纳
入文献研究方法与结果部分,共32个具体条目内容进
行评估.通过报告状况百分比(即每个条目“完整报
告”“部分报告”和“完全未报告”三种情况文章数量分
别占文章总数的百分比)来评估单个条目内容在所有
纳入荟萃分析中完成的情况.
(8) 结果综合.本文仅进行系统综述描述性统计,
无荟萃分析过程,未进行结果综合.
(9) 单个研究偏倚与跨研究偏倚.本文主要目的是
按照PRIOR-MA, 了解国内心理学荟萃分析的完成状
况,不以单个研究自身的研究目的为评估内容,主要
存在的偏倚来自发表偏倚.
(10) 数据可获得性与分析过程可获得性.出于对
纳入评估文献原作者的尊重,仅将评分结果上传进行
保存并公开,见补充材料4[27].
2.2 结果
(1) 研究筛选与研究特征.初步检索共获得文献88
篇,经两位作者进行独立搜索与筛选,有6篇文献不符
合纳入标准(4篇综述, 2篇非中文写作), 阅读全文后进
一步筛选再次排除14篇文献(10篇文献主要采用时间
序列方法, 4篇为神经成像荟萃分析方法), 最终共有68
篇荟萃分析纳入评估.筛选流程及结果见图2.
被纳入的荟萃分析均为中文,并发表于国内本领
域杂志中,根据研究目的,样本特征未公开.感兴趣的
读者可以与作者联系,了解被纳入荟萃分析的具体
信息.
(2) 评分一致性.对作者一与作者七独立编码的
分数计算Kappa值,结果为0.814, 表明两名评分者的一
致性达到了较高的水平.
(3) 总体报告质量.基于PRIOR-MA的荟萃分析质
量评估,两位编码者针对编码不同的条目进行再次讨
论,最终统一编码得分.本文报告的结果为最终统一
编码得分.
图2文献筛选流程图
Figure 2 Flow diagram of article screening
刘宇等:开放式荟萃分析的规范化报告
770
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
21个条目和32个具体评分内容报告情况见图3.条
目5中“方案预注册”, 条目6中“报告特征限制”, 条目8
中“搜索过程中的限制”, 以及“数据与分析过程可获得
性”中的两个条目平均分为0分,即所有荟萃分析研究
均未提及相关内容.其他容易被忽视的内容还包括“最
后搜索的时间”“筛选人数情况”“研究质量评估”, 以及
“数据转换方法”等内容,完整报告百分比均未超
过30%.
完全报告超过90%的条目仅4项,包括条目13“描
述性统计指标”中的效应量指标、条目14和21的“结果
综合”部分.表明国内研究在大部分条目上都较缺乏关
注.在“综合测量指标”与“结果综合”部分完成情况较
好.但需要注意的是,条目14中“数据综合方法”部分
内容完整报告文章数量为39.1%, 超半数的文章未在
方法部分对荟萃分析使用的模型进行描述,或未明确
告知所选择的方法.总体而言,国内荟萃分析完整报
告的条目比例较低,具有较大的提升空间.
3讨论
荟萃分析是重要的实证方法,完整和透明地报告
荟萃分析过程,有助于提升荟萃分析的可靠性和可重
复性.关注荟萃分析报告的严谨性和可重复性,对于
实证研究中的积累具有重大意义.本文尝试以PRIS-
MA为基础,整合形成中文版荟萃分析报告清单
PRIOR-MA, 为国内同行提供参考.同时,本文参考
PRIOR-MA的核心条目(方法与结果部分的条目), 以
国内心理学近五年荟萃分析报告为例进行现状调查,
以期有针对性地提供建议.调查结果表明,使用
PRIOR-MA对荟萃分析报告情况进行评估时,不同
的评分者之间具有较好的一致性,表明PRIOR-MA
能被较好地使用.通过对已发表的中文荟萃分析进
行调查发现, PRIOR-MA对荟萃分析的可靠性和可
重复性以及报告质量上,在以下几个方面可能存在
显著提升.
图3国内心理学荟萃分析方法与结果部分报告状况.上部分条目5~23为PRISMA内容,斜体部分为PRIOR-MA新增条目;下
部分为编码手册中的细则.标★评分点完整报告程度低于30%, 需要特别注意
Figure 3 Reporting of methods and results of meta-analyses in Chinese psychological journals, as evaluated by PRIOR-MA. Items 5–23, on the top
of the bar plot, are items from PRISMA and PRIOR-MA, the italics are new items from PRIOR-MA; items below the bar plot are further specified
items in the coding manual. Bars with ★are items that were severely under-reported (<30% articles)
中国科学:生命科学 2021 年 第 51 卷 第 6期
771
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
3.1 文献纳入过程
荟萃分析的第一步在于全面查找已有的研究并纳
入与荟萃分析范围相符的文献.从搜索文献到最终纳
入的文献之间,存在多个步骤,并且均存在一定的主
观性和自由度.对68篇中文荟萃分析的调查表明,尽
管所有荟萃分析文章均有提及文献纳入标准、信息来
源、搜索过程与研究筛选,但仍然有一些细节易被
忽视.
在文献纳入标准中最容易忽视的内容是“研究报
告特征限制”, 68篇荟萃分析均未提及相关内容. PRIS-
MA的文献纳入标准条目指出,荟萃分析需要报告纳
入研究的“研究特征(study characteristics)”与“报告特
征(report characteristic)”[20].前者在心理学中应包括纳
入研究的被试群体、自变量与因变量等特征;而后者
涉及研究使用的语言、文献发表年代和发表状态(如
未公开出版或正在出版)等,这些因素可能在制定纳入
标准时存在许多限制.例如,有研究表明,使用不同语
言的研究纳入荟萃分析后会产生截然不同的结果[26],
即使作者纳入的研究语言仅为英语或中文,也有必要
报告是否存在纳入其他语言研究的可能性,而非默认
为某一种语言.荟萃分析研究者对研究特征可能的限
制因素需要保持敏感性,尽量消除对后续研究者带来
的误解.
在明确文献纳入标准后,作者需要根据计划收集
相关信息.这一阶段涉及对“信息来源”与“搜索过程”
的报告.本团队发现,很少有文献对“最后一次数据库
文献搜索日期”进行报告(91.3%未报告). 报告搜索每
个数据库开始与结束的时间是非常重要的,因为通过
不同的时间标签搜索到不同的文献,会直接影响荟萃
分析最终的结果[42].
在搜索过程报告部分,纳入调查的荟萃分析文章
大部分对搜索使用的关键词与数据库进行报告,但极
少提及搜索执行中可能存在的语言等限制,这一点与
先前的研究结果一致[43].然而几乎所有的搜索均存在
局限性,例如在时间、资金支持、数据库购买、因语
言或搜索技巧而无法获取的信息[20].报告搜索中的限
制一方面让读者能够衡量当前荟萃分析结果的可靠
性,另一方面也能让作者对可能存在的偏倚提高警惕.
在研究筛选上主要有两点需要关注:一是关于筛
选过程的清晰性. PRISMA推荐使用筛选流程图来描
述每一步纳入与排除研究的过程[19,20],其原因是它能
用简洁的图形和数字让读者对筛选过程一目了然,快
速获取大量信息[44].然而本调查中的荟萃分析文章,
大部分仅呈现最终纳入研究的数量,仅少数研究使用
筛选流程图(28.9%完整报告). 这可能导致读者难以快
速清晰地获知研究是如何进行筛选的信息;二是在筛
选中许多研究未提及参与筛选的人数,筛选者胜任力
以及如何处理筛选一致性,或者如何避免一位筛选者
可能存在的错误等问题(仅有10.1%的研究进行完整报
告). 一位研究者进行筛选有可能由于过于主观或者粗
心而出现错误,有研究表明,文献筛选过程也是一个极
其困难的决策过程,一位研究者很难独立胜任[44].
3.2 荟萃分析中数据质量的控制
确定了纳入的文献之后,荟萃分析的研究者需要
从文献中提取数据并进行分析.这些步骤在PRIOR-
MA中有两点需要注意:一是数据收集与编码过程的
清晰报告,二是对纳入荟萃分析的单个实证研究质量
进行评估.
在数据收集上,数据收集过程的清晰报告可以有
效减少错误与偏倚[45].但数据的收集本身可能会面临
诸多的选择(例如,对同一研究假设,可能对应着多个
统计结果,研究者可能有多种做法). 这种情况下,是否
有多名研究者独立进行数据收集,以及数据收集的一
致性问题就非常重要.本调查发现,大约40%的荟萃分
析文章报告了数据收集人数与如何解决数据收集不一
致的问题,表明部分研究者已经意识到这个问题的重
要性.但仍然有超过半数的研究者未报告这方面信息.
另外,在基于多站点的荟萃分析中,数据收集往往由发
起者向合作者征集,而非从文献中摘取.但在数据比较
复杂时,对同一假设,不同站点可能会采用不同的分析
流程和不同的方法分析数据[46].因此,保证不同站点
之间数据分析的方式与流程的一致性变得十分重要,
例如, REST-Meta-MDD中统一使用DPABI软件进行数
据分析[47].
荟萃分析存在的偏倚主要分为单个研究偏倚与跨
研究偏倚.本调查发现,大部分荟萃分析对于跨研究的
偏倚有较高完成度(81.2%完整报告). 但是很少有研究
提及单个研究的偏倚(仅8.7%完整报告). 也就是说,作
者未报告纳入荟萃分析的研究本身质量如何,衡量这
些研究中可能存在的偏倚,并针对这些偏倚采取相应
刘宇等:开放式荟萃分析的规范化报告
772
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
的措施(如调整权重等). 虽然大部分荟萃分析文章是
对已经发表的文献进行分析,可以假定这些荟萃分析
中的原研究已经过了同行评议的审核,无重大的偏差.
但仍然需要注意的是,由于心理学近年来的可重复危
机[25,48~51],在纳入荟萃分析时研究者可能需要回答:
(ⅰ)每个研究在多大程度上是可靠的? (ⅱ)该研究在
哪些方面存在偏倚? (ⅲ)发现的偏倚是否会影响总体
结论[17]?一个比较全面的评估需要从研究的内部效
度、外部效度、构念效度与统计结论效度四个方面对
原研究进行简要的质量评估[52].此外,一些文献质量
评估方法也有助于降低纳入研究质量带来的偏倚,例
如, GRADE证据评价系统[53]和Jadad量表[54].同样,在
医学领域荟萃分析中,尤其是随机分组实验,对单个研
究报告的质量会从多个维度进行评估,目前已有许多
工具来评估不同类型的研究[55].
3.3 荟萃分析的数据分析与结果部分
获得数据原材料后,荟萃分析需要通过对不同研
究中摘取出来的数据进行转换,便于对主要研究问题
的效应量进行合并.由于目前实证研究的发表中并未
采用统一的格式进行数据报告,因此当研究者进行荟
萃分析时,需要通过文献中的统计数据对效应量进行
转化或者估计[6].当荟萃分析中文章数量较大时,这一
过程非常繁杂,涉及公式选取,合理性的探讨和软件使
用等步骤.在调查的68篇荟萃分析中,仅有4篇文章报
告转换所需的公式与过程,占总数的5.9%. 如上所述,
在荟萃分析实施的过程中,研究者选择的效应量转换
公式过于灵活,且涉及主观决策部分.因此,如果未在
荟萃分析文章中对转换过程进行详细报告,后续研究
者很难对荟萃分析研究的结果进行重复验证[6].此外,
荟萃分析中的数据收集与效应量转换过程的规范性也
提示人们,在未来的开放式科学平台的建设中,需要整
合结果报告的标准和规范.当研究者提供可以机读
(machine readable)结果的数据,未来荟萃分析的过程
将大大简化,且过程中的灵活性和主观性会降低.
在效应量整合过程中,尽管只有4.3%的文章未提
及整合的模型与方法,但是许多荟萃分析文章的报告
并不完整(部分报告占总数的56.5%). 主要存在两方面
问题,一是模型的选定较为简单,大部分研究直接选用
随机效应模型,而非根据研究本身数据特征进行分析,
对模型选择的原因进行有逻辑的推理说明;另一方面
容易忽视的是整合所用的工具,包括软件与版本号.
目前荟萃分析过程在市面上存在许多可供选择的软
件,这些软件由于种类或自身版本差异,可能导致不同
的操作逻辑与结果差异.
在结果部分需要注意的是对单个研究结果的报
告,呈现单个研究结果有助于读者检查每个研究的特
征,评估不同研究之间结果变异,同时有助于数据摘
取错误发生后的回查.在所评估的文章中仅有17.4%
进行完整报告,其中大部分研究未使用PRISMA推荐
的森林图(forest plot)[20].森林图的使用能将纳入研究
中的效应量、置信区间以及百分比权重等重要信息清
晰呈现给读者,有助于读者快速了解荟萃分析的全
貌[56].
3.4 荟萃分析的透明与开放性
研究方案预注册、数据与分析过程可获得性是提
升研究质量的实践,近年来已经成为国际上实证研究
的新趋势,尤其是在神经信息领域对其开放科学的研
究实践取得了显著进展[8]. PRISMA也将会在新一版
本中加入开放式科学的元素(见其预印本[21]). 在医学
卫生领域的研究中,对荟萃分析的方案进行注册已经
是国际惯例,其中最著名的是Cochrane荟萃分析数据
库. Cochrane协作组早在1993年成立之初,就要求作者
对荟萃分析进行注册,并提交计划方案.后续研究也证
实其必要性. Silagy等人[57]发现,在Cochrane荟萃分析
数据库中47篇已发表的论文,其中43篇与计划书相比
存在较大改动. Kirkham等人[58]通过对连续3期Co-
chrane中的系统评价进行评估,发现改变原有的计划方
案,会对研究结论造成偏倚和错误的解释.如果未进行
预注册,后续研究者则难以获知原作者在选择性报告
上是否存在问题.但由于Cochrane荟萃分析制作周期
相对较长,允许范围限于临床试验相关的荟萃分析注
册,且注册后需要在Cochrane中发表,因此预注册这一
前瞻性的做法并未得到普及.为了填补Cochrane协作
组在注册方面的空缺,另一个使用较为广泛的是
YORK大学建立的PROSPERO(International Prospec-
tive Register of Ongoing Systematic Reviews, www.
crd.york.ac.uk/PROSPERO)系统综述国际预注册平台,
它允许临床试验以及与医疗健康相关的动物实验荟萃
分析注册,且未规定注册的荟萃分析在何处发表.
PROSPERO为研究者们发表方案和信息共享提供了
中国科学:生命科学 2021 年 第 51 卷 第 6期
773
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
极大的便利[59].随着方案预注册的便利性的提升,研
究方案的透明性、准确性与完整性也变得极为重要,
也出现了专门为预注册而定制报告条目的规范PRIS-
MA-P(Preferred Reporting Items for Systematic Reviews
and Meta-Analyses Protocols)[26].
除了方案预注册外,荟萃分析数据与代码的公开
也有助于增强荟萃分析的可重复性.在神经影像荟萃
分析中, REST-Mata-MDD项目已经将荟萃分析使用的
统计结果数据公开(见文献[2~4,8]), 也有专门用来存
放各类数据的NeuroVault[60]和特定荟萃分析结果数据
存储的Archive of Neuroimaging Meta-analyses(ANI-
MA)[61].随着对荟萃分析可重复性的重视[62],一些杂
志按照《提升透明与开放指南》[7],加入对透明与开
放的要求.
除上述内容外,本调查还发现,作者在写作时可能
会将结果部分内容放入研究方法部分,最常出现的是
将研究筛选结果、研究特征等内容放入研究方法部
分.这样的报告方式可能让读者无法清晰地获取相应
的信息,容易造成遗漏与误解.
以上的分析表明,通过参考荟萃分析的报告规范,
能够有效地提高荟萃分析的质量.值得提出的是,当研
究方法不断深入与扩展,报告规范往往会滞后于当前
研究的需求,需要长期不断地更新与完善.例如,神经
成像领域发展出了激活似然估计法(activation likeli-
hood estimation, ALE)、核密度分析法(kernel density
analysis, KDA)与多水平核密度分析法(multilevel ker-
nel density analysis, MKDA)[63],这些不同于传统基于
效应量分析的荟萃分析方法[64,65].因此,为方便国内心
理学研究者进行自检或者审稿的清单,并结合当前国
际上报告规范的最新发展,本文的在线补充材料中提
供了完整版的《开放与可重复荟萃分析的报告清
单》,该清单共30个条目,包括一篇荟萃分析报告的完
整内容,能够为研究者在撰写和报告荟萃分析时提供
参考.当然,由于荟萃分析研究方法的复杂性与多样
性,我们也鼓励研究者查阅PRISMA声明的解释性文
件[20]及其他资料以得到更详细的条目信息.
4总结与展望
在涉及到繁复数据分析流程的研究领域,形成报
告规范有助于整个领域的健康发展,如人类脑图谱学
会(The Organization for Human Brain Mapping)专门
就fMRI/MRI的数据分析与分享推荐了最佳实践指
南[66].同样,在荟萃分析领域,一个旨在增强开放式和
可重复的报告规范,可能有助于提升荟萃分析的质
量,进而促进科学知识的有效积累.基于此目的,本
文尝试通过对国际广泛使用的PRISMA进行中国化,
对条目进行详细说明并采用近期发表的开放式荟萃
分析文章作为样例进行分析,以保证其可操作性[27].
一方面,希望未来更多的期刊编辑、审稿人和读者能
够了解荟萃分析报告的规范,以PRIOR-MA或类似规
范作为参考,促进审稿和荟萃分析的质量评估;另一
方面,也希望PRIOR-MA或者类似的规范能够对同行
有启发意义,在未来出现的更多具体荟萃分析方法
中,发展出更加适合特定类型的荟萃分析报告规范或
者检查清查.
同时需要指出的是,本文所提出的报告清单有其
局限性.第一, PRIOR-MA仅代表本文作者团队根据
其知识和经验进行的整合,难免存在不足之处,未来
可能需要进一步修改和改进.第二, PRIOR-MA主要
针对基于效应量所进行的传统荟萃分析,尤其在方法
部分,未完全覆盖近期出现的一些荟萃分析新方法,
如网络荟萃分析或者神经成像中的ALE方法等.未来
研究可以基于类似原则,提出有助于提升报告质量与
可重复性的更具体的荟萃分析报告规范.
最后,本文所提出的荟萃分析报告清单,主要针
对传统以人工编码为基础的荟萃分析.当前科学出版
中数字化技术日益成为主流,本文的调查也可以为未
来开放式共享数据平台的建设提供启示:未来通过
联合政府机构、学术组织/机构、期刊出版方和研究
者多方的力量,对科学研究的结果报告中相对基础和
常规的内容进行标准化.例如,对于有公开数据的文
章,文章中的结果部分与数据平台上的数据进行挂
钩;对于无法公开数据的文章,可以邀请作者提供可
以机读的数据结果.这种标准化的结果报告,将方便
后续研究者进行检索和效应量的转换,大大提高荟萃
分析的效率和准确性,减少人工实施荟萃分析出错的
可能性.在不久的将来,这类自动化荟萃分析方式将
极大可能加快科学研究中去伪存真和知识积累的
速度.
刘宇等:开放式荟萃分析的规范化报告
774
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
参考文献
1 Glass G V. Primary, secondary, and meta-analysis of research. Educ Res, 1976, 5: 3–8
2 Schmaal L, Pozzi E, C. Ho T, et al. ENIGMA MDD: seven years of global neuroimaging studies of major depression through worldwide data
sharing. Transl Psychiatry, 2020, 10: 1–9
3 Xia M, Si T, Sun X, et al. Reproducibility of functional brain alterations in major depressive disorder: Evidence from a multisite resting-state
functional MRI study with 1,434 individuals. NeuroImage, 2019, 189: 700–714
4 Yan C G, Chen X, Li L, et al. Reduced default mode network functional connectivity in patients with recurrent major depressive disorder. Proc
Natl Acad Sci USA, 2019, 116: 9078–9083
5 Simons D J, Holcombe A O, Spellman B A. An introduction to registered replication reports at perspectives on psychological science. Perspect
Psychol Sci, 2014, 9: 552–555
6 Maassen E, van Assen M A L M, Nuijten M B, et al. Reproducibility of individual effect sizes in meta-analyses in psychology. PLoS ONE, 2020,
15: e0233107
7 Nosek B A, Alter G, Banks G C, et al. Promoting an open research culture. Science, 2015, 348: 1422–1425
8 Zuo X N, Zang Y F, Gao J H. Toward neuroinformatics of neuroimaging data sharing and open brain science (in Chinese). Sci Sin Vitae, 2020,
doi: 10.1360/SSV-2020-0292 [左西年,臧玉峰,高家红.推进神经影像数据共享与开放式脑科学.中国科学:生命科学, 2020]
9 Sharpe D. Of apples and oranges, file drawers and garbage: Why validity issues in meta-analysis will not go away. Clin Psychol Rev, 1997, 17:
881–901
10 Ferguson C J. Comment: Why meta-analyses rarely resolve ideological debates. Emot Rev, 2014, 6: 251–252
11 de Vrieze J. The metawars. Science, 2018, 361: 1184–1188
12 Ferguson C J, Kilburn J. The public health risks of media violence: a meta-analytic review. J Pediatr, 2009, 154: 759–763
13 Anderson C A, Shibuya A, Ihori N, et al. Violent video game effects on aggression, empathy, and prosocial behavior in Eastern and Western
countries: A meta-analytic review. Psychol Bull, 2010, 136: 151–173
14 Gøtzsche P C, Hróbjartsson A, Maric K, et al. Data extraction errors in meta-analyses that use standardized mean differences. JAMA, 2007, 298:
430–437
15 Sacks H S, Berrier J, Reitman D, et al. Meta-analyses of randomized controlled trials. N Engl J Med, 1987, 316: 450–455
16 McAlister F A, Clark H D, van Walraven C, et al. The medical review article revisited: has the science improved? Ann Intern Med, 1999, 131:
947–951
17 Gates N J, March E G. A neuropsychologist’s guide to undertaking a systematic review for publication: Making the most of PRISMA guidelines.
Neuropsychol Rev, 2016, 26: 109–120
18 Moher D, Cook D J, Eastwood S, et al. Improving the quality of reports of meta-analyses of randomised controlled trials: The QUOROM
statement. Oncol Res Treat, 2000, 23: 597–602
19 Moher D, Liberati A, Tetzlaff J, et al. Preferred Reporting Items for Systematic Reviews and Meta-Analyses: The PRISMA statement. PLoS
Med, 2009, 6: e1000097
20 Liberati A, Altman D G, Tetzlaff J, et al. The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate
health care interventions: explanation and elaboration. J Clin Epidemiol, 2009, 62: e1–e34
21 Page M J, McKenzie J E, Bossuyt P M, et al. Updating guidance for reporting systematic reviews: development of the PRISMA 2020 statement. J
Clin Epidemiol, 2021, 134: 103–112
22 Leclercq V, Beaudart C, Ajamieh S, et al. Meta-analyses indexed in PsycINFO had a better completeness of reporting when they mention
PRISMA. J Clin Epidemiol, 2019, 115: 46–54
23 APA Publications Communications Board Working Group On Journal Article Reporting Standards. Reporting standards for research in
psychology: Why do we need them? What might they be? Am Psychol, 2008, 63: 839–851
24 Appelbaum M, Cooper H, Kline R B, et al. Journal article reporting standards for quantitative research in psychology: The APA Publications and
Communications Board task force report. Am Psychol, 2018, 73: 3–25
25 Zhu Y. “Open science, data sharing, software sharing”, are you ready (in Chinese)? Adv Psychol Sci, 2016, 24: 995–996 [朱滢. “开放科学 数据
共享 软件共享”, 你准备好了吗?心理科学进展, 2016, 24: 995–996]
中国科学:生命科学 2021 年 第 51 卷 第 6期
775
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
26 Moher D, Shamseer L, Clarke M, et al. Preferred Reporting Items for Systematic Review and Meta-Analysis Protocols (PRISMA-P) 2015
statement. Syst Rev, 2015, 4: 1
27 Liu Y, Chen S Q, Fan F M, et al. Supplementary materials for a checklist for reporting meta-analysis in open science era (in Chinese). Science
Data Bank, 2021, http://www.dx.doi.org/10.11922/sciencedb.00339 [刘宇,陈树铨,樊富珉,等.开放式荟萃分析报告的规范性补充材料.科学
数据银行, 2021, http://www.dx.doi.org/10.11922/sciencedb.00339]
28 Peters J P M, Hooft L, Grolman W, et al. Reporting quality of systematic reviews and meta-analyses of otorhinolaryngologic articles based on the
PRISMA statement. PLoS ONE, 2015, 10: e0136540
29 Schalken N, Rietbergen C. The reporting quality of systematic reviews and meta-analyses in industrial and organizational psychology: a
systematic review. Front Psychol, 2017, 8: 1395
30 Tan W K, Wigley J, Shantikumar S. The reporting quality of systematic reviews and meta-analyses in vascular surgery needs improvement: A
systematic review. Int J Surg, 2014, 12: 1262–1265
31 Wen J, Ren Y, Wang L, et al. The reporting quality of meta-analyses improves: a random sampling study. J Clin Epidemiol, 2008, 61: 770–775
32 Willis B H, Quigley M. The assessment of the quality of reporting of meta-analyses in diagnostic research: a systematic review. BMC Med Res
Methodol, 2011, 11: 163
33 Yao L, Sun R, Chen Y L, et al. The quality of evidence in Chinese meta-analyses needs to be improved. J Clin Epidemiol, 2016, 74: 73–79
34 Zhi X, Zhang Z, Cui J, et al. Quality of meta-analyses in major leading orthopedics journals: A systematic review. Orthopaed Traumatol Surg Res,
2017, 103: 1141–1146
35 LI B, Zhang D Q, Wangg X Q, et al. Quality evaluation of China’s sports intervention meta-analysis report based on PRISMA statement (in
Chinese). Sport Sci Res, 2020, 41: 85–89 [李博,张丹青,王雪强,等.基于PRISMA声明的我国运动干预类元分析报告质量评价.体育科研,
2020, 41: 85–89]
36 Li J, Yao Y S, Jin Y L, et al. A systematic evaluation on the quality of meta-analysis in articles published in the Chinese Journal of Epidemiology
(in Chinese). Chin J Epidemiol, 2013, 34: 819–825 [李杰,姚应水,金岳龙,等.《中华流行病学杂志》55篇meta分析文献的质量评价.中华流
行病学杂志, 2013, 34: 819–825]
37 Su L, Li Y Q, Kou L H, et al. Standardized report quality analysis of Meta-analysis articles and systematic reviews published in Chinese nursing
journals in 2018 (in Chinese). Chin Nurs Res, 2019, 33: 1866–1871 [苏琳,李亚琴,寇丽红,等. 2018年我国护理期刊刊载Meta分析与系统评
价文献规范化报告质量分析.护理研究, 2019, 33: 1866–1871]
38 Zhang W X, Xiong Y, Xu C, et al. Methodological and reporting quality of dose-response meta-analysis published in Chinese journals (in
Chinese). Chin J Evid Based Cardiovasc Med, 2017: 9: 1300–1304 [张维欣,熊莺,徐畅,等.中文期刊发表的剂量-反应meta分析方法学质量
及报告质量现状.中国循证心血管医学杂志, 2017, 9: 1300–1304]
39 Zhou P X, Yan Y Y, Zhai S D. Reporting and methodological quality assessment for systematic reviews/meta-analyses conducted by hospital
pharmacists in China (in Chinese). Chin J Evid Based Cardiovasc Med, 2017, 17: 228–234 [周鹏翔,闫盈盈,翟所迪.国内医院药学人员系统评
价/Meta分析的方法学与报告质量评价.中国循证心血管医学杂志, 2017, 17: 228–234]
40 McHugh M L. Interrater reliability: the kappa statistic. Biochem Med, 2012, 22: 276–282
41 Orwin R G, Vevea J L. Evaluating coding decisions. In: Cooper H, Hedges L V, Valentine J C, eds. The Handbook of Research Synthesis and
Meta-analysis. New York: Russell Sage Foundation, 2009. 177–203
42 Shojania K G, Sampson M, Ansari M T, et al. How quickly do systematic reviews go out of date? A survival analysis. Ann Intern Med, 2007,
147: 224
43 Egger M, Zellweger-Zähner T, Schneider M, et al. Language bias in randomised controlled trials published in English and German. Lancet, 1997,
350: 326–329
44 Vu-Ngoc H, Elawady S S, Mehyar G M, et al. Quality of flow diagram in systematic review and/or meta-analysis. PLoS ONE, 2018, 13:
e0195955
45 Jones A P, Remmington T, Williamson P R, et al. High prevalence but low impact of data extraction and reporting errors were found in Cochrane
systematic reviews. J Clin Epidemiol, 2005, 58: 741–742
46 Botvinik-Nezer R, Holzmeister F, Camerer C F, et al. Variability in the analysis of a single neuroimaging dataset by many teams. Nature, 2020,
582: 84–88
47 Yan C G, Wang X D, Zuo X N, et al. DPABI: data processing & analysis for (resting-state) brain imaging. Neuroinformatics, 2016, 14: 339–351
刘宇等:开放式荟萃分析的规范化报告
776
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
48 Baker M. 1,500 scientists lift the lid on reproducibility. Nature, 2016, 533: 452–454
49 Schooler J W. Metascience could rescue the ‘replication crisis’. Nature, 2014, 515: 9
50 Hu C P, Wang F, Song M D, et al. The replication crisis in psychological research (in Chinese). Adv Psychol Sci, 2016, 24: 1504–1518 [胡传鹏,
王非,宋梦迪,等.心理学研究中的可重复性问题:从危机到契机.心理科学进展, 2016, 24: 1504–1518]
51 Jiao C, Zhang M Q. The lost boundary: a study of the null hypothesis testing method in psychology (in Chinese). Soc Sci China, 2014, 2: 148–
163 [焦璨,张敏强.迷失的边界:心理学虚无假设检验方法探究.中国社会科学, 2014, 2: 148–163]
52 Valentine J C. Judging the quality of primary research. In: Cooper H, Hedges L V, Valentine J C, eds. The Handbook of Research Synthesis and
Meta-analysis. New York: Russell Sage Foundation, 2009. 129–146
53 Alonso-Coello P, Schünemann H J, Moberg J, et al. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to
making well informed healthcare choices. 1: Introduction. BMJ, 2016, 353: i2016
54 Brouwers M C, Johnston M E, Charette M L, et al. Evaluating the role of quality assessment of primary studies in systematic reviews of cancer
practice guidelines. BMC Med Res Methodol, 2005, 5: 8
55 Zeng X, Zhang Y, Kwong J S W, et al. The methodological quality assessment tools for preclinical and clinical studies, systematic review and
meta-analysis, and clinical practice guideline: a systematic review. J Evid Based Med, 2015, 8: 2–10
56 Lewis S, Clarke M. Forest plots: trying to see the wood and the trees. BMJ, 2001, 322: 1479–1480
57 Silagy C A, Middleton P, Hopewell S. Publishing protocols of systematic reviews. JAMA, 2002, 287: 2831–2834
58 Kirkham J J, Dwan K M, Altman D G, et al. The impact of outcome reporting bias in randomised controlled trials on a cohort of systematic
reviews. BMJ, 2010, 340: c365
59 Booth A, Clarke M, Dooley G, et al. The nuts and bolts of PROSPERO: an international prospective register of systematic reviews. Syst Rev,
2012, 1: 1–9
60 Gorgolewski K J, Varoquaux G, Rivera G, et al. NeuroVault.org: A repository for sharing unthresholded statistical maps, parcellations, and atlases
of the human brain. NeuroImage, 2016, 124: 1242–1244
61 Reid A T, Bzdok D, Genon S, et al. ANIMA: A data-sharing initiative for neuroimaging meta-analyses. NeuroImage, 2016, 124: 1245–1253
62 Braver S L, Thoemmes F J, Rosenthal R. Continuously cumulating meta-analysis and replicability. Perspect Psychol Sci, 2014, 9: 333–342
63 Wager T D, Lindquist M, Kaplan L. Meta-analysis of functional neuroimaging data: current and future directions. Soc Cogn Affect Neurosci,
2007, 2: 150–158
64 Eickhoff S B, Laird A R, Fox P M, et al. Implementation errors in the GingerALE Software: description and recommendations. Hum Brain Mapp,
2017, 38: 7–11
65 Hu C P, Di X, Li J W, et al. Meta-analysis of neuroimaging studies (in Chinese). Adv Psychol Sci, 2015, 23: 1118–1129 [胡传鹏,邸新,李佳蔚,
等.神经成像数据的元分析.心理科学进展, 2015, 23: 1118–1129]
66 Nichols T E, Das S, Eickhoff S B, et al. Best practices in data analysis and sharing in neuroimaging using MRI. Nat Neurosci, 2017, 20: 299–303
中国科学:生命科学 2021 年 第 51 卷 第 6期
777
https://engine.scichina.com/doi/10.1360/SSV-2021-0009
A standardized checklist on meta-analysis reporting in the
open science era
LIU Yu1, CHEN ShuQuan2, FAN FuMin1, DI Xin3, FAN HuiYong4, FENG ChunLiang5, GUO
ShuangShuang1, GAN YiQun6, LI HuiJie7,8, LV XiaoKang9, REN ZhiHong10, XU PengFei11, YUAN
Bo12, ZUO XiNian13,14 & HU Chuan-Peng15
1 Department of Psychology, Tsinghua University, Beijing 100084, China;
2 Department of Clinical and Counseling Psychology, Teachers College, Columbia University, New York City 10025, USA;
3 Department of Biomedical Engineering, New Jersey Institute of Technology, Newark 07102, USA;
4 College of Education Sport Science, Bohai University, Jinzhou 121013, China;
5 School of Psychology, South China Normal University, Guangzhou 510631, China;
6 Beijing Key Laboratory of Behavior and Mental Health, School of Psychological and Cognitive Sciences, Peking University,
Beijing 100871, China;
7 Key Laboratory of Behavioral Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China;
8 Department of Psychology, University of Chinese Academy of Sciences, Beijing 100049, China;
9 Department of Social Psychology, Zhou Enlai School of Government, Nankai University, Tianjin 300350, China;
10 School of Psychology, Central China Normal University, Wuhan 430079, China;
11 Faculty of Psychology, Beijing Normal University, Beijing 100875, China;
12 Department of Psychology, Ningbo University, Ningbo 315211, China;
13 State Key Laboratory of Cognitive Neuroscience and Learning/IDG McGovern Institute for Brain Research,
Beijing Normal University, Beijing 100875, China;
14 National Basic Science Data Center, Beijing 100190, China;
15 School of Psychology, Nanjing Normal University, Nanjing 210023, China
Meta-analysis is a crucial tool for accumulating evidence in basic and applied research. In the open science era, meta-analysis
becomes an important way for integrating open data from different sources. Meanwhile, because of researchers’ high degree of
freedom introduced by multiple-steps and multiple-choices in each step of meta-analysis, the openness and transparency are crucial
for reproducing the results of meta-analysis. To reflect the transparency and openness of meta-analysis reports published in Chinese
journals and improve the transparency and openness of future meta-analysis by Chinese researchers, we developed a Chinese version
of a checklist for meta-analysis (Preferred Reporting Items for Open and Reproducible Meta-analysis, PRIOR-MA), which was based
on the Preferred Reporting Items for Systematic reviews and Meta-Analyses (PRISMA) and the principle of openness and
transparency. We then surveyed the methods and results of 68 meta-analysis papers published in mainstream Chinese psychological
journals in the last five years. Our results revealed that the openness and transparency of Chinese meta-analysis reports need to be
improved, especially in the following aspects: the date/time and limitation of literature search, the details of screening and data
collection, the flow chart of article screening, the details of effect size transformation, and the evaluation of individual research bias.
The checklist, which lists almost all aspects that an open meta-analysis should include, can be used as a guide for future meta-
analysis. This paper provides a comprehensive checklist (PRIOR-MA) for open meta-analysis, and provides a reference for future
meta-analytic research.
meta-analysis, reporting standard, reproducibility, quality of reporting, open science
doi: 10.1360/SSV-2021-0009
刘宇等:开放式荟萃分析的规范化报告
778
https://engine.scichina.com/doi/10.1360/SSV-2021-0009