大约20年前,社会行为科学领域,尤其是心理学领域发表的文献的可信度引发了一场全社会范围的反思。几项大规模的研究试图重现先前发表的研究结果,但没有任何效果,或者规模小得多,这使得这些研究结果以及未来社会行为科学研究的可信度受到质疑。
然而,该领域的少数顶级专家开始表明,当采用最佳实践时,高度可复制性是可能的。在六年多的时间里,来自加州大学圣巴巴拉分校、加州大学伯克利分校、斯坦福大学和弗吉尼亚大学实验室的研究人员发现并复制了16项新发现,这些发现表面上是黄金标准的最佳实践,包括预注册、大样本量和复制保真度。
他们发表在《自然人类行为》杂志上的研究结果确实表明,通过最佳实践,高可复制性是可以实现的。
加州大学圣巴巴拉分校杰出教授乔纳森·斯库勒(Jonathan Schooler)说:“这是一个存在的证据,证明我们可以着手发现新的发现,并在非常高的水平上复制它们。”他是加州大学圣巴巴拉分校元实验室和正念与人类潜能中心的主任,也是该论文的资深作者。
“主要的发现是,当你遵循当前进行和复制在线社会行为研究的最佳实践时,你可以实现高且总体稳定的复制率。”
他们的研究结果平均是原始研究结果的97%。相比之下,之前的复制项目观察到的复制结果大约是50%。
这篇论文的主要研究者是加州大学圣迭戈分校元实验室和中康涅狄格州立大学(CCSU)的John Protzko,斯坦福大学政治心理学研究小组的Jon Krosnick,加州大学伯克利分校哈斯商学院的Leif Nelson和隶属于弗吉尼亚大学的Brian Nosek,他是开放科学独立中心的执行主任。
“在过去的几年里,有很多关于许多科学的可复制性的担忧,但心理学是最早开始系统调查这个问题的领域之一,”主要作者普罗茨科说,他是斯库勒实验室的研究助理,在研究期间他是博士后学者。他现在是中央州立大学心理科学助理教授。
“问题是,过去的复制失败和效应大小的下降是否固有地存在于观察到它们的各种科学领域中。例如,一些人推测,随着时间的推移,新发现的发现可能变得越来越不可复制或越来越小,这是科学事业的一个固有方面。”
该小组决定使用开放科学中新兴的最佳实践来进行新的研究,然后用一种创新的设计来复制它们,在这种设计中,研究人员致力于复制最初的确认研究,而不管结果如何。在六年的时间里,每个实验室的研究小组都进行了研究,然后由所有其他实验室复制。
该联盟总共发现了16个新现象,并将每个现象重复了4次,涉及12万名参与者。“如果你在发现新科学时采用大样本、预注册、开放材料的最佳实践,并尽可能忠实于原始过程进行复制,你最终会得到一门高度可复制的科学,”普罗茨科谈到这些发现时说。
该研究提供的一个关键创新是,所有参与的实验室都同意重复最初的确认研究,而不管结果如何。这消除了科学界只发表和复制积极结果的习惯偏见,这种偏见可能导致过去对效应大小的初始评估过高。此外,这种方法使研究人员能够观察到几个案例,这些案例的研究设计在最初的确认中未能产生重大发现,后来在其他实验室重复时获得了可靠的效果。
总的来说,该项目揭示了他们的社会行为发现的极高的可复制率,并且没有统计上显著的证据表明重复复制会降低。研究人员指出,考虑到样本量和效应大小,根据统计显著性,观察到的86%的可复制率不可能再高了。
为了测试他们发现的新颖性,他们对人们对新发现的方向和可复制性的预测进行了独立的测试。在几次后续调查中,na?ve参与者评估了对新研究和与先前重复项目相关的研究的描述,发现它们各自的可预测性没有差异。
因此,这些研究的复制成功并不是因为他们发现了明显的结果,而这些结果必然会被复制。事实上,许多新发现已经独立发表在高质量的期刊上。
“发现很容易复制完全明显的发现,这不会特别有趣,”斯库勒说。“但我们的研究在惊喜因素方面与过去难以复制的研究相当。未经训练的法官在我们的每项研究中都得到了两种情况的总结,以及之前重复的一组类似的两种情况的研究,他们发现同样难以预测我们的研究结果相对于之前的研究结果的方向。”
因为每个研究实验室都有自己的研究,他们来自各种各样的社会、行为和心理学领域,如市场营销、政治心理学、偏见和决策。它们都涉及人类受试者,并遵守一定的约束条件,比如不使用欺骗手段。普罗茨科说:“我们确实在这个过程中建立了独立的实验室。”“他们会谈论自己感兴趣的正常话题,以及如何进行学习。”
总的来说,他们的元科学调查提供了证据,证明低可复制性和下降的影响并非不可避免。严格的增强实践可以导致非常高的复制率,但是确切地确定哪些实践效果最好将需要进一步的研究。这项研究的“厨房水槽”方法——同时使用多种提高严谨性的做法——并没有孤立出任何单独做法的效果。