Working PaperPDF Available

池田・平石 (2016) 「心理学における再現可能性危機:問題の構造と解決策」に関する追加的ノート

Authors:
1
『心理学評論』第 59 1号、特集
「心理学の再現可能性:我々はどこから来たのか 我々は何者か 我々はどこへ行くのか」所収
池田・平石 (2016) 「心理学における再現可能性危機:問題の構造と解決策」
に関する追加的ノート
池田功毅・平石界
私たちの心評論文(池田・平石, 2016; 以下 I&H と呼びます)は、最初の草稿段階では、かなり長
いものになってしまい、その後スペースに合わせてかなりの内容を削りました。このノートでは、
の削った部分と、その後の査読過程で様々な方々からの質問をいただきましたので、それらの質
問と、私たちからの回答をまとめておきます。本論文の注記みたいなものだと思っていただき、再
現可能性問題について、より深い理解を得たい方に読んでいただければと思います。目次を参考
に、関心のあるところを読んでいってください。
またここで、特集号の投稿・査読過程で大変お世話になった、三浦麻子先生(関西学院大学)、
友永雅己先生(京都大学)、針生悦子先生(東京大学)、ならびに有益かつ細やかなコメントをくだ
さった査読者の方に感謝の意を表します。
2
目次
1. 危機の発端: Bem 超能力論文の衝撃 ............................................................................................. 4
2. 危機の構造分析に関する参考資料 ...................................................................................................... 5
2.1. p Hacking のデモンストレーション: Simmons らの実験とシミュレーション ........................................ 5
2.2. QRPs はどのくらい実際に使われているのか: John らのアンケート調査結果 ...................................... 6
2.3. Bem 著「HARKing のすゝめ」 ......................................................................................................... 7
3. 危機発生以降の主な追試研究 ............................................................................................................ 8
3.1. Bem 超能力実験の追試.................................................................................................................. 8
3.2. 社会的プライミング実験の追試 .......................................................................................................... 9
3.3. 嫌悪と道徳判断に関する追試 ........................................................................................................... 9
3.4. Many Labs Project ..................................................................................................................... 10
3.5. Reproduciblity Project: Psychology...................................................................................... 11
4. 追試に関する論争 ............................................................................................................................... 11
4.1. 追試者の技術不足? ..................................................................................................................... 11
4.2. 「方法」に記載されていない方法? .................................................................................................. 12
4.3. 隠れ変数? ....................................................................................................................................... 12
4.4. 再現の成功と失敗の基準 ................................................................................................................ 14
5. 事前審査付き事前登録制度に関する論争 ......................................................................................... 16
6. メタアナリシスについて ............................................................................................................................ 16
7. 査読仮定で聞かれた質問と、それに対する回答 ................................................................................... 17
7.1. 「心理学理論の弱さ」とは? ............................................................................................................. 17
7.2. Bem 論文は「非科学的」なの? ..................................................................................................... 18
7.3. 問題があるのは心理学全体ではなく、その一部では? ..................................................................... 19
7.4. 「研究者の自由度」という表現はよく使われているの? ..................................................................... 19
3
7.5. 事前審査付き事前登録制度によって心理学理論も改善できるの? ............................................... 20
7.6. 検定力は実測できないの? ............................................................................................................. 20
7.7. HARKing って本当に悪いことなの? ............................................................................................... 20
7.8. 事前審査付き事前登録制度って、本当にうまくいくの? .................................................................. 21
7.9. FDR に関する議論って現実的なの? .............................................................................................. 22
7.10. 「審美的判断基準」って何? ....................................................................................................... 22
7.11. 事前審査付き事前登録制度って、本当に、本当にうまくいくの? ................................................ 23
8. 最後に: 再現可能性革命から、新たな心理学理論構築の時代へ ................................................... 23
4
1. 危機の発端: Bem 超能力論文の衝撃
このセクションでは、再現可能性危機が人々の注目を集めたきっかけとなった事件につ
いて説明する。
おそらく 2011 年は今後の心理学史に記録される年になるだろう。というのも、社会心
理学のトップジャーナルである Journal of Personality and Social Psychology(以下 JPSP)に、
著名な社会心理学者である Daryl Bem によって、未来予知に関する超能力を肯定する論文
が投稿され、受理・刊行されたためである (Bem, 2011)。無論、未来予知能力は、少なく
も現在知られている物理学の基本諸法則に反した現象であり、この報告が事実であれば、
自然科学のみならず人類の知識体系全体を大幅に塗り替えなければならなくなるほどの大
発見である。すなわち直感的には、そうした報告が真実である可能性は考えられないほど
に低い。にも関わらず、なぜ JPSP はその論文の刊行に踏み切ったのか。その理由は、論文
が投稿された 2008-2010 年の時点で JPSP が採用していた査読基準に鑑みて、この論文を出
版すべきではないとする理由が指摘できなかったためである (Judd & Gawronski, 2011)。す
なわち、この問題は、同時期に心理学領域で発覚した Derek Stapel Marc Hauser らによる
データ捏造事件などとは本質的に異なっており、心理学ないしは現在の自然科学が持つ根
本的かつ構造的な問題を反映していた。言い換えれば、現在の心理学の枠組みでは、いく
ら真摯に学問を行おうとしても、こうした極めて疑わしい結果の論文の出版を止めること
ができないという事実が露呈されたのである。
この問題は決して他人事ではない。現在発表されているほとんどの科学報告は、論文審
査ないしは学会発表を通じての査読というチェックシステムを通じて、それが「事実」を
報告しているという認証を得ていく。しかしそのシステムに構造的な不備があり、事実と
虚構を見分けることができないのだとしたら、私たちは現在の科学的営為、出版されてい
る諸論文を、どうやって信じれば良いのだろうか。
さらに Bem 論文の衝撃はこれだけに留まらなかった。この論文が奇しくも照らし出した
構造的問題を考察・研究していくうちに、問題の本質は Bem の一研究に帰せられるもの
ではなく、ほとんどの心理学者が無自覚に実践している研究方法と、その研究を取り巻く
制度に内在的なものであることが、改めて明らかになったためである
1
。つまり本稿を書
いている著者も、そして本項を読んでいる読者諸氏も、自覚の如何を問わず、既にその問
題に関与している可能性が極めて高いのだ。皮肉なことに、そうした意味で Bem 文は、
あらゆる心理学者にとって、その研究方法と制度の根本を考え直す機会を与えた、心理学
史上に残る画期的論文だったと言えるだろう。
1
正確には、同様の問題は以前から指摘されていたが (Campbell & Jackson, 1979; Greenwald, 1975;
Mahoney, 1977; Rosenthal, 1979a, 1979b; Rozeboom, 1960; Sterling, 1959)、今回は対策立案の必要性
が、迅速かつ広範囲に心理学者の間で共有された点が画期的であった。なぜ今そうした事態が生
たのか、その理由としては、技術革新によってデータ収集や分析、そして結果に関する情報の交
に要するスピードが短縮されたこと(特に twitter どのソーシャルメディアと blog が重要な役割
を果たした)、心理学研究者の数が増えたこと、論文刊行が以前より難しくなったこと、問題が心
理学だけではなく生物学などにも共有されていた点などが挙げられている(Spellman, 2015)
5
2. 危機の構造分析に関する参考資料
I&Hの「1.1. p Hacking QRPs」で紹介した通り、Bem 論文がもたらした危機的状況に対
して、どういう構造的問題からそんな事態が生じてしまったのか、様々な分析が提出され
た。このセクションでは、それらの中から I&H 詳しく紹介できなかった部分を述べる。
2.1. p Hacking のデモンストレーション: Simmons らの実験とシミュレーション
Bem 論文の発表と前後して、Simmons らはその構造的問題を指摘する論文を発表した
(Simmons, Nelson, & Simonsohn, 2011a)。その中で彼らは p Hacking のひとつのデモンストレ
ーションとして、“Musical Contrast and Chronological Rejuvenation” (音楽的対比と経時的若
返り)と題された実験を行い、その結果を報告している。参加者 20 名を 2群に分け、1
ループにはビートルズの ”When I’m Sixty-Four” を、もう片方には “Kalimba” Windows 7
無償で付いている楽曲)を聞かせた後、それとは無関係な課題として、参加者に生年月日
を回答するよう求めた。また参加者の父親の年齢を、生年月日の分散の統制として用いた。
さて、この実験でどのような結果が得られたのだろうか? なんと信じがたいこと
に、”When I’m Sixty-Four” を聞いた後の方が、他の群よりも約 1歳半ほど若いことが統計的
に有意に示されてしまったのである (F(1, 17) = 4.92, p = .040)。無論このような結果は、どう
考えてもあり得ない話である。だが内容の荒唐無稽さを考慮しなければ、上記のような報
告形式は現在の多くの心理学ジャーナルで要請される形式を満たしている。ではなぜ、こ
のような信じがたい結果が統計的に有意なものとして得られたのだろうか。
ポイントは、著者たちが意図的に実験の詳細すべてを報告しなかったところにある。す
なわちこの実験では(1) 実際には「父親の年齢」以外にも同時に多くの変数を測定して
おり、(2) 実際の実験では、楽曲条件としてもうひとつの異なるグループがあり、 (3) 前も
って総参加者数を決めていたわけではなく、1ッション(約 10 人が参加)が終るたびに
統計検定をかけ、有意差に至ったところで参加者を足すのを止めており、(4) 生年月日
外にも多くの質問項目にも回答させており
2
、さらに(5) 共変量を入れない分析では有意な
効果が確認されなかったにも関わらず、その結果は報告していない。Simmons は、これ
らの方法はすべて p hacking、すなわち p値を実際の値よりも引き下てしまう、統計学的に
は「違法」
3
な行為だと断言する。
いかがだろうか。読者諸氏は、これらの「違法性」を直ちに認識されるだろうか? それ
ともこれらは至って普通の研究方法であって、いったい何が「違法」なのかと問われるだ
ろうか?その質問への回答として、Simmons らは、これらの行為(「研究者の自由度
Researcher degrees of freedom」と呼ばれる)を用いて自由度を広げれば広げるほど、p
hacking が容易に可能になることを、シミュレーションを用いて明確に示している。表 1
2
質問項目の中には、 4 人のカナダ人クォーターバックのうち誰が受賞すると思うか?などといっ
た、極めてランダムなものもあった。
3
ここで「違法」という言葉を用いたが、もちろんそれはこうした手法を用いた研究者を断罪すべ
きだといった意味ではなく、あくまで当初研究者自身が望んでいたような統計学的エラーコント
ールができなくなるという意味である。
6
まとめられた結果に示されているように、上記のような方法を組み合わせて用いれば、少
なくとも何らかの分析で有意差が見つかる可能性、すなわち第一種の過誤が生じる可能性
は、最悪の場合なんと約 61% にも達してしまう。もしこのような方法を採用したにも関
らず、論文報告ではあくまで 5%有意水準で第一種の過誤をコントロールしたと報告して
しまえば、それは端的に嘘をついてしまったことになる。このように p hacking は統計学の
重要かつ基本的なルールを無視したものであるため、違法行為と言われても仕方がない。
1: 偽陽性の有意差を得る確率
研究者の自由度
p < .05
状況 A:二種類の従属変数を分析 ( r = .5)
9.5%
状況 B:有意差が出なかった場合、各条件ごとに 10 回の観察を追加してい
7.7%
状況 C:性別の主効果か性別×操作の交互作用を共変量としてコントロール
11.7%
状況 D:三条件を測定するも、二条件のペアの結果しか報告しない
12.6%
ABを組み合わせた場合
14.4%
ABCを組み合わせた場合
30.9%
ABCDを組み合わせた場合
60.7%
註:Simmons et al. (2011), Table 1 の一部を改変して引用。15,000 回のシミュレーションで、行った
分析のうち少なくともひとつが p < .05 で有意になる確率を示す。各観察の値は独立に同じ正規分布
から抽出。ベースラインは二条件間で実験操作を行い、一条件 20 回の観察を想定。状況 Aは、二
種類の従属変数を個別の tテストで分析した場合と、それらの平均値を分析した場合の三種類の分
析のうちいずれかが有意になる確率。状況 Bは有意差が出なかった場合に、各条件毎に 10 の観
察を足していった場合、有意に達する確率。状況 Ctテストと、性別の主効果を共変量としてい
れた ANCOVA と、性別の交互作用を入れた ANCOVA を行い、いずれかで、実験操作の効果か、操作
×ジェンダーの交互作用が有意となる確率(各観察は 50%の確率でいずれかの性別に分類)。状況 D
は、実は三条件で観測を行い、三条件間可能な二条件間のペアリングすべてで tテストを行い、さ
らに三条件の回帰分析が線形となるかのテストも行って(すなわち計 4つの分析)、そのうちいず
れかが有意になる確率。
2.2. QRPs はどのくらい実際に使われているのか: John らのアンケート調査結果
次に、これも I&H1.1. p Hacking QRPs」で述べた通り、John らは、心理学者を対象に
QRPs を実際に行った経験があるかどうか、アンケート調査を行った(John, Loewenstein, &
Prelec, 2012)その結果を表 2にまとめておく。ここで聞かれてもいないのに正直な告白を
行ってしまえば、これは決して他人事ではなく、著者自身も QRPs に分類される方法をこ
れまで採用した経験がある。おそらく読者諸氏にも、この John らの報告を他人事と思え
ない方も多くおられるだろうと推測するが、ここで示されている通り、そうした経験は決
して少数の例外ではなく、これまでの心理学研究で実に広く行われてきたことなのだ。
7
2: QRPs に関する自己告白率と弁明可能性評定
QRPs
自己告白率 (%)
弁明可能性
1. 従属変数を選択的に報告
66.5
1.84
2. 結果が有意かどうかを見てからさらにデータを採る
58.0
1.79
3. 実験条件の選択的報告
27.4
1.77
4. 望む結果が出たので予定より早くデータ取得を終了
22.5
1.76
5. p値を「切り捨て」て報告(例:5.4%5%に)
23.3
1.68
6. うまくいった研究だけを選択的に報告
50.0
1.66
7. データ除外の影響を見てから除外するかどうかを決定
43.4
1.61
8. 予想していなかった結果を、予測していたかのように
報告
35.0
1.50
9. 実際は不確かなのに、性別など人口統計学的変数によ
って結果は影響されないと報告
4.5
1.32
10. データの改竄
1.7
0.16
註:John et al. (2012), Table 1 の一部を改変して引用。自己告白率は匿名寄付を用いた経済学的誘因
を与えた場合のものを示す。弁明可能性は、その QRPs を行うことに問題ないかどうかを弁明でき
るかどうかを、0 = 弁明できない、1 = おそらくできる、2 = できる、で回答させた結果。経済学的
誘因を与えた場合と与えなかった場合の両群の結果をまとめたもの。なお、10. データの改竄を
QRPs に入れるかどうかは議論の余地があ (Schimmack, 2015)
2.3. Bem 著「HARKing のすゝめ」
続いて HARking について。HARKing がなぜ問題なのかについては I&H1.2. 審美的判断基
準、出版バイアス、HARKing」で述べた通りである。繰り返すと、多重比較の修正を行わ
ずに複数の分析を行った結果、第一種の過誤によってたまたまある分析で有意差が見つか
った場合でも、仮説と予測を事後的に書き換えてしまえば、その分析のみを当初から意図
していたかの如く示すことが可能になり、第一種の過誤を犯している可能性を査読プロセ
ス等で指摘しにくくなり、結果として誤った知見を蓄積させることにつながるためである。
皮肉なことに、超能力論文で(以前にもまして)有名になってしまった Darryl Bem は、
“Writing the Empirical Journal Article” という記事の中で、まさにこの新奇性を伴う仮説検証
形式の重要さを説き、特に Which Article Should You Write?と題されたセクションで、次の
ように記している (Bem, 1987)
There are two possible articles you can write: (a) the article you planned to write when you
designed your study or (b) the article that makes the most sense now that you have seen
the results. They are rarely the same, and the correct answer is (b). (…) the best journal
articles are informed by the actual empirical findings from the opening sentence. Before
8
writing your article, then, you need to Analyze Your Data. Herewith, a sermonette on the
topic. (p.172)
すなわち Bem はここで明確に HARKing こそが正しい心理学論文の書き方であると断言して
いるのである。この記事は、近年まで(あるいはおそらく現在も)論文作法に関する良い
参考文献と言われ、多くの大学で教材として使われていたらしい (Vazire, 2014)。なお Bem
の超能力論文では、単に未来予知能力があるわけではなく、予測対象の画像が覚醒をもた
らすもの(エロティックな画像)である場合にのみ、予知が働くという仮説を序論で展開
している。Bem 自身が「HARKing のすゝめ」を書いていることを考慮すれば、この「予測
対象の画像が覚醒をもたらすものである場合にのみ」という部分が、研究開始前から理論
的に予測されていたことなのか、HARKing によって事後的に書き加えられたものであるの
か、判断は難しい。
3. 危機発生以降の主な追試研究
このセクションでは、2011 年以降に行われ、大きな注目を集めた追試の例に触れながら、
それに伴って心理学者間に巻き起こった論争の経緯を紹介する
4
3.1. Bem 超能力実験の追試
今回の危機の発端のひとつとなった Daryl Bem の超能力論文については、元論文の発表
直後から、複数のグループによって直接的追試(direct or close replication による検証が
行われた(Galak, LeBoeuf, Nelson, & Simmons, 2012; Ritchie, Wiseman, & French, 2012)
第二種の過誤を予防するため、各追試研究は元論文よりも統計的検定力を上げて行われ
たが、多くの人々の予測通り、結果の再現はできなかった。またこの追試報告が出版され
る過程に際して、多くの心理学ジャーナルが、いかに直接的追試(さらに有意差を伴わな
いネガティヴな結果を伴うもの)の出版に対して消極的であるかが、改めて明らかとなっ
(French, 2012)Ritchie らによって行われた追試報告は、当初、Bem 論文が出版された
Journal of Personality and Social Science (JPSP) に投稿されたが受理されず、その後他の三つ
ジャーナルにも投稿されたが、いずれも受理されなかった。最終的には 2012 年に PLoS
One を通じて出版されたものの、心理学の学術ジャーナルが追試研究に対して冷淡である
ことを示す良い例となったと言えよう。なお、その後続けて行われた Galak らの追試研究
は、JPSP に受理された事実を見ると、Ritchie らの研究に関する論争が、JPSP の編集方針に
変化を与え、追試研究の重要性を再認識させる契機となった可能性が高いと言えるだろう。
4
この論争はしばしば Nixon 大統領の Watergate 件になぞらえて、Twitter 上などで repligate
呼ばれることがある。
9
3.2. 社会的プライミング実験の追試
Bem 超能力研究に続いて多くの人々の関心を引いた追試研究は、社会的プライミング
social priming; あるいは行動プライミング behavioral priming とも呼ばれる)に関するもの
である。この理論に関する有力な経験的証拠としては、著名な社会心理学者である John
Bargh が行った実験がある。Bargh は、参加者に文章構成課題を行わせることで、老人に
する概念をプライミングすると、その影響が行動にまで及び、コントロール群よりも歩行
速度が遅くなることを報告した(Bargh, Chen, & Burrows, 1996)Doyen らはこの研究を追試
したが、実験者が実験操作の内容を知っている場合にのみ、元研究と同様の結果が得られ
たことを報告し、想定されている効果は、実験者効果によるものではないかと指摘した
(Doyen, Klein, Pichon, & Cleeremans, 2012)。さらに続けて、同じく社会的プライミングを
象とした他のいくつかの実験研究(Dijksterhuis & van Knippenberg, 1998; Williams & Bargh,
2008)に関しても追試が行われ、いずれも追試に失敗したことが報告され(Pashler, Coburn,
& Harris, 2012; Shanks et al., 2013)
社会的プライミングは社会認知研究の中でも重要なトピックであることに加えて、特に
Doyen らの追試報告に対して、元論文の著者であり、当該研究領域における最も重要な研
究者でもある John Bargh が強い(半ば感情的な)反論を行ったことで、この追試研究は
人々の注目を集めた(Yong, 2012)。またそれだけではなく、この反論を機に追試に関して活
発な議論が形成され、追試に関する誤解の解消や、またその限界の再確認などが行われた
という点で、Doyen らの研究は、再現可能性危機において極めえて重要な役割を果たした
と言える(議論の内容については本追加ノート後半で取り上げる)。
3.3. 嫌悪と道徳判断に関する追試
やはり社会的プライミング研究のひとつで、その再現可能性に関する議論が物議を醸し
たものとして、Simone Schnall らの研究がある
5
。彼女を中心とした研究グループは、道徳
的判断は気持ち悪さ(disgust)の感情強く結びついているのではないかという理論的仮
説に基づき、それならば清潔さが強調された際には、人々はより寛容な道徳的判断を行う
ようになるのではないかと予測し、実験を行った。予測通り、清潔さがプライミングされ
た後や、実際に手を洗った後には、人々の道徳的判断がより寛容になることが示された
(Schnall, Benton, & Harvey, 2008)。この報告を元として、Donnellan らのグループはこの追試
を行ったが、同じ結果を得ることができなかっ(Johnson, Cheung, & Donnellan, 2014)
この追試研究が注目を集めた理由のひとつは、追試報告に関連する比較的感情的とも言
えるやり取りが、元論文著者と、追試を行った研究者との間で行われ(Donnellan, 2013;
Schnall, 2014)、またそれに対して、社会心理学領域で高名な Daniel Gilbert が、元論文著者
5
この他にも、社会的プライミング関連のもので再現可能性が疑われているものは多い。例として
は、「教授」などの概念をプライミングされると、質問への回答の正確さが高まるという報告や
(Shanks et al., 2013) 、神概念の社会的プライミングが協力行動を高めるという報告(Gomes &
McCullough, 2015)、また男性に魅力的な異性イメージをプライミングすると、消費行動やリスク選
好が過度なものになるという報告(Shanks et al., 2015)などで、追試の失敗が報告されている。
10
を擁護し、追試報告者を非難する発言を行ったためである(Gilbert, 2014)John Bargh に続
いて Daniel Gilbert のような著名な心理学者が強い反論を行ったことで、心理学における再
現可能性に関する議論は、政治性を含んだ、論争と呼ぶべき様相を見せ始めた。この問題
を危機として捉え、改革的な態度をとる、主に twitter blog などを活用する若手の派閥
と、そもそも危機は存在していないと述べる、比較的年長の、業界内で力を持つ研究者と
の間の争いである。
3.4. Many Labs Project
追試研究に対する関心の高まりと並行して、ヴァージニア大学の社会心理学者 Brian
Nosek を中心としたグループは、Center for Open Science COS)という組織を立ち上げた
(https://cos.io/)。この組織の目的は、心理学に限らず、科学研究の透明性と頑健性、再現
可能性を高めることにあり、具体的には、後に述べる Open Science FrameworkOSF)の開
発や、研究資金の提供、そして講義やワークショップなどの開催を行っている。
この COS を基盤とした再現可能性に関するプロジェクトが複数行われている。その第一
が、Many Labs Project と呼ばれるものであり、2016 3月現在までで、2つの報告が行わ
れている。双方とも、世界各地から複数の研究室がプロジェクトに参加し、あらかじめ選
定された、いくつかの先行研究報告を対象として、追試を行う。最初のプロジェクトでは、
36 の研究室が、世界 12 ヵ国から参加し、13 の研究が追試され(Klein et al., 2014)。結果、
13 のうち、有名なフレーミング効果(Tversky & Kahneman, 1981)など 11 の効果について追
試が成功し、社会的プライミングに関する残り2つでは成功しなかった。また、実験室
実験とオンライン実験での差はほとんど見られず、また国による違い(アメリカとそれ以
外)もほとんど見受けられなかった。
続いて行われたプロジェクトでは、10 の実験を対象として、20 の研究室が参加し、さ
らにインターネット経由(Mechanical Turk)で収集されたデータを加え、学期の始まりと
終わりの 2つの時期でデータを収集した(Ebersole et al., in press)。最後の点については、大
学生が単位取得と引き換えに参加するケースが多いアメリカでは、データ取得時期が学期
末にあたると、データの質が落ちるのではないかという懸念があったため、それを検証す
る目的で行われた。10 の追試のうち 9つが直接的追試で、残りは概念的追試と分類され
た。結果、ストループ効果などを含む三つの効果でしか成功しなかった。またデータ取得
時期による変化は見られなかった。
無論、これらの研究は網羅的と言えるものではない。上記の結果についても、どこまで
の一般化が可能かは、今後の検討を待つ必要がある。しかしながら、同一の効果を対象と
して、研究室や文化の差、データ取得の方法や時期などが、どの程度の影響を及ぼすかを
システマティックに検討したプロジェクトはこれまでに類がなく、追試研究の性質を解明
する上でも重要な試みだと言えるだろう
6
6
なお、Daniel Gilbert はこのプロジェクトに対しても否定的なコメントを twitter 上で残している
(Gilbert, 2013)
11
3.5. Reproduciblity Project: Psychology
Brain Nosek COS は、現在の心理学研究における再現可能性を、よりシステマティック
に調べるため、Many Labs よりも大規模な、Reproduciblity Project: Psychology (RP:P)と呼ばれ
る追試プロジェクトを試みた(Open Science Collaboration, 2012, 2015)。このプロジェクトで
は、三つの代表的な心理学ジャーナル(Journal of Experimental Psychology: Learning, Memory
and Cognition; Psychological Science; そして Journal of Personality and Social Psychology)に
2008 年中発表された 100 本の論文報告を対象として、その追試を行った。結果、5%水準
で統計的有意に達した実験は全体のうち 36%に留まり、追試を行った研究者自身の主観
基準に照らし合わせて「成功した」と言えるものを対象としても、39%にしか至らなかっ
た。さらに領域別にその内訳を見ると、社会心理学系では 25%、認知心理学系では 50%
再現可能率が見られた(5%有意水準で)。この結果は、心理学における現状の再現可能
性が極めて低いことを如実に示すものであり、メディアでの報道を含めて、大きな反響を
呼んだ。
また RP:P の報告に関連して、議論のテーマとして浮かび上がってきた問題は、追試の
「成功」は、どのような基準によって判断されるべきか、という問題である。本稿でも後
ほど詳述するように、これは RP:P 以前から議論の続いている問題であり、元の RP:P 報告
でもこの問題は慎重に検討されていたが、さらDaniel Gilbert らが、RP:P で用いられた
功判断の基準に疑問を呈する趣旨のコメンタリーを発表
7
RP:P 参加者との間での論争に
発展したことから、再び注目を集めている(Anderson et al., 2016; Gilbert, King, Pettigrew, &
Wilson, 2016)。こうした諸問題を改めて提議したという意味も含め、いずれにせよ RP:P は、
現在の心理学における再現可能性問題への取り組みを象徴するプロジェクトであったと言
えるだろう。
4. 追試に関する論争
このセクションでは、危機発生以降積極的に行われるようになった追試研究についての
論争を紹介する。I&H で述べたように、事前審査付き事前登録制度の導入など、心理学に
おける方法論的革命は現在も急速に進行しつつあるが、無論批判が無いわけではない。こ
の問題が広く周知され始めた当初から、心理学者間で多くの議論がなされており、それら
の要点を認識することは、各改革項目の意義を理解する上で重要である。以下、まずは追
試への試みに対する論争から見てみよう。
4.1. 追試者の技術不足?
追試研究に対するもっともシンプルな批判として、ハーヴァード大学の Jason Mitchell
どは、仮に追試が元研究を再現できなかったとしても、それは追試研究を行った研究者の
7
ただし、Gilbert らの反論は統計学的に間違っていることが指摘されている(Lakens, 2016)
12
単純なミスによるものかもしれないという懸念を示した(Mitchell, 2014; ただしオリジナル
のページは後に削除されている)。この意見に対しては、確かに追試が失敗する原因には、
追試研究者の技術的ミスも考えられるが、元研究で報告されている知見がそもそも根拠の
ないものである可能性も十分にあるため、すべてを前者だけに帰属させることは無理があ
ること、また追試研究者の技術的ミスは、ネガティヴなだけではなく、ポジティヴな、す
なわち統計的有意差を生み出す原因ともなり得るため、いずれにせよ、方法論的な厳密さ
を伴った追試を行っていかなければ、そもそも元研究報告の信頼性を担保することはでき
ない、といった反論がなされており、妥当な議論だと考えられる(Neuroskeptic, 2014a)
4.2. 「方法」に記載されていない方法?
追試研究について、上記の「追試者の技術不足」批判と関連した議論として、実験方法
に関する知不足の問題が指摘されている。発達心理学・神経科学者であUta Frith
Christopher Frith は、特に幼児などを対象とした発達研究などの領域では、データ取得に際
して、論文の方法部分に記載されていない様々なテクニックが必要とされており、これら
を十分に習得していない研究者が追試を行った場合、追試に失敗する可能性が高くなるこ
とを指摘し、追試失敗の報告を解釈することの難しさを論じている(Frith & Frith, 2014)
だがこの問題は、何も追試に限ったものではない点に注意すべきである。そもそも科学論文にお
いて方法部分が重視される理由のひとつは、その熟読を通して、当該研究の科学的厳密さと、
果の信頼性を論文査読者読者に判断させるためである。すなわち、仮にこの方法部分の記述
のみから、研究者の基本的知識の有無が判断できないのであれば、それは当該研究が追試であ
るかどうかとは別に、論文記述の作法そのものに根本的な問題があることになる。
既に以前から、こうした基礎的知識不足の問題を解決するために、心理学の諸領域で、
様々な方法論的ガイドラインの整備が行われている。発達研究においても、habituation
eye-tracking などのガイドラインが存在し(Oakes, 2010a, 2010b)、また生理心理学でも、各測
定手法についてのガイドラインが整備されてい(Berntson et al., 1997; Boucsein et al., 2012;
Picton et al., 2000)。さらには社会的プライミング実験に関しても、Bargh 自身が方法的ガイ
ドラインを著している(Bargh & Chartrand, 2000)
8
。問題は、少なくとも心理学諸領域では、
こうしたガイドラインがどこまで尊守されているかについての審査が、現在は主に査読者
の主観的審査に依存しており、フォーマルな審査プロセスが採用されていることが稀な点
である。今後追試を含めて研究の再現可能性を高めていく上で、この点についての透明性
をより高め、新規参入者を含めた研究者コミュニティ内で、方法論的注意点のシェアをよ
り一層促進し、また査読過程でそのチェックを行うシステムを確立するよう、一層の努力
を行うべきだと思われる。
4.3. 隠れ変数?
8
なお、Bargh の老人プライミング実験の追試を行った Doyen らの論文中でも、このガイドライン
論文は引用されている。
13
続いての追試にまつわる論争は、隠れ変数(hidden variable)の存在に関するものであ
る。老人プライミング実験の著者である Bargh は、たしかに Doyen らによる追試は失敗し
たかもしれないが、当該の効果に関しては、既にふたつの研究が直接的追試に成功してい
るとして反論した(Bargh, 2012)。より正確に言えば、これらの研究では、老人プライミン
グ効果を直接的に主効果として発見することはできなかったものの、自意識の高低や老人
に対する態度といった変数との交互作用として確認されており、Bargh はこの結果をもっ
て、直接的追試の成功としている。
この媒介変数の問題は、追試の結果をいかに解釈するかという点に関して、おそらくこ
れまでに最も広く行われた論争である。まず、追試の失敗を字義通り受け止めようとする
立場からは、例えば上記の老人プライミング実験に関する結果は、当該の主効果が再現で
きなかったのであるから、追試の成功ではなく、失敗であると解釈される。他方、これに
反対する立場からは、こうした媒介変数の発見は、むしろ元研究の文脈依存性を新たに指
摘したのだから、当該研究領域の積極的発展と捉えるべきだと主張される。また、この後
者の立場を強く採る論者は、この議論をさらに敷衍し、一般的に追試の失敗は、むしろ元
研究では存在が確認されなかった、何かしらの未知の、しかし効果の発現にとって重要な
「隠れ変数」の存在を暗示するものであり、元効果の文脈依存性を明確にする、重要な科
学的発見のプロセスなのだ、と議論す(Cesario, 2014; Dijksterhuis, 2014; Feldman Barrett,
2015; Locke, 2015; Stroebe & Strack, 2014)。後者の立場からすれば、Bargh が引用したふたつ
の「直接的追試」は、まさにこうした隠れ変数を発見した研究と考えられ、元研究の追試
に成功しただけではなく、さらにその文脈依存性を指摘したという意味で、意義のある研
究だ、ということになる。
しかしながら、この「隠れ変数」議論にはいくつかの問題点がある。まず、追試が失敗
した場合に、その原因を無条件に隠れ変数の存在へと結びつけてしまうなら、当該効果が
存在するかどうかの確認、すなわち直接的追試の意義そのものがなくなってしまう。隠れ
変数が存在する可能性は無限にあるため、「追試の失敗」という現象そのものが論理的に
成立しなくなる(Neuroskeptic, 2015; Simons, 2014)。この事態を避けるためには、隠れ変数
の存在をテスト可能な仮説として提出し、検証するべきであるが、それはすなわち、その
隠れ変数を含んだ予測をもとに、再度追試を行うことに他ならない。これら手続きを経ず
に、追試の失敗結果を、隠れ変数の仮定から解釈することは、科学の蓄積的プロセスその
ものを否定することになるだろう。
第二の問題点は、この隠れ変数の議論は、追試の失敗だけではなく、追試の成功をも、
論理的に不可能にしてしまう(Gelman, 2015)そもそも、元研究と追試の間には、サンプ
ルの違いなど、必ず何らかの条件的差異が存在するため、仮に追試が成功したとしても、
その結果もまた隠れ変数に依存した、文脈依存的なものである可能性があり、こうした変
数を特定しなければ、その追試が本当に成功したかどうかは分からない。すなわちこの議
論を突き詰めると、「追試の成功」もまた、無限に成立しえないことになってしまう。だ
が現実的には、隠れ変数の議論を擁護する立場の研究者であっても、追試の成功に関して、
こうした可能性を指摘することはまずないだろう。結果として、追試結果の解釈が、不当
に「失敗」の側に不利に働くことになる。
最後の問題点は、既に本稿で述べた多重比較の問題である(Gelman, 2016b)。すなわち、
たとえば老人プライミング実験に関する追試の場合のように、ある媒介変数が交互作用を
通じて発見された場合であっても、その変数は、もともと「隠れ」ていたのだから、その
14
存在はデータ取得前には予測されておらず、事前登録にも記載されていないはずである。
その場合、多重比較の問題を考慮して、有意水準の修正等を厳密に行わなければならない。
もしそうした手続きを採用していない場合、隠れ変数による交互作用は、単に偶然見つか
ったものである可能性が極めて高くなる。そして現に、老人プライミング実験の追試を始
め、これまで報告されてきたこの種の報告で、こうした厳密な修正が採用された例は稀で
ある。
以上をまとめると、隠れ変数の想定によって、追試の失敗をポジティヴな方向に解釈しようとする
試みは、論理的に破綻していると思われる。無論このことは、隠れ変数の可能性を否定するもので
はない。例えば文化差など、心理的効果に文脈依存性が存在することは、これまでに広く確認
れてきたことである。ただ、その存在を科学的に検証したいと思うのであれば、単に追試結果に対
して憶測を唱えたり、あるいは事後的に不確実な分析を行ったりするだけでは不十分であり、当該
の変数を組み込んだ、統計学的に厳密な研究を新たに行うべきであろう。
4.4. 再現の成功と失敗の基準
追試に関する最後の論点は、いかにして再現の「成功」と「失敗」を定義するかである。
これまで I&H でもこの追加的ノートでも、元研究に忠実な方法を用いた追試が行われ、ま
た元研究と比較して十分に大きな検定力を持つと思われるサンプルサイズを用いたにも関
わらず、その結果が元研究で報告されている統計的有意に達しなかった場合、それを再現
の「失敗」と呼んできた。だが、この基準は統計的に妥当なものなのだろうか?実はこの
判断はそれほど簡単なものではない。
まず単純に統計的に有意であることと、有意でないことの差は、必ずしも有意であると
は限らない。すなわち、片方の研究で有意差が出て、他方で出なかったとしても、両研究
の結果の間に有意な差が存在しているかどうかは、別の新たな検定で確かめる必要がある
(Gelman & Stern, 2006)。特に、追試研究の検定力が低い場合には、単なる偶然で、効果の
検出に失敗しただけかもしれない。この可能性を防ぐためには、追試研究では検定力を
「適切」な値まで大きくする必要があるが、「適切」さの基準を判断することもまた、極
めて難しい。なぜならば、心理学の研究報告の多くは低い検定力しか持ち合わせていない
ことが知られており(e.g. Button et al., 2013)、だとすればそれらでは実際よりも水増しされ
た効果量を報告している場合が多いと考えられるため(Gelman & Carlin, 2014; Maxwell, 2004)
追試の際に適切な検定力を元研究の効果量から推定することが難しいためである(Maxwell,
Lau, Howard, & Scott, 2015)。また逆に、追試研究の検定力が高すぎる場合にも、問題が生
じる。仮にそうした追試で、非常に小さな効果が有意となったとしても、元研究で報告さ
れていた効果量と比べてみると、きわめてわずかなものでしかなければ、その追試が本当
に元研究と同じ効果を再確認したと言うべきかどうか、疑問が残るためである(Simonsohn,
2015b)
これらの問題を避けるため、効果量の信頼区間を推定して、元研究と追試との間で比較
するという手段も考えられる。追試で推定された効果量が、元研究の効果量の信頼区間の
間に入ったり、あるいはふたつ研究の信頼区間が大きくオーバーラップしていたりする場
合、追試に成功したと言って良いと考える方法である。だが、この方法でも検定力に関連
する諸問題を排除はできない。たとえば、元研究の検定力が弱い場合には、信頼区間の推
15
定が極めて大きくなり、その範囲内にゼロに近い値を含む可能性が出てくる。であれば、
追試で極めて小さな、ほぼゼロの効果量しか確認されず、一見追試に失敗したように思え
る場合であっても、元研究と追試研究の信頼区間がオーバーラップしているために、追試
に成功したという判断も可能になってしまう(Asendorpf et al., 2013; Simonsohn, 2015b;
Valentine et al., 2011)。これを防ぐために、追試の成否よりも、当該効果が存在するか否か
の判断を行うことを主眼として、理論上無意味と思えるほど小さな効果量を設定し、それ
よりも追試の信頼区間が小さく抑えられた場合にのみ、当該の効果が存在しないという結
論を出す、という方略も提案されている。だが、これを採用すると、必要とされるサンプ
ルサイズが極めて大きくなり
9
、一度の追試で結論を出すことが極めて困難になってしま
(Maxwell et al., 2015; Simonsohn, 2015b)
また逆に、この信頼区間に基づく判断基準を用いると、本来は追試の成功と思える事例
でも、失敗と判断されてしまう場合も出てくる。たとえば、実際に当該効果が存在してお
り、元研究がその現象を適切に捉えていた場合を考えてみよう。たとえこうしたケースで
も、元研究の検定力が弱く、そのため効果量の推定が不正確(多くの場合水増し)となっ
てしまった上に、逆に追試の検定力が非常に大きかったため、信頼区間が非常に小さく推
定された場合、元研究で推定された効果量が、追試での信頼区間の外に位置してしまい、
追試の失敗と判断されることも考えられる(Simonsohn, 2016)
こうした諸問題に対して現在提案されている解決策のひとつが、効果そのものが存在す
るか否かではなく、元研究がその効果を検出できるだけの検定力を持っていたかどうかを、
追試を通じて判断する、という手法である (Simonsohn, 2015b)
10
。具体的には、前提として、
元研究は当該の効果を有意なものとして検出して報告しているとする。その上でまず、元
研究にとって十分小さいと思われる効果量の大きさを、その研究デザインにおいて、33%
の検定力を持つことができる効果量として算出する。その効果量であれば、当該の研究デ
ザインでは 3回に 1回しか検出できないほど小さい、という意味である(33%という特定
の数値はある程度恣意的に決められている)。そしてその小さな効果量を帰無仮説として、
追試で得られた効果量が、帰無仮説の効果量よりもさらに有意に小さいかどうかを検定す
る。ここでもし有意な結果が得られた場合、追試で得られた効果量を元研究のデザインで
検出しようとすれば、3回に 1回以下の確率でしか発見できないという結論になるため、
元研究での有意な効果はについての報告は、おそらく信頼に値するものではないだろう、
と解釈される。この方法を使えば、無闇に大きな資源を使うことなく、上記のような元研
究、追試研究双方の検定力にまつわる様々な問題を回避することができると考えられる
11
さらにこの手法だけではなく、同様の目的を達成するため Bayesian の枠組みを用いた方法
9
たとえば本来は差のない 2グループ間での比較の場合、効果量の推定を-.1< Cohen's d < .1 の範囲
に収めようとした場合、80%の検定力で、1条件あたり 1,714 人が必要とされる(Maxwell et al.,
2015)
10
提案者の Uri Simonsohn は、この方法が、大きな望遠鏡(大きな検定力の追試)で観測できなか
った天体(効果)は、それより小さな望遠鏡(小さな検定力の元研究)で観測することが難しい
という話と同様のロジックによって成立しているという説明を行っており、またその論文のタイ
ルが、small telescope あるところから、一般にこれを、the small telescope method と呼ぶことが
る。
11
ただし、この方法はまだ提案されたばかりのものであるため、今後複数の研究者による精緻な検
討が必須であると思われる。
16
も開発されている(Verhagen & Wagenmakers, 2014)。両者は思想的枠組みは大きくことなる
ものの、推定される結果については大よそ一致すると考えられている(Simonsohn, 2015a)
以上まとめると、現時点では、追試の成否を判断する基準についての、幅広いコンセン
サスは得られていないと言える。しかしながら、ここで強調しておかなくてはならないこ
とは、確かに個々の追試研究に関して、その成否を明確にする手法はいまだ未発達である
かもしれないが、RP:P が報告した、総体としての心理学研究、極めて低い再現可能性しか
持ち合わせていないという事実は、そうした手法を超えて揺ぎ無い明確な事実であるとい
う点である (Schwarzkopf, 2016)。その現状を改革するために、追試研究が重要であること
も、また言を俟たない。今後は上記のような手法の提案を土台として、より厳密な方法論
が開発され、心理学における再現可能性の実態が、さらに明確化されていくものと思われ
る。
5. 事前審査付き事前登録制度に関する論争
ここでは、事前審査付き事前登録制度に関して生じた主な議論について見てみよう。こ
の制度の導入に批判的立場から出されている主な批判は、事前審査付き事前登録制度の導
入は、研究の探索的性格を奪ってしまうのではないか、というものであ(Mathôt, 2013;
Scott, 2013)。事前登録をしてしまえば、当初予測していた仮説に合致した結果を得られた
場合のみ、そのデータは論文化されることになるのではないか。予測していなかったが重
要だと思われる結果が得られた場合や、またデータを探索的に分析して、予測以外の知見
を見つけ出すことが難しくなるのではないか。だがこうした様々な探索的なプロセスは、
新しい仮説を形成する上で極めて重要であり、それが失われることは科学の発展にとって
非常に大きなマイナス要因となるのではないか
しかしこれらは端的に杞憂である (Neuroskeptic, 2013a, 2013b, 2014b)。事前審査付き事前
登録制度は、確かに事前に予測され、登録された分析結果の報告を主眼としたものだが、
探索的分析を妨げるものでは決してない。まず、事前審査を通過した研究案は、結果の如
何に関わらず出版されるのだから、事前の仮説に合致しなかった結果もまた、受理される。
次に、分析に関しては、予測され、登録されたものと、そうでないものを明確に分ければ、
いかなる探索的な性質のものも、当然論文中に記載して良い。事前登録制度が防ごうとし
ているものは、ただ、事前に予測された分析と、探索的分析結果を区別せず、混在させる
こと、またそれによって p hacking HARKing などが入り込む余地を研究に作ってしまうこ
とである。それゆえ、両者の区別が明確であれば、探索的分析を妨げる理由は何もない。
6. メタアナリシスについて
事前審査付き事前登録制度と追試を中心する改革努力によって、今後の心理学研究の信
頼性が徐々に高まっていくことはおそらく間違いないと思われる。だが、これまで行われ
17
てきた諸研究に対する評価は、どのようにして為すべきなのだろうか。直接的に追試を行
う以外に、先行研究の信頼度を測定する方法はあるのだろうか。
メタアナリシスは、まさにそうした目的のために開発された分析手法である。個々の先
行研究の信頼度を推定するのは難しいが、その研究領域全体を見渡した際に、当該の効果
に対する証拠がどの程度これまでに提出されているのかを、メタアナリシスは教えてくれ
る。特に再現可能性問題が浮上してきて以降、メタアナリシスの重要性は再認識されてお
り、p curve (Simonsohn, Nelson, & Simmons, 2013, 2014; Simonsohn, 2015b)などの新たな手法
の開発も進んでいる。メタアナリシスの技術的詳細については本稿で取り上げず、専門書
に任せたいと思うが、昨今の再現可能性論争から浮かび上がってきたメタアナリシスに関
する問題を指摘しておきたい。すなわち、メタアナリシスは出版バイアスの影響から自由
になれるわけではない、という点である。
メタアナリシスを行うにあたっては、博士論文やお蔵入りとなった研究など、出版され
ていない研究データもできるだけ集め、また様々な補正テクニックも使って、出版バイア
スの修正を試みるのが通常である。だが前者に関しては、未出版のデータをすべて揃える
ことは(少なくとも現時点では)不可能であると思われ、また後者の補正テクニックに関
しては、どれが最適な方法であるのか、研究者間のコンセンサスが得られていない。用い
るテクニックに依存して、当該効果が有意とみなされたり、みなされなかったりしてしま
(Verhagen & Wagenmakers, 2014)(Carter, Kofler, Forster, & Mccullough,
2015; Carter & McCullough, 2014); Hagger et al., 2010)。そのため、最終的に当該効果が存在す
るのか否かの判断は、メタアナリシスに依存せず、やはり検定力を高めた条件での直接的
追試をもって行うべきだ、という意見が出されている(Elk, Matzke, Gronau, Guang, &
Wagenmakers, 2015)
7. 査読仮定で聞かれた質問と、それに対する回答
最後に、I&H の査読過程で聞かれた質問と、それに対する私たちの回答を、以下にまと
めておきます。
7.1. 「心理学理論の弱さ」とは?
Q:
「心理学理論の弱さ」が指し示す内容について、整理がなされていないのでは?
A: 私たちが考える心理学理論の「弱さ」という概念についてですが、私たちの考えに近いものとし
ては、Hans Eysenck が提案する強い理論(strong theory)と弱い理論(weak theory)の区別があり
ます(Eysenck, 1985)。彼によれば、その区別は次のようになります。
Strong theories are elaborated on the basis of a large, well-founded, and experimentally
based set of assumptions, K, so that the results of new experiments are interpreted
almost exclusively in terms of the light they throw on H1, H2 ... Hn. Weak theories lack
such a basis, and results of new experiments may be interpreted with almost equal ease
as disproving H as disproving K”. (Eysenck, 1985, p.27)
18
あるいは次のようにも述べています。
In strong theories the different postulates are interdependent; it is not possible to
change one without changing the rest, indeed without throwing overboard the whole
theory. In weak theories, such interdependence is much less marked, and changes in
one part of the theory are quite permissible without the necessity of altering other parts
as well.” (Eysenck, 1985, p.28)
強い理論の例としては、Newton の重力理論や、Einstein の相対性理論などが挙げられており、
これに対して心理学理論は一般的に弱い理論に分類されると Eysenck はしています。また、心
学における弱い理論の例ですが、私たちは、あらゆる心理学理論が弱い理論であると考えます。
残念ながら、上記の物理学の諸理論に匹敵するほどの「強い」心理学理論の例を、寡聞にして知
りません。一部の知覚や認知心理学などでは、確かに社会心理学等と比較すれば、比較的「強い」
と考えてよい理論もあると言って良いかと思います。ですが、神経回路における複雑で大量の
報伝達活動を高い精度をもって測定する技術などが今後発達しない限り、物理学あるいは一部の
生物学(いわゆる central dogma など)で提唱されているような「強い」理論の形成は、極めて難し
いのではないかと思われます。
認知心理学領域の例で言えば、ワーキングメモリ容量がおおよそ 4つほどしかないという知見は
非常に頑健ではありますが、これは記述でしかありません。なぜそれが 4つに留められているのか
についての理論は、提出はされているものの、その検証は進んでおりません(Luck & Vogel, 2013)
例えばひとつの仮説として、神経細胞の発火周波数についての生理学的制約が、神経回路上で
保持可能な表象を 4つ程度に抑えているのではないか、という議論があります。確かにマカクを用
いた神経発火の記録技術は進展しているものの(Lundqvist et al., 2016)、上記の仮説を直接的に、
多方面から検証した研究を、著者(池田)は知りません。そして、こうした直接的検証が難しい理由
のひとつが、神経回路の挙動についての頑健な検証結果と、その蓄積が不足しているためである
のは間違いありません。これはまさしく、ワーキングメモリ研究において、Eysenck が指摘している
「強い」理論の要素が欠けていることを示していると思われます。また、ワーキングメモリは他の認
知機能を下支えするものであると考えられていますが(Baddeley, 2012)、ワーキングメモリ自体の
理論的理解が進んでいない以上、その上に成立する諸機能についての理論もまた、「強い」も
になるとは考えにくいと思われます。なお、Gigerenzer (2010) は社会認知や意思決定などにおけ
る「理論」と目されるもの(彼自身はそれを理論と認めていませんが)の例を挙げていますが、それ
については原論文をお読みください。また、Eysenck (1985) もその中で、心理学理論の例を挙げ
ており、これらをまとめて「弱い」と考えていますので、そちらについても原論文をお読みいただけ
ればと思います。
以上から、私たちは、心理学理論の弱さは明白であり、また、特定の領域や手法に関しての
言えることではなく、心理学理論一般に関する事実だと考えます。
7.2. Bem 論文は「非科学的」なの?
Q: Bem
による報告は、従来の手続きを満たしていたので刊行されたのだから、従来の視点では
「非科学」と言い切れない部分があるのでは?
19
A: 私たちは、ここで質問者が主張されている、「従来の手続きを満たしていたのだから、非科学
的と言い切れない部分があった」という論理には、同意しかねます。なぜならば、本稿はまさにそ
の「従来の手続き」が多分に非科学的である、という主張を行うものであるからです。そのため、そ
のように非科学的な従来の手続きをいくら満たしていたとしても、そのことは、Bem の報告が科学
的か否かを判断する材料にはなり得ないと考えられ、またそのことは、Bem 報告が投稿された当
時であっても、現在と同様に客観的な事実であると考えられるためです。
7.3. 問題があるのは心理学全体ではなく、その一部では
Q:
「心理学」全体を括って議論するのは大胆すぎるのでは?「現在の心理学には、その方法論的
基礎に大きな問題を抱えていると考えられる領域が少なからずあると考えられる。そしてこの問題
は、現在「やり玉にあがって」いる社会心理学や認知心理学だけに限定的ではない可能性があ
る。」くらいが妥当では?
A: まず確認していただきたいのは、私たちの主張は、「現在の心理学は、その方法論的基礎に大
きな問題を抱えていると考えられている」という文で表現されており、「大きな問題を抱えている」と
断定しているわけではなく、一般的にそのように認知されている、という主張でしかない、という点
です。そして私たちは、この主張は妥当なものであると考えます。その理由のひとつは、知覚心理
(e.g. Attention, Perception & Psychophysics)、認知心理学 (e.g. Cognition and Emotion)、健康
心理学(e.g. Stress & Health)、社会心理学(e.g. Comprehensive Results in Social Psychology)、神
経心理(e.g. Cortex)といった多くの心理学の下部領域における諸学術誌、並びに Journal of
Experimental Psychology: General Perspectives on Psychological Science といった、比較的広
範囲の心理学研究を取り扱う一般誌でも、事前審査付き事前登録制度を採用するものが増加し
ているためです。こうした一連の動きは、これら多くの下部領域において、並びに心理学一般でも、
従来の「方法論的基礎」が「大きな問題を抱えていると考えられている」ためでなければ、なぜ生じ
たのか、説明がつきません。
7.4. 「研究者の自由度」という表現はよく使われているの?
Q;
「研究者の自由度
(Researcher degrees of freedom)
」という表現は、その後普及した言い回しで
はないので使用しない方が理解しやすいのでは? むしろ「
p
hacking
」が適切なのでは?
A; Google "researcher degrees of freedom"”というキーワードを用いて検索したところ、2,820
件の回答があり、さらに Google Scholar で検索したところ、261 件の回答があり、さらにそのうち
2016 年度に公表されたものは 31 件ありました。さら”experimenter degrees of freedom”では、
Google 329 件、Google Scholar 30 件の回答があり、2016 年に公表されたものも 1件あ
ました。このように、特に Google Scholar の回答を見ると、少なくともこれまでに計 291 件の論文な
いしは研究報告で、この単語が使用されており、また 2016 度でも 32 件の報告で用いられてい
るということになります。以上から、「その後普及した言い回しではない」という指摘は、妥当ではな
く、多くの読者が知っておくべき用語だと判断いたしました。
20
7.5. 事前審査付き事前登録制度によって心理学理論も改善できるの?
Q;
事前審査付き事前登録制度を用いた研究の遂行に、研究者が強い誘因を感じることになっ
場合、同様の誘因によって、心理学理論の弱さも改善されるようになるか?
A; 事前審査付き事前登録制度を用いた研究が増加すれば、それを用いて報告される個々の
見は高い再現可能性を保つことが可能になります。しかしながら、高い再現可能性は、強い理論
を構築するための、必要条件ではありますが、十分条件ではありません。強い理論を得るための
第一歩とては、おそら構成概念の外妥当性をめた (Borsboom, Mellenbergh, & van
Heerden, 2004)、構成概念を測定する測度の正確性を高めたり (Gelman, 2016a)、そもそも内観
的直観によって得られた構成概念の妥当性を検討したりする(Berridge & Robinson, 2003)、とい
った努力が求められると考えます。この点については、再現可能性問題というトピックの範疇を
えたものであると思われますが、今後さらなる議論が必要な点だと思われます。
7.6. 検定力は実測できないの?
Q;
検定力をなぜ推定する必要があるのか?実測ではないのか?
A; ある研究の検定力は、当該効果の効果量が既知でなければ算出できません。さらに、個々の
研究で測定された効果量には誤差があると考えられるために、その研究から事後的に算出された
検定力は、それ自体だけでは信頼性がありません。そのためメタ分析などが重要になります。もち
ろんメタ分析も出版バイアスを完全に除去はできないため、比較的効果量を高めに見積もって
まう可能性があります。しかしともかくも、現在報告されている検定力は、こうしたメタ分析から「推定」
されたものです(Button et al., 2013)
7.7. HARKing って本当に悪いことなの?
Q;
(第一種の過誤があるとしても)得られたデータから新たに仮説を構築し、将来の研究に訴える、
ということはあってもよいのではないか? 理論をもとに仮説検証した実験の失敗から新たな理論
が生まれるということはそんなに不思議ではないのでは?
A: まず、コメントの前半についてですが、残念ながら私たちはこの点では同意しかねます。第一種
の過誤から得られた知見というのは、端的に過誤であって、真実ではありません。真実ではない知
見に基づいて新たな仮説を提唱することは、何の根拠もない仮説を提唱することに他ならず、科
学の蓄積的発展に寄与しません。過誤から得られた報告に価値はありません。
次にント に対が、 HARKing 念を 導入Kerr (1998) は、
Popper の主張する falsification も含む仮説検証型の科学モデルを重視しており、HARKing が第
一種の過誤を増加させるという議論も確かに行ってはいるものの、どちらかと言えば、HARKing
間違った科学的プロセスであり、事前の a priori な予測に基づいた説明と比べると、間違った説
明を増加させてしまう、という主張に力点を置いています。しかしながら、Eysenck の指摘する心理
学理論の弱さを考えると、仮説検証型の科学プロセスを多くの心理学研究に当てはめることに
無理があると思われ、むしろ Rozin (2009)の主張するような記述的報告の方が、心理学研究の主
導的プロセスであると思われます。記述的報告の場合、a priori な仮説を立てることは難しいので、
21
必然的に理論的説明は事後的になります。結局説明を事後的にしか与えられないのであれば
readability を考えて(すなわち研究者の認知能力に内在する審美的判断基準のバイアスを考慮
して)、HARKing を行っても良いのではないか、という議論は十分に考えられると思います。おそら
く上記のご質問も、このような点を考慮されてのものではないかと推察します。
しかしながら、記述型研究であっても、統計的妥当性を無視することは許されません。ところ
I&H に示した通り、HARKing を用いれば、データを見た後に、特定の仮説とそれに適合した統計
分析を選択することで、多重比較の修正を無視することが可能になり、第一種の過誤を増大さ
る可能性があります。そして、Gelman & Loken, (2014) が指摘するように、事後的に分析方法を選
択する場合、こうした多重比較の無視は頻繁に生じると考えられます。おそらくこれが HARKing
最大の問題点だと思われます。
では、統計的妥当性を厳密に担保した上であればreadability を高めるメリットを重視して、
HARKing を行った方が良いとも言えるでしょうか。私たちはそう考えません。なぜならば、I&H に示
した通り、心理学理論の弱さを考えると、HARKing を使った「多重比較の隠蔽」を、論文報告のみ
から見つけ出すことは非常に難しいと思われるためです。むしろ記述的報告のスタイルを明確に
示して、序論ではなく、考察で新しい仮説を提案するという形式を保ち、その上で可能な限
readability を高めるという姿勢が、望ましいと思われます。
7.8. 事前審査付き事前登録制度って、本当にうまくいくの?
Q;
やはり、事前登録制度は
QRPs
に対して脆弱なのではないか、とまだ思っています。ャップを
つけてもその中のサンプルをとっかえひっかえすることは可能でしょう
A: 残念ながら、私たちは、以下のような考察から、このご意見に同意しかねます。まず前提として、
事前審査・登録制度のもとでは、分析の方法なども事前に登録しますので、ご指摘の「サンプルを
とっかえひっかえする」という行為は、すなわち端的にデータを意図的に選択したり、捏造したりす
ることを指していると考えられます。まず、こうしたデータの意図的選択や捏造は、questionable
いうよりも、端的な fraud であるため、これを QRPs に含み入れるべきかどうか、議論があることを指
摘しておきます(Schimmack, 2015)
次に、現在の研究環境で、多くの研究者が目標とするのは何かと考えてみますと、(a) 論文を
版すること、(b) さらにその論文をできるだけ高名なジャーナルに掲載すること、そして、(c) できる
だけインパクトのある研究報告を行うこと、などだと思われます。事前審査を通過すれば、上記 (a)
(b) 確実に達成されます。問題は(c) で、確かにこれに関しては、ご指摘のように、事前審査
制度を用いた場合であっても、研究者が、上記のように意図的にデータを選択したり捏造したりし
て、(c) の目標を達成しようとする可能性が残されてしまいます。この場合は、確かに事前審査・登
録制度であってもそれを未然に防ぐことはできず、データの開示を要求し、第三者がそのデータを
事後 て、偏り の指必要 うと す。
Michael Lacour よるデータの捏造が発覚した経緯などは、そうした例のひとつだと思われます
(http://www.newyorker.com/science/maria-konnikova/how-a-gay-marriage-study-went-
wrong)
しかしながら、私たちは、多くの心理学者が Lacour のように自覚的な fraud を行っているとは考
えておりません。そうであるからこそ、本稿ないしは現在心理学で議論されている再現可能性問題
は、こうした端的な fraud ではなく、むしろ心理学者の多くが、科学的であると信じている研究手法
22
の中に無自覚に潜んでいる問題点に焦点を当てています。その意味で私たちは、上記のような
(c) に関する問題は、重要ではあるが、再現可能性問題の核心ではないと考えます。またそれゆ
えに、上記 (a) (b) を確実に達成できる事前審査・登録制度は、十分に QRPs に対して効果的
であり、「脆弱」ではない、と考えます。
7.9. FDR に関する議論って現実的なの?
Q; FDR
に関する議論で前提とされているのは、考えうる仮説の数(可能な組み合わせの数?)を
全体とみなしているのでしょうか。それなら、真の仮説が取り出される確率は非常に低いものでしょ
うが、実際の研究活動で仮説はそのように生成されているわけではなく、実際の仮説の真偽や検
証可能性と、ここで論じられていることとのあいだには乖離があるように思います。
A; 確かにご指摘の通り、FDR の考察の前提となっている「考えうるすべての仮説」という想定は、定
義が困難な部分があり、実測が非常に難しいものだと思われ、その点は本文中に明記しておりま
す。しかしながら、実測が難しいということは、実際の事前確率はよく分からないということを意味し
ていますから、FDR 低いはずだ、という主張を支持するものでもありません。この箇所で私たち
が強調したい点は、FDR が、期待されている 5%でのエラーコントロールよりも大きくなっている「可
能性」があり、低い検定力と併せると、その可能性は決して小さくない、ということです。この点、本
文中で明確に記してありますことを、ご確認いただきたく思います。そしてまた、FDR が仮に 5%
りも遥かに大きかった場合、そのことが心理学の信頼性を大きく損なうだろうことは間違いないため
に、この可能性を強調する意義は、極めて大きいと考えます。
7.10. 「審美的判断基準」って何?
Q;
「審美的判断基準」には、理論ベースかどうか、といったことも含まれると思うのですが?そして、
理論ベースかどうかは、その実験計画が意味のあるものかどうかの判断に必要な情報だと思う
ですが・・・ 石を指さして、これはカラスではない、と言われれば、それは知見としては頑健かもし
れませんが、意味のある情報とも思えませんし。やはり「審美的判断」の意味するところ(どこまで
が?)が曖昧ですね…
A; 残念ながら、このコメントの意図が私たちにとっては曖昧にしか理解できませんでした。そこで、
以下のように論点を整理した上で、回答を述べさせていただきました。
まず、私たちは、審美的判断基準を述べる際に、Giner-Sorolla (2012) の整理に従い、「結果の
一貫性」、「仮説検証形式に則った物語性」、そして「新奇性」の三点のみを挙げております。そこ
で、質問者が挙げていらっしゃる二点、理論ベースかどうかの判断と、実験計画に意味があるかど
うかの判断が、このうちどの点に最も強く関係するかを考えてみました。ここで、「石を指して、これ
はカラスではない」という知見に情報価が無い、という例を挙げてらっしゃることから、おそらく質問
者がおっしゃりたいのは、審美的判断基準をまったく用いなければ、科学(心理学)研究は、既に
自明である理論や知見の再現可能性を確認するだけの行為になってしまうのではないか、という
疑問ではないかと思われます。だとすれば、これは特に「新奇性」に関する問題だと思われます。
すなわち、質問者がおっしゃりたいことは、「新奇性」を審美的判断基準のひとつとして排除しよう
23
とすれば、科学(心理学)はそもそも意義のない行為になってしまうのではないか、ということで
ないかと推察しました。
新奇な発見が科学を前進させるということは自明であり、私たちもこれにはまったく異論がありま
せん。私たちが、審美的な判断基準が抱える問題点として指摘しているのは、例えば新奇性を過
度に重視するために、知見の頑健さが損なわれてしまうという可能性です。具体的には、新奇な
知見の報告が過度に重視され、直接的追試研究が軽視されるといった傾向です。この点は自
だと考えておりましたが、質問者からのご指摘を受け、強調する必要を感じました。
その上で再度議論させていただきたく思うのですが、「石を指して、これはカラスではない」という、
確かに情報価はほとんどないが、頑健である言明と、「石を指して、これはカラスである」という、新
奇な情報価が一見あるように思えるが、真実ではない言明の、いずれが科学にとって重要でしょう
か。私たちは、科学の役割とは前者を支持して、後者を退けられることだと考えます。例えば、「未
来予知能力は実在しない」という言明が、いかに科学者間で自明であっても、「未来予知能力は
実在する」という言明が新奇性を伴って為される度に、それを排除し続けることが、科学の役割
と、私たちは考えます。言い換えれば、知見の頑健さと新奇性を比較した場合に、科学において
より重視されるべきなのは、知見の頑健さであると、私たちは考えており、また昨今の再現可能性
問題は、まさにこの主張の実現を追求するものだと言えます。
以上から、私たちは、(1) 質問者が指摘された、理論ベースかどうかの判断と、実験計画に意味
があるかどうかの判断は、私たちが提案した新奇性という審美的判断基準に属するものと考えられ、
それゆえ審美的判断基準の定義は曖昧だとは思えず、 (2) また、新奇性を過度に重視して知見
の頑健性を軽んじる態度は、やはり科学として問題があり、それゆえ直接的追試の重要性は揺る
がされるものではない、と主張いたします。
7.11. 事前審査付き事前登録制度って、本当に、本当にうまくいくの?
Q;
事前審査付き事前登録制度は、一つの方策、というレベルのように思いますが(それにも簡単
に穴を見つけることはできますし)
A; たちは、事前審査付き事前登録制度を用いた直接的追試以外に、心理学の再現可能性を
有効に担保できる方策を見つけることができませんし、この問題に関わっている多くの心理学者、
科 学 者 が 、 そ の よ う に 考 え て い る と 思 わ れ ま す (Chambers et al., 2013; Chambers, 2014;
Neuroskeptic, 2008, 2011, 2012a, 2013a; Nosek & Lakens, 2014; Wagenmakers et al., 2012; Wolfe,
2013)。すなわち、私たちを含め多くの研究者は、現在のところこの方策に、原理的な「穴」があると
は考えていないのですが、確かにそうした可能性はあるかもしれません。質問者がご指摘のように、
今後も既存の理論や手法に安住することなく、常に懐疑的な態度で改善を続けていくことが、重
要だと思われます。
8. 最後に: 再現可能性革命から、新たな心理学理論構築の時代へ
最後に、著者の見解を少し足しておきます。I&H 並びにこの追加的ノートで明らかにし
たように、現在の心理学研究の標準的プロセスには、研究報告の信頼性を損う問題が構造
的に存在しています。それはまるで癌のように、多くの研究者が気付かぬうちに、心理学
24
から科学としての健全性を奪い去り、空洞化させてしまいました。現に Ioannides が予言
した null field のような恐ろしい状況も、いくつかの研究領域では現実味を帯びてきていま
す。読者の中にも、こうした悪夢が自らの専門領域で起こりうるのではないかという不安
を感じている方も多いでしょう。
我々心理学者は、この破局的状況に、ただ手をこまねいて見ているだけではいけません。
それはまさに心理学の死を待つ態度であり、心理学者としての自殺行為であると言えるで
しょう。既に事前審査付き事前登録制度や追試など、確実な効果が期待できる治療方法が
確立されつつある以上、それを取り入れ、積極的に心理学研究の根本構造を改革していく
以外に、心理学、そして我々心理学者自身を救う手立てはないと思われます。そして既に
世界各地の研究者が、こうした革命運動へと積極的に参加し始めており、その波は日々大
きくなるばかりです。中には問題の本質から目をそらし、危機の存在自体を否定しようと
する研究者もまだ多少残っているようですが、その数は年々減ってきているように思われ
ます。本稿を機に、この改革運動へ参加する心理学者がひとりでも増えることを願うばか
りです。
さて、それでは今後改革が進んでいくにつれ、どのような新しい心理学が見えてくるの
でしょうか。ひとつ予想できることは、これまで膨大に膨れ上がってしまった数々の心理
学「理論」が、大量に淘汰されていくという予想図です。RP:P で明らかにされた低い再現
可能性が、そこで取り上げられなかった他の領域やトピックについても当てはまるのであ
れば、現在心理学界に流布している様々な「理論」のうち、どの程度がこの改革を生き延
びられるのか、予測は難しように思われます。おそらく少なからぬ数の知見が捨てられ、
理論の変更あるいは廃棄が求められることになるでしょう。心理学の教科書も、大幅な書
き換え、あるいは縮小を余儀なくされるかもしれません。
ここで問題となるのは、ではどうやったら、新しい、真実の心理学理論を見つけ出すこ
とができるのか、という点です。残念ながら、事前登録や追試は、いわば科学の基礎を守
る番人のようなもので、それら単体で、科学の新しい地平を切り開く力を持つわけではな
いように思われます。言ってみれば、現在の心理学は内省的に、自分自身の姿を確認する
作業を行っている段階にあり、決して未知の外宇宙へ向かって航海に出るフェイズにある
わけではありません。確かに、厳密な知見の確保は、科学における最重要の営みのひとつ
ではありますが、それは科学のすべてではないことも事実です。現行の改革が成功し、科
学性の担保が可能となった時こそ、心理学は、科学としてのもうひとつの側面、すなわち、
新たな事実の発見と、それを反映した理論の構築へと動いていかねばなりません。その時
こそ、心理学が真の科学として蘇り、人類のいまだ知らぬ知識の地平を開拓する役割を担
うことになるでしょう。言わば現在の心理学は、雌伏して時の至るを待つ時期にあるわけ
です。この困難を経て、遠くない将来、心理学はかつて見ない大きな跳躍の時期を迎える
に違いありません。
25
参考文献
Anderson, C. J., Barnett-cowan, M., Bosco, F. A., Chandler, J., Chartier, C. R., Cheung, F., … Estel, V.
(2016). Response to Comment on “ Estimating the reproducibility of psychological science ,”
351(6277), 20152016.
Asendorpf, J. B., Conner, M., De Fruyt, F., De Houwer, J., Denissen, J. J. A., Fiedler, K., … Wicherts, J.
M. (2013). Recommendations for Increasing Replicability in Psychology. European Journal of
Personality, 27(2), 108119. doi:10.1002/per.1919
Baddeley, A. (2012). Working memory: theories, models, and controversies. Annual Review of
Psychology, 63, 129. doi:10.1146/annurev-psych-120710-100422
Bargh, J. A. (2012, May 11). Priming Effects Replicate Just Fine, Thanks: In response to a ScienceNews
article on priming effects in social psychology. Psychology Today [web log]. Retrieved from
https://www.psychologytoday.com/blog/the-natural-unconscious/201205/priming-effects-
replicate-just-fine-thanks
Bargh, J. A., & Chartrand, T. L. (2000). Studying the mind in the middle: a practical guide to priming
and automaticity research. In H. Reis & C. M. Judd (Eds.), Handbook of Research Methods in
Social Psychology. New York: Cambridge University Press.
Bargh, J. A., Chen, M., & Burrows, L. (1996). Automaticity of social behavior: direct effects of trait
construct and stereotype-activation on action. Journal of Personality and Social Psychology,
71(2), 230244. doi:10.1037/0022-3514.71.2.230
Bem, D. J. (1987). Writing the empirical journal article. In J. M. Darley, M. P. Zanna, & H. L. Roediger
III (Eds.), The Compleat Academic: A Practical Guide for the Beginning Social Scientist (2nd ed.,
pp. 171201). American Psychological Association (APA).
Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences
on cognition and affect. Journal of Personality and Social Psychology, 100, 407425.
doi:10.1063/1.3663724
Berntson, G. G., Bigger, J. T. J., Eckberg, D. L., Grossman, P., Kauffman, P. G., Malik, M., … Van Der
Molen, M. W. (1997). Heart rate variability: Origins, methods, and interpretive caveats.
Psychophysiology, 34(6), 623648. doi:10.1111/j.1469-8986.1997.tb02140.x
Berridge, K. C., & Robinson, T. E. (2003). Parsing reward. Trends in Neurosciences, 26(9), 507513.
doi:10.1016/S0166-2236(03)00233-9
Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological
Review, 111(4), 106171. doi:10.1037/0033-295X.111.4.1061
Boucsein, W., Fowles, D. C., Grimnes, S., Ben-Shakhar, G., Roth, W. T., Dawson, M. E., & Filion, D. L.
(2012). Publication recommendations for electrodermal measurements. Psychophysiology,
49(8), 101734. doi:10.1111/j.1469-8986.2012.01384.x
Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R.
(2013). Power failure: why small sample size undermines the reliability of neuroscience.
Nature Reviews. Neuroscience, 14(5), 36576. doi:10.1038/nrn3475
Campbell, K. E., & Jackson, T. T. (1979). The role and need for replication research in social
26
psychology. Replications in Social Psychology, 1(2), 314.
Carter, E. C., Kofler, L. M., Forster, D. E., & Mccullough, M. E. (2015). A Series of Meta-Analytic Tests
of the Depletion Effect : Self-Control Does Not Seem to Rely on a Limited Resource, 144(3).
Carter, E. C., & McCullough, M. E. (2014). Publication bias and the limited strength model of self-
control: has the evidence for ego depletion been overestimated? Frontiers in Psychology,
5(July), 111. doi:10.3389/fpsyg.2014.00823
Cesario, J. (2014). Priming, replication, and the hardest science. Perspectives on Psychological
Science, 9(1), 4048. doi:10.1177/1745691613513470
Chambers, C. D. (2014). Psychology’s “registration revolution.” The Gurdian. Retrieved from
http://www.theguardian.com/science/head-quarters/2014/may/20/psychology-registration-
revolution
Chambers, C. D., Munafo, M., & more than eighty signatories. (2013). Trust in science would be
improved by study pre-registration. The Gurdian [open letter]. Retrieved from
https://www.theguardian.com/science/blog/2013/jun/05/trust-in-science-study-pre-
registration
Dijksterhuis, A. (2014). Welcome Back Theory! Perspectives on Psychological Science, 9(1), 7275.
doi:10.1177/1745691613513472
Dijksterhuis, A., & van Knippenberg, A. (1998). The relation between perception and behavior, or
how to win a game of Trivial Pursuit. Journal of Personality and Social Psychology, 74(4), 865
877. doi:10.1037/0022-3514.74.4.865
Donnellan, M. B. (2013). Go Big or Go Home A Recent Replication Attempt. The Trait-State
Continuum [web log]. Retrieved from https://traitstate.wordpress.com/2013/12/11/go-big-
or-go-home-a-recent-replication-attempt/
Doyen, S., Klein, O., Pichon, C.-L., & Cleeremans, A. (2012). Behavioral priming: it’s all in the mind,
but whose mind? PloS One, 7(1), e29081. doi:10.1371/journal.pone.0029081
Ebersole, C. R., Atherton, O. E., Belanger, A. L., Skulborstad, H. M., Allen, J. M., Banks, J. B., … Kane-,
A. (n.d.). Many Labs 3: Evaluating participant pool quality across the academic semester via
replication. Journal of Experimental Social Psychology.
Elk, M. Van, Matzke, D., Gronau, Q., Guang, M., & Wagenmakers, E. (2015). Meta-Analyses Are No
Substitute for Registered Replications : A Skeptical Perspective on Religious Priming,
6(September), 17. doi:10.3389/fpsyg.2015.01365
Eysenck, H. J. (1985). The Place of Theory in a World of Facts. In K. B. Madsen & L. Mos (Eds.), Annals
of Theoretical Psychology, Volume 3 (pp. 1772). New YOrk: Plenum Press. doi:10.1007/978-
1-4613-2487-4_2
Feldman Barrett, L. (2015, September 1). Psychology Is Not in Crisis. The New York Times. Retrieved
from http://www.nytimes.com/2015/09/01/opinion/psychology-is-not-in-crisis.html?_r=0
French, C. C. (2012, March 15). Precognition studies and the curse of the failed replications. The
Gurdian. Retrieved from https://www.theguardian.com/science/2012/mar/15/precognition-
studies-curse-failed-replications
27
Frith, C. D., & Frith, U. (2014). Not to be found in any Methods section. Social Minds: A Piece of the
Frithmind [web log]. Retrieved from http://frithmind.org/socialminds/2014/05/06/not-to-be-
found-in-any-methods-section/
Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012). Correcting the past: Failures to
replicate psi. Journal of Personality and Social Psychology, 103(6), 933948.
doi:10.1037/a0029709
Gelman, A. (2015). To understand the replication crisis, imagine a world in which everything was
published. Statistical Modellng, Causal Inference, and Social Science [web log]. Retrieved from
http://andrewgelman.com/2015/09/02/to-understand-the-replication-crisis-imagine-a-
world-in-which-everything-was-published/
Gelman, A. (2016a). More on replication crisis. Retrieved from
http://andrewgelman.com/2016/03/03/more-on-replication-crisis/
Gelman, A. (2016b). “Priming Effects Replicate Just Fine, Thanks.” Statistical Modellng, Causal
Inference, and Social Science [web log]. Retrieved from
http://andrewgelman.com/2016/02/12/priming-effects-replicate-just-fine-thanks/
Gelman, A., & Carlin, J. (2014). Beyond Power Calculations: Assessing Type S (Sign) and Type M
(Magnitude) Errors. Perspectives on Psychological Science, 9(6), 641651.
doi:10.1177/1745691614551642
Gelman, A., & Loken, E. (2014). The Statistical Crisis in Science. American Scientist.
doi:10.1511/2014.111.460
Gelman, A., & Stern, H. (2006). The Difference Between “Significant” and Not Significant” is not
Itself Statistically Significant. The American Statistician, 60(4), 328331.
doi:10.1198/000313006X152649
Gigerenzer, G. (2010). Personal Reflections on Theory and Psychology. Theory & Psychology, 20(6),
733743. doi:10.1177/0959354310378184
Gilbert, D. T. (2013, December 20). 10/13 cherry-picked studies replicate which means precisely
nothing. Replication hysteria makes us dumber by the day. Twitter. Retrieved from
https://twitter.com/dantgilbert/status/413904903770505216
Gilbert, D. T. (2014, May 24). Psychology’s replication police prove to be shameless little bullies:
http://www.psychol.cam.ac.uk/cece/blog (corrected link). Twitter. Retrieved from
https://twitter.com/dantgilbert/status/470199929626193921
Gilbert, D. T., King, G., Pettigrew, S., & Wilson, T. D. (2016). Comment on: Estimating the
reproducibility of psychological science. Science, 351(6277). doi:10.1126/science.aac4716
Giner-Sorolla, R. (2012). Science or Art? How Aesthetic Standards Grease the Way Through the
Publication Bottleneck but Undermine Science. Perspectives on Psychological Science, 7(6),
562571. doi:10.1177/1745691612457576
Gomes, C. M., & McCullough, M. E. (2015). The Effects of Implicit Religious Primes on Dictator Game
Allocations: A Preregistered Replication Experiment. Journal of Experimental Psychology:
General. doi:10.1037/xge0000027
Greenwald, A. G. (1975). Consequences of prejudice against the null hypothesis. Psychological
28
Bulletin. doi:10.1037/h0076157
John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research
practices with incentives for truth telling. Psychological Science, 23(5), 52432.
doi:10.1177/0956797611430953
Johnson, D. J., Cheung, F., & Donnellan, M. B. (2014). Does cleanliness influence moral judgments?:
A direct replication of Schnall, Benton, and Harvey (2008). Social Psychology, 45(3), 209215.
doi:10.1027/1864-9335/a000186
Judd, C. M., & Gawronski, B. (2011). Editorial comment. Journal of Personality and Social Psychology.
doi:10.1037/0022789
Kerr, N. L. (1998). HARKing: Hypothesizing After the Results are Known. Personality and Social
Psychology Review, 2(3), 196217. doi:10.1207/s15327957pspr0203_4
Klein, R. a., Ratliff, K. a., Vianello, M., Adams ., R. B., Bahník, Š., Bernstein, M. J., … Nosek, B. a. (2014).
Investigating Variation in Replicability. Social Psychology, 45(3), 142152. doi:10.1027/1864-
9335/a000178
Lakens, D. (2016). The statistical conclusions in Gilbert et al (2016) are completely invalid. The 20%
Statistician [web log]. Retrieved from http://daniellakens.blogspot.jp/2016/03/the-statistical-
conclusions-in-gilbert.html
Locke, E. A. (2015). Theory Building, Replication, and Behavioral Priming: Where Do We Need to Go
From Here? Perspectives on Psychological Science, 10(3), 408414.
doi:10.1177/1745691614567231
Luck, S. J., & Vogel, E. K. (2013). Visual working memory capacity: from psychophysics and
neurobiology to individual differences. Trends in Cognitive Sciences, 17(8), 391400.
doi:10.1016/j.tics.2013.06.006
Lundqvist, M., Rose, J., Herman, P., Brincat, S. L., Buschman, T. J., & Miller, E. K. (2016). Gamma and
Beta Bursts Underlie Working Memory. Neuron, 113. doi:10.1016/j.neuron.2016.02.028
Mahoney, M. J. (1977). Publication prejudices: An experimental study of confirmatory bias in the
peer review system. Cognitive Therapy and Research, 1(2), 161175. doi:10.1007/BF01173636
Mathôt, S. (2013). The pros and cons of pre-registration in fundamental research. Cogsci.nl [web log].
Retrieved from http://www.cogsci.nl/blog/miscellaneous/215-the-pros-and-cons-of-pre-
registration-in-fundamental-research
Maxwell, S. E. (2004). The persistence of underpowered studies in psychological research: causes,
consequences, and remedies. Psychological Methods, 9(2), 147163. doi:10.1037/1082-
989X.9.2.147
Maxwell, S. E., Lau, M. Y., Howard, G. S., & Scott, E. (2015). Is psychology suffering from a replication
crisis? What does “failure to replicate” really mean? American Psychologist, 70(6), 487498.
doi:10.1037/a0039400
Mitchell, J. P. (2014). On the emptiness of failed replications. Retrieved from
http://web.archive.org/web/20150429064229/http:/wjh.harvard.edu/~jmitchel/writing/faile
d_science.htm
29
Neuroskeptic. (2008). Registration: Not Just For Clinical Trials. Discover [web log]. Retrieved from
http://blogs.discovermagazine.com/neuroskeptic/2008/11/03/registration-not-just-for-
clinical-trials/
Neuroskeptic. (2011). How To Fix Science. Discover [web log]. Retrieved from
http://blogs.discovermagazine.com/neuroskeptic/2011/05/24/how-to-fix-science/
Neuroskeptic. (2012). Fixing Science Systems and Politics. Discover [web log]. Retrieved from
http://blogs.discovermagazine.com/neuroskeptic/2012/04/14/fixing-science-systems-and-
politics/
Neuroskeptic. (2013a). For Preregistration in Fundamental Research. Discover [web log]. Retrieved
from http://blogs.discovermagazine.com/neuroskeptic/2013/04/25/for-preregistration-in-
fundamental-research/
Neuroskeptic. (2013b). Preregistration …Problem? Discover [web log].
doi:http://blogs.discovermagazine.com/neuroskeptic/2013/04/29/preregistration-problem/
Neuroskeptic. (2014a). On “On the emptiness of failed replications.” Discover [web log]. Retrieved
from http://blogs.discovermagazine.com/neuroskeptic/2014/07/07/emptiness-failed-
replications/
Neuroskeptic. (2014b). Preregistration For Data Science? Discover [web log]. Retrieved from
http://blogs.discovermagazine.com/neuroskeptic/2014/02/22/preregistration-reanalysis/
Neuroskeptic. (2015). Psychology Should Aim For 100% Reproducibility. Discover [web log].
Retrieved from http://blogs.discovermagazine.com/neuroskeptic/2015/09/07/100-percent-
reproducibility/
Nosek, B. A., & Lakens, D. (2014). Registered Reports. Social Psychology, 45(3), 137141.
doi:10.1027/1864-9335/a000192
Oakes, L. M. (2010a). Infancy guidelines for publishing eye-tracking data. Infancy, 15(1), 15.
doi:10.1111/j.1532-7078.2010.00030.x
Oakes, L. M. (2010b). Using Habituation of Looking Time to Assess Mental Processes in Infancy.
Journal of Cognition and Development, 11(3), 255268. doi:10.1080/15248371003699977
Open Science Collaboration. (2012). An Open, Large-Scale, Collaborative Effort to Estimate the
Reproducibility of Psychological Science. Perspectives on Psychological Science, 7(6), 657660.
doi:10.1177/1745691612462588
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science,
349(6251), aac4716aac4716. doi:10.1126/science.aac4716
Pashler, H., Coburn, N., & Harris, C. R. (2012). Priming of Social Distance? Failure to Replicate Effects
on Social and Food Judgments. PLoS ONE, 7(8). doi:10.1371/journal.pone.0042510
Picton, T. W., Bentin, S., Berg, P., Donchin, E., Hillyard, S. a., Johnson, R., … Taylor, M. J. (2000).
Guidelines for using human event-related potentials to study cognition: Recording standards
and publication criteria. Psychophysiology, 37(2), 127152. doi:10.1111/1469-8986.3720127
Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: three unsuccessful attempts to
replicate Bem’s “retroactive facilitation of recall” effect. PloS One, 7(3), e33423.
30
doi:10.1371/journal.pone.0033423
Rosenthal, R. (1979a). Replications and their relative utilities. Replications in Social Psychology1, 1(1),
1523.
Rosenthal, R. (1979b). The file drawer problem and tolerance for null results. Psychological Bulletin,
86(3), 638641. doi:10.1037/0033-2909.86.3.638
Rozeboom, W. W. (1960). The fallacy of the null-hypothesis significance test. Psychological Bulletin,
57, 416428. doi:10.1037/h0042040
Rozin, P. (2009). What Kind of Empirical Research Should We Publish, Fund, and Reward?
Perspectives on Psychological Science, 4(4), 435439. doi:10.1111/j.1745-6924.2009.01151.x
Schimmack, U. (2015). Questionable Research Practices: Definition, Detect, and Recommendations
for Better Practices. Replicability Index [web log]. Retrieved from
https://replicationindex.wordpress.com/2015/01/24/questionable-research-practices-
definition-detect-and-recommendations-for-better-practices/
Schnall, S. (2014, May 22). An Experience with a Registered Replication Project. [web log]. Retrieved
from http://www.psychol.cam.ac.uk/cece/blog
Schnall, S., Benton, J., & Harvey, S. (2008). With a clean conscience: cleanliness reduces the severity
of moral judgments. Psychological Science, 19(12), 121922. doi:10.1111/j.1467-
9280.2008.02227.x
Schwarzkopf, D. S. (2016). Why Gilbert et al. are missing the point. NeuroNeurotic [web log].
Retrieved from http://neuroneurotic.net/2016/03/08/why-gilbert-et-al-are-missing-the-
point/
Scott, S. K. (2013). Pre-registration would put science in chains. Times Higher Education [web log].
Retrieved from https://www.timeshighereducation.co.uk/comment/opinion/pre-
registration-would-put-science-in-chains/2005954.article
Shanks, D. R., Newell, B. R., Lee, E. H., Balakrishnan, D., Ekelund, L., Cenac, Z., … Moore, C. (2013).
Priming Intelligent Behavior: An Elusive Phenomenon. PLoS ONE, 8(4).
doi:10.1371/journal.pone.0056515
Shanks, D. R., Vadillo, M. A., Riedel, B., Clymo, A., Govind, S., Hickin, N., … Puhlmann, L. M. C. (2015).
Romance, Risk, and Replication: Can Consumer Choices and Risk-Taking Be Primed by Mating
Motives? Journal of Experimental Psychology: General, 144(6), 142158.
doi:10.1037/xge0000116
Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011a). False-Positive Psychology: Undisclosed
Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.
Psychological Science, 22(11), 13591366. doi:10.1177/0956797611417632
Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011b). False-positive psychology: undisclosed
flexibility in data collection and analysis allows presenting anything as significant. Psychological
Science, 22(11), 135966. doi:10.1177/0956797611417632
Simons, D. J. (2014). The value of direct replication. Perspectives on Psychological Science, 9(1), 76
80. doi:10.1177/1745691613514755
31
Simonsohn, U. (2015a). Accepting the null: Where to draw the line? Data Colada {web log]. Retrieved
from http://datacolada.org/42
Simonsohn, U. (2015b). Small telescopes: Detectability and the evaluation of replication results.
Psychological Science. doi:10.1177/0956797614567341
Simonsohn, U. (2016). Evaluating replications: 40% full ≠ 60% empty. Data Colada [web log].
Retrieved from http://datacolada.org/47
Simonsohn, U., Nelson, L. D., & Simmons, J. P. (2013). P-Curve: A Key to the File-Drawer. Journal of
Experimental Psychology. General. doi:10.1037/a0033242
Simonsohn, U., Nelson, L. D., & Simmons, J. P. (2014). P- Curve and Effect Size : Correcting for
Publication Bias Using Only Significant Results, (January 2013), 128.
doi:10.1177/1745691614553988
Spellman, B. A. (2015). A Short (Personal) Future History of Revolution 2.0. Perspectives on
Psychological Science, 10(6), 886899. doi:10.1177/1745691615609918
Sterling, T. D. (1959). Publication Decisions and Their Possible Effects on Inferences Drawn from
Tests of Significance--Or Vice Versa. Journal of the American Statistical Association, 54(285),
pp. 3034. doi:10.2307/2282137
Stroebe, W., & Strack, F. (2014). The Alleged Crisis and the Illusion of Exact Replication. Perspectives
on Psychological Science, 9(1), 5971. doi:10.1177/1745691613514450
Tversky, A., & Kahneman, D. (1981). The framing of decisions and the psychology of choice. Science,
211(4481), 453458. doi:10.1126/science.7455683
Valentine, J. C., Biglan, A., Boruch, R. F., Castro, F. G., Collins, L. M., Flay, B. R., … Schinke, S. P. (2011).
Replication in Prevention Science. Prevention Science, 12(2), 103117. doi:10.1007/s11121-
011-0217-6
Vazire, S. (2014). life after bem. sometimes i’m wrong [web log]. Retrieved from
http://sometimesimwrong.typepad.com/wrong/2014/03/life-after-bem.html
Verhagen, J., & Wagenmakers, E.-J. (2014). Bayesian tests to quantify the result of a replication
attempt. Journal of Experimental Psychology. General, 143(4), 145775.
doi:10.1037/a0036731
Wagenmakers, E.-J., Wetzels, R., Borsboom, D., van der Maas, H. L. J., & Kievit, R. a. (2012). An
Agenda for Purely Confirmatory Research. Perspectives on Psychological Science, 7(6), 632
638. doi:10.1177/1745691612463078
Williams, L. E., & Bargh, J. A. (2008). Keeping One’s Distance: The Influence of Spatial Distance Cues
on Affect and Evaluation. Psychological Science, 19(3), 302308. doi:10.1111/j.1467-
9280.2008.02084.x
Wolfe, J. M. (2013). Registered Reports and Replications in Attention, Perception, & Psychophysics.
Attention, Perception, & Psychophysics, 75(5), 781783. doi:10.3758/s13414-013-0502-5
Yong, E. (2012). A failed replication draws a scathing personal attack from a psychology professor.
Discover [web log]. Retrieved from
http://blogs.discovermagazine.com/notrocketscience/2012/03/10/failed-replication-bargh-
32
psychology-study-doyen/#.VuAVPPl97IU
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Gilbert et al. conclude that evidence from the Open Science Collaboration’s Reproducibility Project: Psychology indicates high reproducibility, given the study methodology. Their very optimistic assessment is limited by statistical misconceptions and by causal inferences from selectively interpreted, correlational data. Using the Reproducibility Project: Psychology data, both optimistic and pessimistic conclusions about reproducibility are possible, and neither are yet warranted.
Article
Full-text available
Although replication is a central tenet of science, direct replications are rare in psychology. This research tested variation in the replicability of 13 classic and contemporary effects across 36 independent samples totaling 6,344 participants. In the aggregate, 10 effects replicated consistently. One effect – imagined contact reducing prejudice – showed weak support for replicability. And two effects – flag priming influencing conservatism and currency priming influencing system justification – did not replicate. We compared whether the conditions such as lab versus online or US versus international sample predicted effect magnitudes. By and large they did not. The results of this small sample of effects suggest that replicability is more dependent on the effect itself than on the sample and setting used to investigate the effect.
Article
Full-text available
The data includes measures collected for the two experiments reported in “False-Positive Psychology” [1] where listening to a randomly assigned song made people feel younger (Study 1) or actually be younger (Study 2). These data are useful because they illustrate inflations of false positive rates due to flexibility in data collection, analysis, and reporting of results. Data are useful for educational purposes.
Article
Journals tend to publish only statistically significant evidence, creating a scientific record that markedly overstates the size of effects. We provide a new tool that corrects for this bias without requiring access to nonsignificant results. It capitalizes on the fact that the distribution of significant p values, p-curve, is a function of the true underlying effect. Researchers armed only with sample sizes and test results of the published findings can correct for publication bias. We validate the technique with simulations and by reanalyzing data from the Many-Labs Replication project. We demonstrate that p-curve can arrive at conclusions opposite that of existing tools by reanalyzing the meta-analysis of the “choice overload” literature.
Article
The university participant pool is a key resource for behavioral research, and data quality is believed to vary over the course of the academic semester. This crowdsourced project examined time of semester variation in 10 known effects, 10 individual differences, and 3 data quality indicators over the course of the academic semester in 20 participant pools (N = 2696) and with an online sample (N = 737). Weak time of semester effects were observed on data quality indicators, participant sex, and a few individual differences—conscientiousness, mood, and stress. However, there was little evidence for time of semester qualifying experimental or correlational effects. The generality of this evidence is unknown because only a subset of the tested effects demonstrated evidence for the original result in the whole sample. Mean characteristics of pool samples change slightly during the semester, but these data suggest that those changes are mostly irrelevant for detecting effects.
Article
Working memory is thought to result from sustained neuron spiking. However, computational models suggest complex dynamics with discrete oscillatory bursts. We analyzed local field potential (LFP) and spiking from the prefrontal cortex (PFC) of monkeys performing a working memory task. There were brief bursts of narrow-band gamma oscillations (45-100 Hz), varied in time and frequency, accompanying encoding and re-activation of sensory information. They appeared at a minority of recording sites associated with spiking reflecting the to-be-remembered items. Beta oscillations (20-35 Hz) also occurred in brief, variable bursts but reflected a default state interrupted by encoding and decoding. Only activity of neurons reflecting encoding/decoding correlated with changes in gamma burst rate. Thus, gamma bursts could gate access to, and prevent sensory interference with, working memory. This supports the hypothesis that working memory is manifested by discrete oscillatory dynamics and spiking, not sustained activity.
Article
A paper from the Open Science Collaboration (Research Articles, 28 August 2015, aac4716) attempting to replicate 100 published studies suggests that the reproducibility of psychological science is surprisingly low. We show that this article contains three statistical errors and provides no support for such a conclusion. Indeed, the data are consistent with the opposite conclusion, namely, that the reproducibility of psychological science is quite high.
Article
Reproducibility is a defining feature of science, but the extent to which it characterizes current research is unknown. We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects were half the magnitude of original effects, representing a substantial decline. Ninety-seven percent of original studies had statistically significant results. Thirty-six percent of replications had statistically significant results; 47% of original effect sizes were in the 95% confidence interval of the replication effect size; 39% of effects were subjectively rated to have replicated the original result; and if no bias in original results is assumed, combining original and replication results left 68% with statistically significant effects. Correlational tests suggest that replication success was better predicted by the strength of original evidence than by characteristics of the original and replication teams.