IDEスクエア
コラム
第84回 先生それPハクです──なぜ実証研究の結果はいつも「効果あり」なのか?
#URPHacking, sensei: Why are all the empirical results “statistically significant”? (We should botch these words)
PDF版ダウンロードページ:https://hdl.handle.net/2344/0002001059
2024年7月
(4,003字)
今回紹介する研究
Abel Brodeur, Scott Carrell, David Figlio, and Lester Lusher. 2023. “Unpacking p-hacking and publication bias.” American Economic Review 113 (11): 2974–3002.
なぜか分からないけど、効果があってほしい
データを使った実証研究では統計学的な仮説検定をします。たとえば、最低賃金を引き上げると失業が増えるという仮説の検定は、
という式で係数bが正か検定します。具体的には、統計プログラムなどでbを推計して推計値 を得ます。推計値が正だったとしても、誤差で正になっている可能性もあるので、誤差を考慮しても正か、つまり、真の値bが統計学的にゼロと違うと判断できるか検定します1。なお、以下では本文は日常用語表現に努め、より正確な表現は脚注に記すことにします。
この統計学的推論では、が正しいと想定し、得た推計値が(からすると)どれだけ極端かを問います。真の値がの場合に推計値以上の値を観察する確率が分かれば、得た推計値がどれだけ極端かの判断材料になります。この「が正しいときに、得た推計値以上の値を観察する確率」をp値といいます2。p値が小さければ、
p値が小さい
⇒
が正しいと想定すると極端なことが起こっている
⇒
が正しいと想定するのは誤りなのでは
⇒
真の値bは統計学的にゼロではない
と判断します。
このように、実証研究では、p値が小さいと「効果ありという発見」といえます3。逆に、p値が大きいと「効果なしという発見」といえます4。読者の皆さんは、「効果ありという発見」と「効果なしという発見」のどちらに興味をそそられるでしょうか。
筆者にとっては「効果ありという発見」の方が目を引きます。え、そうなの、という反応になることが多いのに対し、「効果なしという発見」は、あ、そう、で終わりがちです。予想どおりの結果であったとしても、効果ありの場合は、やっぱりそうか、なのに対し、効果なしの場合は、そんなの当たり前でしょ、になりがちです。なぜそうなるのか分かりませんが、多くの人が筆者と同じ反応をすると思っています。
実は研究者の多くも同じです。今日紹介する論文でミクロ経済学研究者に実施した匿名調査では、p値が小さくないと学術雑誌に掲載されないのでは、と思っている人の割合は8割を超えているのです5。
効果がないので効果を出そう──pハッキング
学術雑誌などがp値の小さい研究を選んで掲載することを出版バイアス(publication bias)といいます。出版バイアスを予期している、効果ありの方が良い、など様々な動機から、研究者がp値を小さくする作業をpハッキング(または分岐道、forking paths)といいます。
多くのpハッキングは研究者が意図したものです。推計方法をいじくり回して、p値が小さくなるように仕向ける。幾つか推計をして、p値が小さい結果だけを報告する。効果が出るまで実験を繰り返す。
一方、意図せずpハッキングになってしまうこともあります。推計結果が出てから結果に合うように仮説を選ぶのは、p値が小さいことが先に決まっているので検定とはいえず、pハッキングです(Hypothesize After Results are Known, HARKingともいいます)。ほかにも、推計をしてp値が大きいために、モティベーションを失って論文を書かないことも意図しないpハッキングです。なぜならば、p値の大きい研究をお蔵入りさせ、p値の小さい研究だけを世に出しているので、結局はp値を小さくする作業になるからです。
pハッキングは誤解を広める
pハッキングが横行すると、効果ありという(p値が小さい)研究ばかり世に出て、効果なしという研究は日の目を見ません。すると、効果ありなんだ、という誤解が世に広まります。しかも、誤解であることに誰も気づきません。だから、pハッキングは困った行為なのです。
pハッキングをもたらすこれらの行為は、疑わしい研究行為(questionable research practices, QRPs)の一部です。文科省などは、研究倫理に照らしてやってはいけない、と指導しています。QRPをする研究者は研究者同士の信頼を失い、研究予算を得にくくなります。しかし、作業過程を隠せばバレないですし、不公正な行為という意識が乏しいことも手伝い、経済学論文でpハッキングは横行している……か検討したのが今回紹介するブロデューたちの研究です。
データ
データは、2013~2018年にJournal of Human Resources(JHR)誌に投稿された全3607論文、各査読段階の判定結果、各論文に割り当てられた編者と査読者の情報です。論文からは、主たる結果のp値を抜き出します。さらに、著者たちの見解を調べるために、投稿者全員561名に匿名調査を依頼し、143名(25.49%)から回答を得ています。
pハッキングと出版バイアスを検定する方法
図1 pカーブ
(注)赤いpカーブは効果が大きくpハッキングがない場合、
青いpカーブは効果が小さくpハッキングがある場合。
(出所)筆者作成
図2 帰無仮説の分布、効果大の分布、効果小の分布、pハックされた効果小の分布
(注)研究数の分布。図を見やすくするために、p=.10やp=.01を
目指したpハッキングは捨象して描いている。
(出所)筆者作成
真に効果ありの場合、推計値は0よりも大きい場合が多いので、図2の赤い分布のようにp値の小さな研究が多数あります。真の効果が十分に大きい場合、誰もpハッキングしなければ、図1でp値が有意水準として参照される.05近傍よりも、.01近傍の研究が多くなります。つまり、図1の赤い線のようにpカーブは右下がりになります。
真に効果がない場合には、図2の淡い青い分布のようにp値の小さな研究は少ししかありません。ここでpハッキングがあると、p値を有意水準として参照される.05以下よりも小さくする(図2で自分の推計結果を右に移動させる)作業を研究者がするので、図2の濃い青色の分布のように、研究数は.05以上部分で減り、.05未満部分で増えます。つまり、図1で0から右に進んでいくときに、.05直前で増えるためにその周辺で右上がりになります。「有意水準」として参照される.05や.01よりも小さい値周辺で、pカーブが右上がりかを検定すれば、pハッキング有無の検定になるのです。
経済学で同様の計測研究は他にもありますが、本論文の強みは、とある学術雑誌の初稿(雑誌が投稿を受領した段階での原稿)から最終稿(雑誌が掲載した段階での原稿)の詳細情報を入手することで、投稿者側が仕組んだpハッキングと雑誌側が仕向けた出版バイアスの影響を別々に計測した点です。つまり、初稿は投稿者たちの行動の影響だけが反映されているのに対し、最終稿には投稿者たちの行動+雑誌側の方針が反映されているはずです。よって、初稿と最終稿を比較すれば、雑誌による出版バイアスの影響をある程度計測できるのです8。
図3 初稿のp値の分布
(出所)Brodeur, Carrell, Figlio and Lusher (2023), Figure 2
pハッキングは蔓延している
結果は一目瞭然です。pカーブで右上がりの部分が.01、.05、.1で見て取れます9。先行研究でも同じ傾向で、経済学全体にpハッキングが蔓延していることが分かります。著者たちの匿名調査では、トップ・ジャーナルに論文を掲載した一流の研究者の20%~40%が過去5年に各種QRPに手を染めた、とも回答しており、問題の深刻さが分かります10。
一方、初稿と最終稿の比較では、pハッキングの程度は両者で変わらないことが分かりました。つまり、この雑誌で出版バイアスは確認できません。出版バイアスは小さそうですが、この雑誌はpハッキングのある論文もない論文も同じ程度に掲載しています。よって、この雑誌はpハッキングを追認しているともいえそうです。pハッキングを見破るには投稿者以外による推計再現作業が必要なので、雑誌側の体制が整わず追認するしかないのかもしれません。
なぜpハックするのか
JHR誌のように出版バイアスがない雑誌でも、研究者たちがあると思い込めば、pハックするでしょう11。著者たちは、研究者がpハックしないように、分析前計画(pre analysis plan)を公開して、データを扱う前にどのような推計をするか決めてしまう制度などを推奨しています。
確かに予防効果はあると思いますが、データを見る前に分析方法を決められない場合もあります12。こうした場合には、幾つかの雑誌が共同歩調を取って査読過程を公開するなど、出版バイアスがあるという誤解を解くことも有効だと思います。JHR誌の場合、実在しない心配から研究者がpハッキングに手を染めるという、ばかげた状況を回避できます。また、すべての論文で推計再現作業をすると宣言すれば、pハッキングがバレると恐れた研究者がpハックしなくなるか、推計再現作業をしない雑誌に投稿先を変えるかもしれません。
そもそも、最低賃金が失業を増やす「効果あり」か「効果なし」か、研究者にとってどちらでも良いはずです。それなのに、とくに利益もないのに「効果あり」にしようと血道を上げるのは愚かです。標本サイズが大きければ、小さな効果も検知できます。ですから、標本サイズを大きくすることに努め、小さな効果でも「効果あり」と判定できる、だけど効果は小さいから無視可能、と論じられるような研究をすべきなのでしょう。しかし、そうすると大規模なデータや実験が必要で、若手研究者は困ってしまいます。予算のない研究者は、小規模な分析でも注目される斬新なアイディアか、ほどほどの標本サイズでも検知できる効果の大きい現象を見つけるしかないのでしょうか。アイディアかお金か、どちらかがないと悩ましいことになりそうです。
参考文献
- 本論文の勉強会資料
- Kranz, Sebastian, and Peter Pütz. 2022. “Methods Matter: P-Hacking and Publication Biasin Causal Analysis in Economics: Comment.” American Economic Review 112 (9): 3124–3136.
著者プロフィール
伊藤成朗(いとうせいろう) アジア経済研究所 開発研究センター、ミクロ経済分析グループ長。博士(経済学)。専門は開発経済学、応用ミクロ経済学、応用時系列分析。最近の著作に「南アフリカにおける最低賃金規制と農業生産」(『アジア経済』 2021年6月号)、主な著作に“The effect of sex work regulation on health and well-being of sex workers: Evidence from Senegal.” (Aurélia Lépine, Carole Treibichと共著、Health Economics, 2018, 27(11): 1627-1652)など。
注
- 推計値、観察数(標本サイズ)をもとに、という帰無仮説が棄却されるかt検定(片側検定)します。
- 正確に言うと、「帰無仮説が正しいときに、得た推計値以上の値を観察する確率」がP値です。P値とは帰無仮説が成立する確率、と説明されることもありますが、正確ではありません。P値は帰無仮説が正しいときに手元にあるデータDよりも極端なデータを観察する確率です。よって、手元のデータを得たときに帰無仮説が正しい(成立する)確率ではありません。
- 正確には、「効果がないこと(=帰無仮説)を強く疑問視する発見」です。疑問視するとは、帰無仮説下で起こりづらいことが起きた、という意味です。
- 正確には、「効果がないこと(=帰無仮説)を強く疑問視しない発見」です。疑問視しないとは、帰無仮説下で起こりやすいことが起きた、という意味です。
- 正確には、編者の意思決定に統計的有意が重要な要因だ、と回答しています。
- 専門用語を使うと、pカーブとは各論文から集めたp値の確率密度関数で、程度の範囲のものを指します。
- 帰無仮説が正しい場合、pカーブは水平になります。推計値以上の値を観察する確率がp値ですが、ここでp値が.05だとしましょう。仮に、推計値が少し小さくなったとき、推計値以上の値を観察する確率は5%から6%になるとします。つまり、p値が1%ポイント増えるということは、推計値以上の値を観察する確率は1%増えます。p値が.1であれ.2であれ(=pカーブのどの点であれ)、p値が1%増えるときには、推計値以上の値を観察する確率は常に1%増えています。つまり、ヒストグラムを描くと、p値がどの水準でも、同じだけの頻度(高さ)を伴います。言い換えると、pカーブはどの点でも常に同じ高さなので、水平です。
- 雑誌が直面する原稿と雑誌が選んで改訂をした原稿の対比です。初稿の一部しか最終稿にならないので、編集と選抜の両方の過程を経ています。
- 粗い四捨五入で.05が増える影響も考えねばなりません(Kranz and Putz 2022)。たとえば、推計値が0.015、標準誤差が0.014の場合、そのままz値を計算すると0.015/0.014=1.07ですが、四捨五入して計算すると0.02/0.01=2.00になります。こうした研究を取り除いてpハッキング検定をする必要があるといわれていますが、このような粗い四捨五入をすること自体にpハッキングの意図があるとも思えます。よって、粗い四捨五入の研究も含めた図を見るべきだと思います。
- pカーブの傾きが右上がりということだけでは、pハッキングの浸透度は分かりません。このため、著者たちは研究者たちに匿名調査を実施して、どのくらいの割合でQRPがあるのか計測しています。
- 出版バイアス以外のpハックする動機としては、経済理論の裏付けに乏しい仮説を扱っていることも考えられます。「風が吹けば桶屋が儲かる」のように、理論的裏付けの乏しい(疑わしい)仮説は、データで支持されると意外だからこそ注目されます。儲かる「効果なし」だと誰からも注目されず、雑誌で出版することは難しいでしょう。再現性が乏しく、今や原著者ですら存在を疑問視した心理学のプライミング仮説も、「効果あり」だったからこそ注目を集めました。検討に値しない仮説を扱うと、無理して「効果あり」を演出する誘因が出てきます。
- 2次データを使った観察研究では、情報がどの程度豊富か分からないので、事前に決められる内容に限りがあります。
- 第1回 途上国ではなぜ加齢に伴う賃金上昇が小さいのか?
- 第2回 男児選好はインドの子供たちの発育阻害を説明できるか
- 第3回 子供支援で希望を育む
- 第4回 後退する民主主義
- 第5回 しつけは誰が?――自然実験としての王国建設とその帰結
- 第6回 途上国の労働市場で紹介が頻繁に利用されるのはなぜか
- 第7回 絶対的貧困線を真面目に測り直す――1日1.9ドルではない
- 第8回 労働移動の障壁がなくなれば一国の生産性はどの程度向上するのか
- 第9回 科学の世界の「えこひいき」――社会的紐帯とエリート研究者の選出
- 第10回 妻の財産権の保障がHIV感染率を引き下げるのか
- 第11回 飲酒による早期児童発達障害と格差の継続――やってはいけない実験を探す
- 第12回 長期志向の起源は農業にあり
- 第13回 その選択、最適ですか?――通勤・通学路とロンドン地下鉄ストライキが示す習慣の合理性
- 第14回 貧困者向け雇用政策を問い直す
- 第15回 妻(夫)がどれだけお金を使っているか、ついでに二人の「愛」も測ります
- 第16回 先読みして行動していますか?――米連邦議会上院議員の投票行動とその戦略性
- 第17回 保険加入率を高めるための発想の転換
- 第18回 いつ、どこで「国家」は生まれるか?――コンゴ戦争と定住武装集団による「建国」
- 第19回 婚資の慣習は女子教育を引き上げるか
- 第20回 産まれる前からの格差――胎内ショックの影響
- 第21回 貧困層が貯蓄を増やすには?――社会的紐帯と評判
- 第22回 農業技術普及のキーパーソンは「普通の人」
- 第23回 勤務地の希望を叶えて公務員のやる気を引き出す
- 第24回 信頼できる国はどこですか?
- 第25回 なぜ経済抗議運動に参加するのか――2010年代アフリカ諸国の分析
- 第26回 景気と経済成長が出生率に与える影響
- 第27回 消費者すべてが税務調査官だったら――ブラジル、サンパウロ州の脱税防止策
- 第28回 最低賃金引き上げの影響(その1) アメリカでは雇用が減らないらしい
- 第29回 禁酒にコミットしますか?
- 第30回 通信の高速化が雇用創出を促す―― アフリカ大陸への海底ケーブル敷設の事例
- 第31回 最低賃金引き上げの影響(その2)ハンガリーでは労働費用増の4分の3を消費者が負担したらしい
- 第32回 友達だけに「こっそり」やさしくしますか? 国際制度の本質
- 第33回 モラルに訴える――インドネシア、延滞債権回収実験とその効果
- 第34回 「コネ」による官僚の人事決定とその働きぶりへの影響――大英帝国、植民地総督に学ぶ
- 第35回 カップルの同意を前提に少子化を考える
- 第36回 携帯電話の普及が競争と企業成長の号砲を鳴らす――インド・ケーララ州の小舟製造業小史
- 第37回 一夫多妻制――ライバル関係が出生率を上げる
- 第38回 イベント研究の新しい推計方法――もう、プリ・トレンドがあると推計できない、ではない
- 第39回 伝統的な統治が住民に利益をもたらす――メキシコ・オアハカ州での公共財の供給
- 第40回 なぜ勉強をさぼるのか? 仲間内の評判が及ぼす影響
- 第41回 戦争は増えているのか、減っているのか?
- 第42回 安く買って、高く売れ!
- 第43回 家族が倒れたから薬でも飲むとするか――頑固な健康習慣が変わるとき
- 第44回 知識の方が長持ちする――戦後イタリア企業家への技術移転小史
- 第45回 失われた都市を求めて――青銅器時代の商人と交易の記録から
- 第46回 暑すぎると働けない!? 気温が労働生産性に及ぼす影響
- 第47回 最低賃金引き上げの影響(その3)アメリカでは(皮肉にも)人種分断が人種間所得格差の解消に役立ったらしい
- 第48回 民主主義の価値と党派的な利益、どっちを選ぶ?――権力者による民主主義の侵食を支える人々の行動
- 第49回 経済的ショックと児童婚――ダウリーと婚資の慣習による違い
- 第50回 セックスワーク犯罪化――禁止する意味はあるのか?
- 第51回 妻が外で働くことに賛成だけど、周りは反対だろうから働かせない
- 第52回 競争は誰を利するのか? 大企業だけが成長し、労働分配率は下がった
- 第53回 農業技術普及のメカニズムは「複雑」
- 第54回 女の子は数学が苦手?――教師のアンコンシャス・バイアスの影響
- 第55回 マクロ・ショックの測り方――バーティクのインスピレーションの完成形
- 第56回 女性の学歴と結婚――大卒女性ほど結婚し子どもを産む⁉
- 第57回 政治分断の需給分析――有権者と政党はどう変わったのか
- 第58回 賄賂が決め手――採用における汚職と配分の効率性
- 第59回 いるはずの女性がいない――中国の土地改革の影響
- 第60回 貧すれば鋭する?
- 第61回 貿易自由化ショックとキャリア再建の男女格差――仕事か出産か
- 第62回 最低賃金引き上げの影響(その4)――途上国へのヒントになるか? ドイツでは再雇用によって雇用が減らなかったらしい
- 第63回 貧困からの脱出――はじめの一歩を大きく
- 第64回 大学進学には数学よりも国語の学力が役立つ――50万人のデータから分かったこと
- 第65回 インドで女性の労働参加を促す――経済的自律とジェンダー規範
- 第66回 所得が中位以上の家庭から保育園に通うと知的発達が抑えられます――イタリア・ボローニャ市の場合
- 第67回 男女の賃金格差の要因 その1──女性は賃金交渉が好きでない
- 第68回 男女の賃金格差の要因 その2――セクハラが格差を広げる
- 第69回 ジェンダー教育は役に立つのか
- 第70回 なぜ病院へ行かないのか?──植民地期の組織的医療活動と現代アフリカの医療不信
- 第71回 貧困層向け現金給付政策の波及効果
- 第72回 社会的排除の遺産──コロンビア、ハンセン病患者の子孫が示す身内愛
- 第73回 家庭から子どもに伝わる遺伝子以外のもの──遺伝対環境論争への一石
- 第74回 チーフは救世主? コンゴ民主共和国での徴税実験と歳入への効果
- 第75回 権威主義体制の不意を突く──スーダンの反体制運動における戦術の革新
- 第76回 紛争での性暴力はどういう場合に起こりやすいのか?
- 第77回 最低賃金引き上げの影響(その5) ブラジルでは賃金格差が縮小し雇用も減らなかったが……
- 第78回 なぜ売買契約書を作成しないのか? コンゴ民主共和国における訪問販売実験
- 第79回 国際的な監視圧力は製造業の労働環境を改善するか? バングラデシュのラナ・プラザ崩壊のその後
- 第80回 民主化で差別が強化される?――インドネシアの公務員昇進にみるアイデンティティの政治化
- 第81回 バングラデシュのラナ・プラザ崩壊のその後(2)――事故に見舞われた工場に発注をかけていたアパレル小売企業は、事故とどう向き合ったのか?
- 第82回 児童婚撲滅プログラムの効果
- 第83回 公的初等教育の普及、それは国民を飼い慣らす道具──内戦による権力者の認識変化と政策転換
- 第84回 先生それPハクです──なぜ実証研究の結果はいつも「効果あり」なのか?
- 第85回 教育の役割──教科書は国籍アイデンティティ形成に寄与するのか
- 第86回 解放の甘い一歩
- 第87回 途上国の医療・健康の改善のカギは「量」か「質」か
- 第88回 人種扇動的レトリックの使用と国家の安定性──ドナルド・トランプの政治集会が黒人差別に与えた影響
- 第89回 都合が良ければ「民主的」、そうでなければ「非民主的」──政治的行動に対する知覚バイアスを探る
- 第90回 融資金を夫から遠ざけることができたらマイクロファイナンスの効果が大きくなるかもしれない