実証分析における因果性と再現性：Pitt and Khandker（1998）のマイクロファイナンス論文を巡る一連の議論から（高橋和志）

研究活動
研究活動
研究会一覧

研究ネットワーク

イベント・セミナー情報

受賞一覧

メディア出演
IDEスクエア
IDEスクエア
新着

特集

世界を見る眼

途上国研究の最先端

論考

コラム

海外研究員レポート
出版物・レポート
出版物・レポート
出版物検索

新刊

新着ジャーナル

新着レポート

ピックアップ

書籍

ジャーナル・マガジン

レポート・報告書
研究者
研究者
五十音順

地域・国別

テーマ別

所属別

任期付研究員

客員研究員等

名誉研究員

研究者インタビュー
図書館
図書館
お知らせ

開館時間・開館カレンダー

利用案内

調べ方案内

ライブラリアン・コラム

コレクション

学術情報リポジトリ（ARRIDE）

デジタルアーカイブ
研究所について
組織概要
所長からのメッセージ

パンフレット／年報／業績評価

プレスリリース

アジいま(活動紹介)

アジア経済研究所発展途上国研究奨励賞

イデアス（IDEAS研修プログラム）

採用・募集情報

ソーシャルメディア一覧

会員サービス

研究活動における不正行為等への対応

アジア経済研究所研究データポリシー

アクセスマップ

お問い合わせ

English

新興国・途上国のいまを知る

IDEスクエア

海外研究員レポート

実証分析における因果性と再現性：
Pitt and Khandker（1998）のマイクロファイナンス論文を巡る一連の議論から

このページを印刷する

PDF版ダウンロードページ：http://hdl.handle.net/2344/00049932

高橋和志

2011年5月

1. はじめに

経済学の実証分析では、複数の事象の間にどのような因果関係が存在するか厳密に精査することが求められる。因果関係とは、事象Xの変化が事象Yの変化をもたらす場合の、XとYの関係についてである。よく似た概念に相関関係がある。これは事象Xの変化に応じて事象 Yも変化する時に使う。Yの変化がXによってもたらされたのか、Xの変化がYの変化によってもたらされたのか、或いは両者の変化がXとYの変化に影響を与える第三の事象Zの変化によってもたらされたのか、様々なケースが考えられるが、相関関係においては、原因と結果の方向性は基本的に問われない。

経済学の実証分析において、因果性の立証が求められる背景の一つには、経済分析が誤った政策提言につながらないよう、配慮していることが挙げられる。例えば、農作物の近代品種を採り入れた家計（X）ほど所得が高い（Y）という事象は相関関係でしかなく、この観察結果だけをもとに、農村所得改善の方策として近代品種の普及を提言することは危険である。なぜなら、近代品種を採り入れる家計は、種子を毎年購入できる豊かな農家であったり（Yが原因となりXが生じている側面がある）、教育水準が高く新技術への対応が容易な家計である（第三の要素ZによってXが生じており、XがなくてもYが高い可能性がある）などの場合が考えられるからである。そうした可能性を適切に統御しなければ、近代品種が家計所得上昇にどれだけ貢献しているのか、そして近代品種普及が所得向上という目標に対して望ましい政策なのか、実のところよくわからない。

因果性を立証するためには、他の条件を全く同一にした上で、外部から意図的にXを変化させたらYが変化するかどうかを観察することが基本となる。例えば、土壌・気温・雨量などあらゆる外部環境が同じ圃場で、同じだけの施肥・除草・水管理を行い、伝統品種と近代品種の栽培比較実験を行う。その結果、近代品種の方が収量が高いとなれば、近代品種は高収量をもたらすという因果関係が確立される。私たちがこれまで触れてきている「科学的知見」とは、多くの場合、このようによく制御された環境の中で生みだされ、同一の条件で再度実験を行えば同じ結果が得られる再現性の高い観察結果に基づいている。

一方、経済データのように環境を制御するのが難しい場合、因果性を立証する方法に苦慮してきたのが事実である。経済学では、最近になりようやくランダム化比較実験（Randomized Controlled Trials: RCT）と呼ばれる方法が発展してきたが、それまでは計量経済学手法の工夫を施し、因果性を立証する方法が採られることが多かった。

RCTとは、Xの変化を無作為に与えた多数の個人を観察すれば、制御すべき要因が、異なるXの集団間で平均的に同じになっていくという、統計的法則性をベースに因果性を検証するものである。例えば、「マイクロクレジット（MC: 小口融資）は貧困層の生計改善に寄与する」という命題を考えたとしよう。この場合、個々人はMC融資を受けるか受けないかの二択があるが、各個人はどちらか一つしか選べないため、同一の個人がMCを借りた場合と借りない場合の比較は不可能である。また、MC借入が個人の自由な意思決定によるものであるのならば、先の近代品種の例の通り、MC借入に影響を与える様々な事象を（通常目に見えない努力水準、意欲なども含め）制御しなければ因果性の検証はできない。RCTでは、まず個人を無作為にグループ分けし、片方のグループはMC借入を行い残りのグループは借入を行わない（或いは借入機会が片方のグループのみに与えられる）状況を意図的に作り出し、グループ間の結果指標（生活水準など）の差を比較する。各個人はどちらのグループに所属するかランダムに決められるため、十分な標本サイズの下では、MC融資前の生活水準はグループ間で平均的に同じになるはずである。また、それ以外に、制御すべき要因も全て平均的には同じになる。そのため、MC融資後の生活水準に有意な差が生じているのだとしたら、それはMC借入の差がもたらした帰結と判断できるとするのがRCTの考え方である。

MC研究でも近年、RCTに基づき、MC融資と生活状況の間の因果性を検証した論文はいくつか存在する。他方、そうした手法が流行する以前に、高度な統計的手法を用いて因果関係を確立したと考えられていた論文に、Pitt and Khandker（1998、以下PK）が挙げられる。PK論文はMCが盛んに行われていたバングラデシュを研究対象とし、「MCは貧困層の生計改善に貢献する」、「生計改善効果は女性に貸した方が大きい」という重要な二つのファインディングを含んでいたため、公刊されてすぐに大きな反響を呼んだ。その中の一つにMorduch（1998）の反論がある。Morduchは異なる仮定の下で因果関係を検証すると「MCが貧困層の生計改善に貢献する」とは言えなくなることを示している。その後、Pitt（1999）によるMorduch論文へのさらなる反論を経た後、Khandker（2005）により、PK論文の拡張が行われ、PK論文のファインディングは異なる推計方法でも概ね支持されることが示された。

PK、Morduch、Khandkerの三つの論文の分析結果がそれぞれ果たして本当に因果関係を確立したと言えるのか、実証結果は再現されうるのかどうか、という課題に挑んだのかRoodman and Morduch（2009、以下RM）である。RMは三論文で使われたデータで同じような推計を試したところ、三論文ともに因果性を立証できるほどの十分な証拠が見つからなかったとして話題を呼んだ。

しばらくRM論文の結果は経済学者の間でも受け入れられてきたが、2011年になり、未公刊ながら、PittがRMの誤りを指摘する二本の論文（Pitt 2011a, 2011b）をウェブ掲載してから、PK論文の妥当性について経済学者の間で議論が再燃している。本稿は、PK、RM、Pitt（2011a, 2011b）に特に着目し、各論文を整理するとともに、PK論文を巡る最近の議論の動向についてまとめるものである。なお、PKからRMに至るまでの一連の議論の流れは高野・高橋（2011）も参照されたい（各論文の詳細には踏み込んでないが、Karnofsky（2011）も最近の議論を手際よくまとめているので興味ある方はそちらも参照のこと）。

2. PK論文以降の一連の議論

Pitt and Khander（1998）のおさらい

PK論文は1998年にJournal of Political Economy（JPE）という経済学のトップジャーナルに掲載された。（※1）この論文ではバングラデシュで1991年から1992年に三度にわたって実施された家計調査に基づく分析を行っている。1992年当時、バングラデシュでMC融資をしている主な団体として、（1）Grameen Bank, （2）Bangladesh Rural Advancement Committee [BRAC], （3）Bangladesh Rural Development Board's [BRDB] Rural Development RD-12 programの三つがあった。標本家計は29のThana（タナ）から無作為に選ばれた1798家計である。このうち、25タナに属する1538家計がMC実施地域に住んでおり、そのうち905家計が実際にMCの借り入れを行っている。

PK論文はこの三団体による1986年12月からのMC借入総額（1992年価格に実質化した総額）が家計の消費水準や児童の就学などにどのような影響をもたらしたのか検証したものである。これを簡単な式で表すと、

となる。ここでは最終的に見たい結果の指標（家計消費水準や児童教育）；はに影響を与えうる家計の特徴（制御すべき要因）；はMC借入額；は誤差項である。とはそれぞれ推計パラメーターであり、の値が統計的に有意であるなら、MC融資と生活水準の向上には相関関係があるという主張がなされる。

しかし、この式だけではMCによって生計が改善されるかという因果関係までは十分に検証できない。よく知られる通り、はやで制御しきれず、かつの変動に影響を与える全ての要因が含まれている。また、よく親しまれている最小二乗法（OLS）ではの平均値が0で正規分布と仮定される。しかし、仮に、との間に何らかの相関関係がある場合には、その仮定が崩れ、の推計量は一致性をもたず、バイアスが生じることになる。

大きく分けるとここには2つの潜在的な問題がある。第一に、MC実施地域の選別が恣意的に行われうることから生じる問題である。例えば、MC実施担当者はMCのインパクトがより大きく見込める豊かな地域に対して事業を実施するかもしれない。この場合、の値は村の特徴を制御した時と比較して大きくなる。逆に、MC実施担当者は貧困対策の観点からより貧しい地域でMCを貸し出そうとするかもしれない。この場合、の値は村の特徴を制御した時と比較して小さくなる。村の特徴を適切に制御せず、MC実施地域の選別が恣意的に行われうることから生じるこうした推計のバイアスはPlacement Biasと呼ばれている。

第二に、MCからの借入を行うか否か、どのくらい借入するかを、家計が自主的に選択できることから生じる問題が挙げられる。家計の特徴はある程度で制御されているが、は調査者がデータをとりやすいものしか反映しきれない。仮に、商才など目に見えない要因がに影響を与えていたら、それを明示的にに取り込まない限り、との間に相関関係が生じ、は歪んだ推計値となる。MCの場合、商才に長けている人ほど、小さな資金から大きな利益を生み出すことが可能であるため、商才と借入の間に正の相関関係があるというのは、簡単に思いつくストーリーである。その他、商才以外にも、借金に対する家計の選好など、目に見えない数々の要因がと関連しうる。家計が自主的にMCに参加し、そのMC需要の背後にある家計の特徴を全て制御しきれないことから生じるこうした推計のバイアスはSelf-selection biasと呼ばれている。

Self-selection biasを除去するために一般的に採られる方法は、に影響を与え、（及び）と相関しない第三の変数（識別変数：Z）を用い、の変動からと相関する部分を除く、操作変数（Instrumental Variable: IV）法と呼ばれる推計である。

IV法は上式の通り二段階最小二乗法（2SLS）として捉えるとわかりやすい。ここでは、第一段階で変数Zを用い、予測値を得る。そして第二段階でその予測値との関係を検証する。の変動のうちと相関する、観察されない要因の部分はで表され、それは予測値から除去されている。IV法を使うと、Zによって外生的に決定されるの変動分がに与えている影響がとなり、は一致性を持つことが知られている。

PK論文では、PlacementやSelf-selectionから生じる潜在的な推計バイアスを除去するために、まず村のダミー変数を推計式に入れた。これにより、村ごとの平均的な特徴の違いや、それがもたらすPlacement Biasの軽減が期待できる。またSelf-selectionに対応するため、IV法に言及しているものの、有効な操作変数Zは明確に特定できなかった。そのため、IVを用いた2SLSではなく、家計の外部で定められた規則によって、外生的にの変動が生みだされている準実験的状況を考えた。彼らが注目したのは、当時、バングラデシュでは土地所有面積0.5エーカー以下の零細農家や土地なし層にしかMCが貸し出されないという受給資格ルールである。ルール自体は個々の家計では変えられないので、受給資格基準である0.5エーカー付近で、受給資格を得るためにわざわざ土地を転売するなどがない限りにおいては、MC受給資格を持つかどうか（土地面積が0.5エーカー以下であるかどうか）は家計にとって外生変数であろう。そして、その条件を制御すれば、の影響を計測できるだろうというのがPK論文の識別戦略である。（※2）

（3）式において、は村の固定効果を表す。簡単化のためには受給資格があるかないか（=1受給資格なし、=0受給資格あり）だけを表すとすると、村でMCが実施されている場合（=2）とMCが実施されていない場合（=1）の期待値はそれぞれ、

となる。ここでは、MC実施村でMC受給資格がある家計の中で実際に参加した人の割合である。この仮定のもとで、の効果はとして推計できるだろうというのがPK論文の骨子である。

この方法は、回帰不連続デザイン（RDD）の応用とも考えられる。RDDとは、ある閾値を境にMC受給資格が急激に変化する場合に、その閾値近辺の家計を比較する方法である。例えば土地保有面積0.5エーカーにより完全に受給資格が決められている場合、0.51エーカーの人は受給資格がないが、0.49エーカーの人は受給資格を持つ。彼らの資金需要や観察不可能な特徴は、例えば土地を1エーカー持っている人と全く持っていない人よりもおそらく小さく、「似た者同士」と言えるだろう。そのため、制御しなければいけない多くの要因の差は無視できるほど小さく、違いはMC受給資格の差と、それにより生じる生活水準の差と考えることも可能である。PK論文では、土地保有面積0.5エーカー近辺の標本家計だけを推計に使っているわけではないが、こうした考えにより、PKの推計はRDDに基づいているという本人たちの主張も見られる。

PK論文の実際の推計は以上の説明より、さらに複雑である。実際にPKが採用した方法を列挙すると
（a）まずには打ち切りポイントがあり、潜在需要がlog（1000）タカ以下の場合に＝0であり、がlog（1000）タカ以上の場合に観察データの通りの値をとるという想定がなされている。つまり観察値は以下の性質を持つ。

（b）は男女別に分けられ、さらに各村でGrameen Bank, BRAC, BRDBがそれぞれ男性向け、女性向けにMCを実施しているかというダミー変数と掛け合わせ、最終推計式には6種類（3つのMC機関*男女別）のが入れられている。

ここで、添え字は女性グループ、添え字は男性グループ、はMCプログラム（=Grameen Bank BRAC, BRDB) が女性向けに事業を実施している場合に1をとるダミー、Dmは同様にMCプログラムが男性向けに事業を実施している場合に1をとるダミーである。

（c）明確に排除制約（exclusion restriction）を満たす識別変数Zは（5a）（5b）になく、その替わりMC受給資格がないというダミー変数を作り、それを（5c）の推計の中に取り入れているが、受給資格は土地の大きさ(閾値である0.5エーカー以上か以下か)によってのみ決められているのではなく、MC融資が実際にあったかも考慮している。そのため、例えばプログラムが実施されている村で土地の大きさが0.5エーカー以上であっても、観察期間にMC融資があった場合には、受給資格ありと見なされている。

（d）またMC参加者を母集団の分布よりも多めにサンプルに含めるように調査したことから、Weighted exogenous sampling maximum likelihood（WESML９を用いて、サンプルウェイトの調整している。）

（e）（5a, 5b, 5c）式を2SLSではなく、Limited information maximum likelihood（LIML）を用いた同時推計をしている。さらに、村の固定効果（Fixed Effect:FE）を入れている。

（f）最終的な推計式はこれらを組み合わせたWESML-LIML-FEであるが、仮にPlacement BiasもSelf-selection biasも発生していないのであれば、サンプルウェイトのみを調整すれば、精度のよい推計が得られるためWESMLのみを試したり、Placement Bias発生していないのだとすると、FEを入れた推計はよりinefficientになるため、WESML-LIML（+村の外生的特徴をだけを入れたもの）に基づくものも試している。（※3）　

これらの推計式に従い、PKは4つの推計結果を並べている。

（出所：Pitt and Khandker, 1998: Table 2）

左側の4つの欄が家計の消費水準への影響を見たものである。最初の2つは受給資格があるとされた人だけを推計の対象とし、（1） OLSと（2）WESMLを用いた結果。次の2つの式は全ての家計を推計の対象とし、（3）受給資格があるかないかのダミーを加え、（5a）（5b）（5c）式をLIMLで同時推計したものと、（4）さらに村固定効果を加えた結果である（括弧内は値。は（5a）（5b）式と（5c）式の誤差項の相関度合いを見たもの）。

WESML-LIML-FE（第4欄）によれば、BRAC, BRDB, Grameen Bankとも女性への融資の係数は正で統計的に有意な一方、男性については係数は正だが女性よりも値が小さく、また統計的には有意ではない。この推計値をもとにBRAC, BRDB, Grameen Bankを合算すると、1タカのMC融資が女性に対して行われると約0.18タカの家計消費上昇が見込まれるのに対し、男性に対して行われると0.11タカの上昇にしかならない。またが女性も男性も負の数値をとっていることから、MCの借入ではself-selection問題が発生しているものの、もともと村内でより貧しい家計がMCに参加しているという結論を導いた。

WESML-LIML推計（第3欄）については、女性に対する融資効果が減少すること、男性の場合、融資効果が負で有意になることもあること、また男性のが正に変換することなどをもって、固定効果を入れない（Placement biasを考慮しない）場合のペナルティについて論じている。

Roodman and Moduch（2009）のおさらい

RM論文は上記PKの結果の妥当性を調べたものである。当時の論文作成に使われたデータがそのままの形では現存していなかったため、素データからデータの再構築を図り、推計結果の再現性を試みた。まずデータ再構築の面では、当初PK論文のサマリー統計に記載されていた数値と若干異なる点があったが、主要変数である家計消費額、各MC団体からの融資額、その他家計の特徴に関する変数など概ねPK論文と同様の平均値と分散をとることが判明した。また、PKの一人であるMark Pittから一部データを譲り受け（Pitt自身もPKで利用したデータを完全な形式で保有していなかったため、そのデータがPK論文に使われたものかどうかは確実とは言えないというコメントをしている）、その変数と再構築データの相関係数を調べたところ、ほぼ全ての主要変数で0.95以上と高い数値を示した。

グラフ

(出所：PKexp.dtaから筆者作成)

RMは再構築されたデータを用い、まず（5a）（5b）式で表わされるMC資金需要の閾値（censoring threshold）をいくらに設定するか検討した。観察データでは、MC融資額が 1000タカ以下の家計はいないため、受給資格のあるグループでは、全く借入をしなかった（0=log 1の値をとる）家計と、log 1000タカ以上の借入をした家計がおり、受給資格がないグループは全員の借入額がlog 1となる上図のような分布となっている（図の左側が受給資格のあるグループ、右側がないグループ）。RMは推計で使うMCの閾値をlog（1000）と当面定め、潜在需要がlog（1000）タカ以上の場合に観察データの通りの値をとり、それ以下の場合にはが閾値のlog（1000）をとると想定し、log 1を閾値とした場合に結果が変化するか頑強テストを実施している。つまり、彼らの想定はlog 1000を閾値とした場合には下記の通り、

となり、log 1を閾値とした場合は、

となる。

また、受給資格がないというダミー変数はMCが実施されている村に居住しているかに関わらず、土地所有面積0.5エーカー以上であり、それ以外は1をとることが基本になっているものの、受給資格ルールがMC機関や村内で厳格に守られておらず、土地面積が0.5エーカー以上でも、借入ができた場合には、0をとる（受給資格ありと看做される）ようPK論文では調整がなされている。そのため、0.5エーカーを境に急激にMCの借入の可能性が変化することがないことをRMは指摘している。この問題はMorduch（1998）によるPK論文への反論の重要な根拠の一つであったが、RMではそれほど大きく問題視されなかった。

グラフ

（出所：Roodman and Morduch, 2009: Figure1のReplication. ）

RMは、再構築されたデータから、PKが使用したものと全く同じと考えられる推計方法で、PKの結果の再現性を試みた。プログラムとしてはRoodmanが作成したcmpと呼ばれるパッケージを使っている。（5a）（5b）式の閾値をlog 1000とし、（5c）式では受給資格があるとされた人だけを推計の対象とし、(1) OLS、(2)LIML（FEの替わりに村の特徴を変数として入れたもの）、（3）LIML -FEを用いて推計した結果と、全ての家計を推計の対象とし、（4）OLS, （5）LIML（FEの替わりに村の特徴を変数として入れたもの）、（6）LIML –FE（サンプルウェイトは調整済み）を推計した。（6）がPK論文でいうところのWESML-LIML-FEである。

（出所：Roodman and Morduch, 2009: Table3）

結果として、ほぼ同じデータ、ほぼ同じ推計式である第6欄において、驚くべきことに、BRACやBRDB、Grameen Bankからの女性に対する融資は、家計消費水準に有意かつマイナスの影響をもたらすことが判明した。

RMはPKとの結果の違いについて

The sharp contradiction of PK's headline result poses a mystery
（PKの主要結果と明らかに正反対する結果は不可解である）

と自ら述べ、（5a）（5b）式の閾値をlog 1にしたり、Pittから借りたデータを使って再推計してみたが、やはり結果は変わらず、女性に対する融資は消費にマイナスの影響となっていると報告している。

また、PK論文が使った実証戦略が因果関係を構築するのに有効であったか調べるために、（5a） (5b）（5c）式をLIML の替わりに2SLSに置き換えて検証した。RMの狙いは、MC受給資格の有無が真に外生変数であり、受給資格とその他説明変数の交差項の行列が消費決定式の誤差項と直交（無相関）であるならば、それを2SLSの枠組みの中で検定できるだろうということである。RMは識別変数の妥当性を検証するために、Sargan検定とHansen-J検定を行った。Sargan検定は誤差項が互いに独立で均一の分散に従う場合に有効な検定方法であるが、RMはPKの推計式が閾値のあるTobitモデルに準じるものであるため、誤差項の均一分散が暗に仮定されているのではないか、また、各調査ラウンド間での家庭内の誤差項の系列相関はありうるものの、一致性のある推計を行うためには各調査ラウンドにおいて家計間の誤差項が互いに独立であると仮定されていなければいけないのではないか、と考えた。そのため、Sargan検定は、調査ラウンド間の系列相関がないと想定される、各調査ラウンドの識別テストのみに用い、Hansen-J検定は各調査ラウンド及び三つの調査ラウンドのデータをプールしたものに用いている。

結果から、Sargan 検定においては、各調査ラウンドの操作変数行列は誤差項と直交という帰無仮説は強く棄却された。また、全ての操作変数行列を用いたHansen-J 検定においても結果は同様であった。そこで、Hansen-J 検定を通った操作変数行列のみを用いて、再度Sargan 検定を試してみたところ、やはり多くの場合において、操作変数行列が誤差項と直交という帰無仮説は棄却された。この結果から、RMは誤差項が互いに独立で均一の分散という仮定が満たされていなかったか、或いはそれが満たされていたのだとしたら、識別戦略が誤っていたかのいずれかであり、いずれの立場をとってもPK論文がMCと消費水準の上昇の因果関係を構築したことにはならないと主張した。

RMはデータ構築プロセス、推計コード、推計に使ったcmpパッケージの全てを一般公開し、第三者がそれを検証できるようにした。

3. Pittの反論

RM論文が出された2009年には、RCTを用いた論文でも相次いでMCは生活改善にそれほど大きな貢献をしていないという結果が出されていたこともあり（例えばBanerjee et al. 2009, Karlan and Zinman 2009）、RMの論文は信憑性を持って受け止められた。開発経済学の教科書とも言えるHandbook of Development Economicsでも引用されている。RMは論文の中で、MCが本当に負の影響を及ぼすような害のあるものであるとは述べてはおらず、PKの論文によって正の因果性を確立することは困難であると述べているにとどまっているが、貧困削減のためのツールとしてMCに過大な期待を寄せすぎてはいけないというムードがこの頃から経済学界の一部に出来上がり始めた。一方、2010年インドのアンドラ・プラデシュ州で、MCによる多重債務者が自殺に追い込まれるケースが多くなったという噂から、州政府がMCの運営を大幅に規制し、債務不履行が広がっていった。このインドのマイクロファイナンス危機において、開発経済学の著名学者達が共同で“Microfinance is not the enemy（マイクロファイナンスは敵ではない）”（Banerjee et al.2010）という記事を執筆したことにも象徴されるように、MC自体を悪と考える学者は少ない。MCはある特定の目的には有効であるが、生活全般において有効なわけではない、というのが大方の意見であろう。

そうした中、RM論文が発表されて2年経過した2011年、Pittが自身のウェブページ上において、RM論文の欠陥を指摘する2つの論文を掲載した。以下、その中身を吟味したい。

Pitt（2011a）

“Response to Roodman and Morduch’s "The Impact of Microcredit on the Poor in Bangladesh: Revisiting the Evidence."”（Pitt, 2011a）でPittが問題にしたのは主に次の点である。RMの再推計はPKを完全に踏襲しておらず、（1）MC需要の閾値の設定が間違っており、かつ（2）重要な説明が（5c）式の中から抜けている替りに誤った変数が入れられている。（3）これらを是正するとPKの結果はRoodmanが作成したcmpパッケージでも再現される。

Pitt（2011a）は、（個人的な印象であるが）かなり怒りに満ちている論文である。RM論文が発表されて以来、PKやその弟子達が書いた論文は信憑性に欠けるという烙印を押され、MCの効果が疑問視されることが当然となってきた。しかし、間違っているのはそもそもRMだったのではないかという問題提起の仕方である。

MCの閾値については、既述の通り、PKの設定はやや特殊である。MC潜在需要の変数が閾値であるlog 1000以上であるならば観察値となるが、がlog 1000以下であるならばlog 1000ではなくlog 1をとると想定されている。これは通常のTobitモデルの打ち切り（left censoring）と異なる。また、Pitt（2011a）によれば、PKは各家計がMCを借り入れる可能性があったかという事実を重視し、MC受給資格のない家計やMCが展開されていない村の家計が正の値をとる可能性を省いている。これらを無視し、潜在変数が閾値であるlog 1000以下の全ての家計に＝log 1000を与えてしまったRMの計算方法は、資金需要がなかったり、借入機会がそもそもない家計にも1000タカを与えた上で、MCの効果を測定しようとしている時点で大きな誤りであると指摘した。

また、（5c）式の中には、MC受給資格がないというダミー変数が入れられているが、RMではこの変数が使われておらず、替わりにMC実施村に住みMC受給資格がありながらも借入を行わなかった家計が1をとるようなダミー変数が入れられていた。これはPKの識別戦略と全く異なると言うことである（Pitt（2011a）では詳しく触れられていないが、（3）（4）式に倣うと、プログラムに参加したかしないかはそれ自体内生変数のため、誤差項と相関が生まれる可能性が高く、の効果をバイアスなく推計できないということなのだろう）。

Pitt（2011a）ではRMが公開したcmpパッケージを使った推計式に、MC閾値とダミー変数の2つの修正を加え、PittがRoodmanに貸し出したデータとRMが再構築したデータを用いて再推計を試みている。その結果、いずれのデータを使っても、女性への貸出は家計の消費水準に有意な効果をもたらすが、男性への貸出は有意な効果をもたらさないというPKオリジナルの結果が再現されることを示した。RM論文にはこの2点の致命的誤りがあったために結果が再現されなかったのであって、

The "sharp contradiction of PK's headline result" (RM, p.23) is no longer a mystery
（PKの主要結果との明らか不一致はもはや不可解ではない）

とPitt (2011a: p12)は述べている。

Pitt（2011b）

続いて"Overidentification Tests and Causality: A Second Response to Roodman and Morduch"(Pitt, 2011b)と題された論文で、Pittが議論しているのは、RMの過剰識別検定の妥当性についてである。WESML-LIML-FE推計を2SLSに置き換え、識別変数であるMC受給資格とMC実施村ダミー（村固定効果）を他の説明変数と交差させることで、一致推計が得られることはPK論文脚注16でも述べられている。Pitt (2011b)の主な主張は、RMが議論の拠り所としたSargan検定は明確に誤りであり、かつHansen J検定の妥当性も疑わしいというものである。

Pitt(2011b)がSargan検定に対して触れているポイントは次の2点に集約される。第一に、Sargan検定は誤差項が互いに独立で均一の分散に従う場合に有効な検定方法となる。しかし、PK論文で用いたデータはMC受益者を意図的に多くサンプルに含む調査デザインであったため、その調整としてサンプルウェイトを考慮したWESMLを使っている。これは、既に誤差項の不均一分散が仮定されていることになり、Sargan検定は意味のある検定とはならない、というものである。第二に、PKではMC受給資格のない家計やMCが展開されていない村の家計が正の値をとる可能性を意図的に省いており、彼らのの分散は0になる。RMのcmpプログラムでもそれが考慮されているが、2SLSでは一部の家計のの分散が確定的に（deterministically） 0になることを許容して第1段階のMC需要式を推計することできない。その結果、2SLSの誤差項はi.i.dではなくなり、Sargan検定は決して有効とはならない、というものである。

これらの理由からPitt（2011b）は、過剰識別制約の検定としてはHansen J検定しか有効にはなりえないと主張している。ただしHansen J検定においても、一部の家計のの分散が確定的に0である場合に正しい検出力を持つのかどうか、また、例えHansen J検定が有効だったとしてもRMが行った2SLSは男女別に参加資格があるかどうかを考慮していなかったため、厳密な意味でPKの識別戦略が正しかったかどうかを試していない、と批判した。

その上で、Pitt（2011b）は、Pitt（1999）で示した通り、MC受給資格の代用となる土地保有面積、村ダミーとその他全ての説明変数の交差項を加え、識別変数行列が消費決定式の誤差項の分散と相関しているのか検定した。cmpパッケージに基づくと、識別制約に対するF検定によるp値が0.794になり、識別変数行列が消費決定式の誤差項に対して説明力を持たないという帰無仮説を棄却することはできなかった。この結果をもとに、Pitt（2011b）はPKの識別戦略は妥当であり、「観察データから因果性を確立することは困難である」というRMに反し、PKは「観察データから因果性を立証したと考えられる」と主張した。
Pittは、RMに倣い、Pitt（2011a, 2011b）で利用したデータ、推計コードを一般公開し、第三者が結果を再検証できるようにした。　

4. その後の動向

Pittの反論以降、PK論文とRM論文の妥当性をめぐり、様々な意見がウェブ上で交わされるようになった。その拠点となったのが、世銀が最近開設したインパクト評価に関するブログとRoodmanが個人的に開設していたブログである。

この問題を世銀のブログで最初にとりあげたのは、Pittとも数本の共著論文を執筆したことのあるMartin Ravallionである。彼は“The Microfinance Mystery”（Ravallion, 2011）と題された記事において、PK論文とRM論文の概略を整理し、PKとRMが同じデータで同じ推計方法を用いて、異なる結果になるというのはありえないため、どちらかが間違っているとしか考えられず、その間違いはRMにあったとして、Pitt（2011a）を紹介した。

Ravallionの記事にいち早く反応を示したのがRoodmanである。Roodmanは記事へのコメント欄に、Pitt （2011a）の全てを許容することはできないが、確かにRM論文には明確な誤りがあっただろうと書き込んだ。また、RMが目指したものは、MCが負の影響を及ぼしていることを立証することではなく、PKの識別戦略が正しかったか、それによって因果性が確立できたと言えるのかという点であることを改めて表明した。

これに対し、Ravallionは、問題はPKの識別戦略が妥当であったかという点にあるのではなく、RMが提示したPKと反対の結果が広く受け入れられている点にあるとし、嫌悪感を示している。

Pitt（2011a）に対するRoodmanの最初の公式な反応は彼のブログ上で行われた（Roodman, 2011a)。この記事では、Pitt（2011a）に従い、MC閾値の変更とMC受給資格の有無を（5c）式に入れ、PKとRMの推計の再検証をしている。その結果、次の表の通り、係数の推計値や符号はもともとPKで報告されたものとほぼ同様になり、PKの結果が再現され、RMの結果は再現されないことが確かめられた。

（出所：Roodman(2011a)）

しかし、上表の最後の欄に見られるように、WESML-LIML-FEを2SLSに置き換えた場合、MCの係数は小さくなり統計的に有意ではなくなる、またHansen-J検定では識別変数行列が誤差項と直交（無相関）という仮説は棄却される。そこでRMで行った様に、再び調査ラウンド毎の識別テストにSargan検定を用い、各調査ラウンド及び三つの調査ラウンドのデータをプールしたものにHansen-J検定を用いてみると、やはり多くの場合で識別変数行列が誤差項と直交という帰無仮説は棄却された。このことから、Roodman（2011a）はPitt（2011a）によって示された指摘は確かに正しく、PKの結果は再現されるが、それによってむしろ、PKが因果関係を構築するに至っていないというRMの主張が強化された面もある、としている（当初はこうした主張の展開であったが、サンプルウェイトを考慮した推計ではSargan検定が意味を持たず、それに基づいた判断は誤りであることが後に追記されている）。

また、Roodmanのブログから明らかになっていったことは、PKの結果を再検証する際に、データと推計コードを公開することがいかに重要であったか、という点である。RMは当初からPitt及びKhandkerにPK論文の基となったデータとコードをそのままの形で使わせてもらえるか打診をしていた。Pittはそれに対応し、データを貸したが、注釈付きで、PKで使われたものと全く同じであるかはわからないと言ったようである。データ構築のクレームは国際食糧政策研究所（IFPRI）のシニア・リサーチャーであるMaren Duvendackからもなされ、彼女がPK論文を別の角度から検討しようとした時にもデータが完全な形で公開されていなかったことから苦労したことが述べられている。

ここからデータと推計コード公開を巡り、いくつかの議論がわき起こった。Ravallionが「RMの間違いによってPKが汚名を着させられ、MCの権威が失墜した。RMは結果を公表する前にもっと自らの推計を吟味しなければならなかったのではないか」という指摘を行うと、数人の投稿者から「RMが間違いを犯してしまったのは、そもそもPKがデータとコードを公開していなかったからであり、その責任の一部はPKにもあったのではないか」「もしPKがデータと推計コードを公開していれば、RMの間違いはもっと早く気付かれたのではないか」という疑問が寄せられた。Pittからは当時のやり取りを克明に綴った投稿がなされ、RMが結果を再検討できるようにできる限りの協力をしてきたし、Duvendackについても同様の協力を行った様子が伝えられた。

そうした中、Roodmanから、さらなる検証結果が報告された。これはPitt（2011b）に対応するものである。Roodman（2011b）は記事の中で、Pitt（2011b）の指摘通りSargan検定は確かに妥当ではないことを認めながらも、Pitt（2011b）で示されたF検定は、MC受給資格ダミー変数を識別変数として取り扱ったものではなく、土地面積を使っているものなので、PKオリジナルの推計とは意味が異なることを指摘した。そして、MC受給資格ダミー変数を識別変数とすると、識別変数行列が誤差項に対する説明力を持っており、PKの識別戦略は妥当ではなかった可能性が高いと述べている。また、Roodman自身が再推計したRoodman（2011a）の結果で、2SLSで頑強な結果が導けなかった原因として、識別変数行列がそもそもと弱相関にあった可能性について触れた。さらに、受給資格がないというダミー変数を変更し、土地保有面積0.5エーカー以上の家計の全てが1をとるようにデータを作り（繰り返しになるがPKでは土地保有面積0.5エーカー以下の家計＋土地保有面積に関係なくMC融資があった家計を受給資格ありとみなしていた）、それを入れて推計をやり直すと、Morduch（1998）の指摘通り、MCと消費の関係は負になりうる可能性を指摘した。

5. まとめ

Roodmanの再度の反論以降、今のところ大きな動きはなく、この問題は完全決着にまでは至っていない。特にRoodmanが主張するように、PKが因果性を立証できたといえるかどうかについてはまだ議論の余地がありそうである。

経済学のジャーナルでは、因果性を厳密に立証することがますます求められており、因果性の特定の根拠が弱いと査読に通りづらくなっている。今回の一連の議論は、観察データを用いて、「科学的なエビデンス」を提供することがいかに難しいことであるかを示している。しかしこれは、分析上の工夫をそれほど必要としない、もっと単純でシンプルなRCTのみに依拠すればよい、ということでは決してない。Ravallionがブログの中のコメントで述べていたように、RCTには向かないが、現実に解決しなければいけない重要な研究課題はいくつもある。手法の優劣が研究課題を決めるのではなくて、そうした問題意識が研究課題を決めていかなければいけない。

では、現実に問題があり、それを検証する観察データが揃えば、何を言ってもいいのかといえば、もちろんそれも違うだろう。再検証不可能な言説を、専門家本人の信念に基づいて、あたかも本当のように広めてしまうのは、時として有害ですらある。この点に関し、疫学の分野では科学的エビデンスのグレードが定められており、専門家個人の意見は一番低いグレードに分類されている（http://www.jsh.or.jp/medical/liver/level%20classification.htm）。

科学的エビデンスの質を第三者が再検証できるようにするためには、データを公開することも有意義だろう。例えば世銀やIFPRIでは家計データの収集後、一定期間がたったら、全ての素データを公開する方針を持っている。日本のアカデミック機関では、政策研究大学院大学（GRIPS）の大塚啓二郎教授の研究グループが、やはり「収集データは公共財である」という意識のもと、数々の家計データを公開している。一次データを公開することは研究者にとって時として痛みを伴う。それは、第三者が自分の実証結果を検証しやすくなるからではない。時間と労力を割いて一生懸命集めたデータを無料で公開するのは、他人のフリーライドを許してしまうために、苦痛なのである。しかし、世銀のLiving Standard Measurement SurveyやUSAIDのDemographic and Health Surveysなどの家計データに多くの研究者がフリーライドできることで、開発経済学におけるミクロ実証分析が急速に進展してきたことも忘れてならない。今回、PKを巡り、PKの推計結果が再現されうることや、RMの推計がどの点で間違っていたかを、第三者でも検証できるように、PittやRoodmanが互いにデータと推計コードを公開したことは、経済学の進展、MCへの理解促進の上でも意義は大きい。

一方、今回の議論では推計の技術的な問題にのみ焦点があてられていたが、観察データを使った経済学の実証研究では、データが扱っている地域の現実をきちんと反映しているのか、代替的に想起される仮説があったとすればそれが成り立たない十分な証拠があるかどうかによって、論拠の妥当性を判断することも重要な作業である。例えばMCの議論で言えば受給資格ルールが厳密に守られていたのかというのは、依拠する仮定が地域の実態に沿っていたか判断する上で重要な情報であった。さらには、どれだけ厳密な方法であっても、一つの実証結果が他の文脈に当てはまるとは必ずしも言えないということを忘れてはならない。どのような文脈で何がどのようにうまくいくのか、あるいはいかないのかを判断をする際には、地域の様々な定性的な情報を集めることや、異なる文脈での研究結果を蓄積することが大事であろう（※4）。

経済学が科学たりうるためには、客観的かつ再現性の高いものでなければいけない。また、ジャーナルに掲載されるためには、新規かつ厳密でなければならない。しかし、ジャーナルに掲載されることを求めるがあまり、理論や仮説検証方法の妥当性、新奇性のみに注意が払われ、現場の状況が無視されることがあってはならない。いかに再検証可能な形で現場の実態に沿ったエビデンスを構築していくか。そうしたことを考えさせられる議論であった。

参考文献

高野久紀・高橋和志[2011]「マイクロファイナンスの現状と課題－貧困層へのインパクトとプログラム・デザイン」『アジア経済』近刊予定。
Banerjee, Abhijit, Esther Duflo, Rachel Glennerster, and Cynthia Kinnan. [2009]. "The Miracle of Microfinance? Evidence from a Randomised Evaluation." Poverty Action Lab Working Paper 101.
Banerjee, Abhijit, Pranab Bardhan, Esther Duflo, Erica Field, Dean Karlan, Asim Khwaja, Dilip Mookherjee, Rohini Pande and Raghuram Rajan. [2010]. "Microfinance is not the enemy." Financial Times Dec.13. (http://www.ft.com/cms/s/0/53e4724c-06f3-11e0-8c29-00144feabdc0.html#axzz1MMSrYkB6)
Coleman, Brett E. [1999]. "The Impact of Group Lending in Northeast Thailand." Journal of Development Economics 60 (1): pp.105–141.
Karnofsky, Holden (2011). "Microlending debate: an example of why academic research should be used with caution." (http://blog.givewell.org/2011/05/13/microlending-debate-an-example-of-why-academic-research-should-be-used-with-caution/)
Karlan, Dean and Jonathan Zinman. [2009]. "Expanding Microenterprise Credit Access: Using Randomized Supply Decisions to Estimate the Impacts in Manila." BREAD Working Paper No. 235.
Khandker, Shahid. [2005]. "Microfinance and Poverty:Evidence Using Panel Data from Bangladesh." World Bank Economic Review, 19 (2): pp.263–286.
Morduch, Jonathan. [1998]. "Does Microfinance Really Help the Poor? New Evidence from Flagship Programs in Bangladesh." Working Papers 198, Princeton University.
Pitt, Mark M. [1999]. "Reply to Jonathan Morduch's "Does Microfinance Really Help the Poor? New Evidence from Flagship Programs in Bangladesh" Mimeograph. Brown University.
Pitt, Mark M. [2011a]. "Response to Roodman and Morduch's "The Impact of Microcredit on the Poor in Bangladesh: Revisiting the Evidence."" Mimeograph. Brown University. 推計データやコードは（http://www.pstc.brown.edu/~mp/）から入手可。
Pitt, Mark M. [2011b]. "Overidentification Tests and Causality: A Second Response to Roodman and Morduch." Mimeograph. Brown University. 推計データやコードは
（http://www.pstc.brown.edu/~mp/）から入手可。
Pitt, Mark M. and Shahidur R. Khandker. [1998]. "The Impact of Group-Based Credit Programs on Poor Households in Bangladesh: Does the Gender of Participants Matter?" Journal of Political Economy, 106 (5): pp.958–996.
Ravallion, Martin. [2011]. "The Microfinance Mystery." (http://blogs.worldbank.org/developmenttalk/the-microfinance-mystery#comment-219)
Roodman, David and Jonathan Morduch [2009] "The Impact of Microcredit on the Poor in Bangladesh: Revisiting the Evidence." CGIAR Working Paper, 174. 推計データやコードは
（http://www.cgdev.org/content/publications/detail/1422302）から入手可。
Roodman, David. [2011a]. "Response to Pitt's Response to Roodman and Morduch's Replication of…, etc." (http://blogs.cgdev.org/open_book/2011/03/response-to-pitts-response-to-roodman-and-morduchs-replication-of-etc.php)
Roodman, David. [2011b]. "A Somewhat Less Provisional Analysis of Pitt & Khandker." (http://blogs.cgdev.org/open_book/2011/04/a-somewhat-less-provisional-analysis-of-pitt-khandker.php)

脚注

今でこそJPEは、分析結果の質と再現性が担保されるよう、推計に利用したデータおよび推計コードを公開することを義務付けているが、当時はまだそうした体制は整えられていなかった。
に影響を与える観察不可能な要因を取り出し、それを直接的に制御するのではなく、MC借入の機会があり、実際に参加しているかどうかを推計式に含めるやり方はColeman（1999）に近いと言える。しかしColeman（1999）の場合、MCが既に実施されている村、MCがこれから実施される村において、それぞれMC借入を行いたいと表明した人をダミー変数として推計式に含めるDifference in Differenceに基づいており、Self-selectionについてより直感的にわかりやすく、かつクリーンな識別方法を用いていると思われる。
WESML-LIML-FE推計をより詳しく見ると
（5a）（5b）式は性別資金需要に分けられ、
被説明変数が男女毎のlog MC借入額（借入額がない場合は0）

説明変数が[1] HH Headの親族（両親、兄弟、姉妹）とSpouseの親族（両親、兄弟、姉妹）で土地を所有している人数、[2] log 家計が保有する土地の価値、[3] HH Headの教育年数、性別、年齢、[4] 家計内男性成人メンバーの最高教育年数と女性成人メンバーの最高教育年数、[5]成人男子、成人女子、Spouseが一人でも家計内にいるかのダミー、[6]（5a）の被説明変数が男性資金需要の場合、男性対象にMCが展開されているかの村ダミー、女性資金需要の場合、女性対象にMCが展開されているかの村ダミー

（5c）式は
被説明変数がlog 家計一人当たり消費
説明変数が[1]（5a）（5b）式から導かれる、Grameen Bank, BRAC, BRDBの男女別のlog 資金需要（正の下限はlog 1000, それ以下はlog 0）、 [2] 受給資格が無いというダミー、[3] HH Headの親族（両親、兄弟、姉妹）とSpouseの親族（両親、兄弟、姉妹）で土地を所有している人数、[4] log 家計が保有する土地の価値、[5] HH Headの教育年数、性別、年齢、[6] 家計内男性成人メンバーの最高教育年数と女性成人メンバーの最高教育年数、[6]成人男子、成人女子、Spouseが家計内にいないダミー、[7] 調査ラウンドダミー、[8] 村ダミー
これらの論点については、有本寛一橋大学准教授や同僚の高野久紀氏とのインフォーマルな会話から触発されている部分が大きい。記して感謝したい。ただし、有りうる誤りの全ての責任は筆者個人に帰される。

トップへ戻る