いくつかの人からの調査データと多くの人からの大きなデータソースを組み合わせるために、予測モデルを使用して質問しました。
調査と大きなデータソースを組み合わせる別の方法は、 増幅された質問と呼ぶプロセスです。増幅された質問では、研究者は予測モデルを使用して少量の調査データを大きなデータソースと結合し、どちらのデータソースでも不可能な規模または粒度で見積もりを生成します。増幅された質問の重要な例は、Joshua Blumenstockの仕事から来ています.Joshua Blumenstockは、貧しい国の発展を導くのに役立つデータを収集したいと考えていました。従来、この種のデータを収集していた研究者は、一般的にサンプル調査やセンサスの2つのアプローチのいずれかをとる必要がありました。研究者が少数の人々にインタビューするサンプル調査は、柔軟性があり、タイムリーで、比較的安価である場合があります。しかし、これらのアンケートは、サンプルをベースにしているため、決議が限られていることがよくあります。サンプル調査では、特定の地理的地域や特定の人口統計グループについて見積もりを作成することは難しい場合があります。一方、国勢調査はすべての人にインタビューを試みるため、小さな地理的地域や人口統計グループの見積もりを作成するために使用することができます。しかし、国勢調査は一般的に高価で、焦点が絞られており(わずかな質問のみが含まれています)、タイムリーではありません(10年ごとのような固定スケジュールで行われます) (Kish 1979) 。サンプル調査や国勢調査にぶつかるのではなく、研究者が両者の最良の特性を組み合わせることができるかどうかを想像してください。研究者が毎日あらゆる人にあらゆる質問をすることができると想像してください。明らかに、このユビキタスな常時調査は、社会科学の幻想の一種です。しかし、少数の人からのアンケート質問と多くの人々のデジタルトレースを組み合わせることで、これを近似し始めることができるようです。
Blumenstockの調査は、ルワンダ最大の携帯電話会社と提携して開始され、同社は2005年から2009年の間に約150万の顧客からの匿名の取引記録を提供した。これらの記録には、開始時刻、期間、および発呼者および受信者の地理的位置を近似する。統計的な問題について話す前に、この最初のステップが多くの研究者にとって最も難しいものの1つであるかもしれないことを指摘する価値があります。第2章で説明したように、ほとんどの大きなデータソースには研究者がアクセスできません 。電話メタデータは、特に匿名化することは基本的に不可能であり、参加者が敏感であると考える情報をほぼ確実に含んでいるため、特にアクセス不能である(Mayer, Mutchler, and Mitchell 2016; Landau 2016) 。この特定のケースでは、研究者はデータを慎重に保護し、その作業は第三者(IRB)によって監督されました。私は第6章でこれらの倫理的問題にもっと詳しく取り組んでいきます。
ブルームストックは富と幸福を測定することに興味を持っていました。しかし、これらの特性は通話記録に直接は反映されません。言い換えれば、これらの通話記録は、この研究では不完全である。第2章で詳しく説明した大きなデータソースの共通の特徴である。しかし、通話記録には、間接的に富や情報に関する情報を提供する可能性がある幸福。この可能性を考えれば、Blumenstockは、機械学習モデルを訓練して、誰かが通話記録に基づいて調査にどのように応答するかを予測できるかどうかを尋ねました。これが可能であれば、Blumenstockは150万人の顧客全員の調査回答を予測するためにこのモデルを使用することができました。
そのようなモデルを構築して訓練するために、Blumenstockとキガリ科学技術研究所の研究助手は、約1,000人の顧客のランダムサンプルを呼び出しました。研究者はプロジェクトの目標を参加者に説明し、調査の回答をコールレコードに結びつけるための同意を求めた後、「あなたは自分を所有していますか?」などの富と幸福を測定する一連の質問をしました。ラジオ? "と"あなたは自転車を持っていますか? "(部分リストについては図3.14を参照)。調査の全参加者は財政的に補償されていた。
次に、Blumenstockは機械学習で一般的な2ステップの手順を使用しました。まず、 フィーチャエンジニアリングのステップでは、インタビューされたすべての人に対して、ブルームストックはコールレコードを各個人についての一連の特性に変換しました。データ科学者はこれらの特徴を「特徴」と呼ぶことができ、社会科学者はそれらを「変数」と呼ぶことがある。例えば、各人について、Blumenstockは、活動の総日数、人が接触した別個の人々の数、放映時間に費やされた金額などが含まれます。クリティカルには、優れたフィーチャエンジニアリングは研究環境の知識が必要です。たとえば、国内外の通話を区別することが重要な場合(国際的に電話をかけた人が豊かになることが期待される)、フィーチャエンジニアリングの段階でこれを行う必要があります。ルワンダをほとんど理解していない研究者は、この機能を含まない可能性があり、モデルの予測パフォーマンスが低下する可能性があります。
次に、 監視学習ステップで、Blumenstockは、その特徴に基づいて各人の調査応答を予測するモデルを構築した。この場合、Blumenstockはロジスティック回帰を使用しましたが、彼は他の様々な統計的または機械的学習アプローチを使用することができました。
それで、どれくらいうまくいったのですか? Blumenstockは、通話記録から得られた機能を使用して、「あなたはラジオを所有していますか?」や「自転車を所有していますか?彼の予測モデルのパフォーマンスを評価するために、Blumenstockはデータ検証によく使われる手法であるが、社会科学ではほとんど使われない手法であるクロスバリデーションを使用していました。クロスバリデーションの目的は、モデルの予測パフォーマンスを訓練し、異なるサブセットのデータでテストすることによって、モデルの予測パフォーマンスを公平に評価することです。特に、Blumenstockはデータを100人ずつの10チャンクに分割しました。その後、彼はモデルをトレーニングするためにチャンクの9つを使用し、トレーニングされたモデルの予測パフォーマンスを残りのチャンクで評価しました。彼はこの手順を10回繰り返しました。データの各チャンクが検証データとして1回転し、結果を平均しました。
予測の正確さは、いくつかの形質では高かった(図3.14)。たとえば、誰かがラジオを所有していた場合、Blumenstockは97.6%の精度で予測することができます。これは印象的ですが、複雑な予測方法を単純な方法と比較することは常に重要です。この場合、単純な選択肢は、誰もが最も一般的な答えを出すと予測することです。例えば、97.3%の回答者がラジオを所有していると報告していたので、誰かがラジオを所有していると報告しているとBlumenstockが予測した場合、97.3%の正確さを示していました。 。言い換えれば、派手なデータとモデリングでは、予測精度が97.3%から97.6%に向上しました。しかし、「あなたは自転車を持っていますか?」といった他の質問については、予測は54.4%から67.6%に改善されました。より一般的には、図3.15は、いくつかの形質について、Blumenstockは単純なベースライン予測を行うだけでは改善されなかったが、他の形質については改善が見られたことを示している。しかし、これらの結果を見ても、このアプローチが特に有望ではないと思われるかもしれません。
しかし、わずか1年後、BlumenstockとGabriel CadamuroとRobert Onの2人の同僚が、 Scienceで論文を発表しました(Blumenstock, Cadamuro, and On 2015) 。この改善の主な技術的理由は、(1)より洗練された方法(フィーチャ・エンジニアリングに対する新しいアプローチ、フィーチャからの応答を予測するためのより洗練されたモデル)、および(2)個々人への応答を推測しようとするのではなく(例えば、「あなたはラジオを持っていますか?」)、複合財産インデックスを推測しようとしました。これらの技術的な改良により、コールレコードを使用してサンプル中の人々の富を予測する合理的な仕事を行うことができました。
しかし、サンプル中の人々の富を予測することは、研究の最終目標ではありませんでした。究極の目標は、途上国における貧困の正確かつ高精度な見積もりを作成するための標本調査と国勢調査の最善の機能を組み合わせることでした。 Blumenstockらは、この目標を達成する能力を評価するために、モデルとそのデータを使用して、通話記録内の150万人の人々の富を予測しました。そして、各個人のおおよその居住地を推定するために、コール記録に埋め込まれた地理空間情報を使用しました(各コールの最寄りのセルタワーの場所を含むデータを思い出してください)。 Blumenstockらは、これらの2つの推定値をまとめて、加入者財の地理的分布をきわめて細かい粒度で推定しました。例えば、彼らはルワンダの2,148の各セル(国の最小行政単位)の平均富を推計することができた。
これらの見積もりは、これらの地域の実際の貧困レベルとどれだけ一致しましたか?その質問に答える前に、懐疑的な理由がたくさんあることを強調したいと思います。たとえば、個々のレベルで予測を行う能力はかなり騒がしいものでした(図3.17)。そして、おそらくもっと重要なのは、携帯電話を持っている人は、携帯電話を持っていない人とは制度的に異なるかもしれないということです。したがって、Blumenstockらは、私が以前に説明した1936年Literary Digest調査に偏ったカバレッジエラーの種類に苦しむ可能性があります。
彼らの見積もりの質の感覚を得るために、Blumenstockとその同僚は、それらを他と比較する必要がありました。幸運なことに、彼らの研究とほぼ同じ時期に、別の研究者グループがルワンダでより伝統的な社会調査を実施していました。広く尊敬されている人口統計調査および健康調査プログラムの一環であったこの他の調査は、予算が大きく、質の高い従来の方法を使用していました。したがって、人口統計および健康調査からの推定値は、合理的に金標準推定値と見なすことができる。 2つの推定値が比較されたとき、それらはかなり類似していた(図3.17)。言い換えれば、少量の調査データと通話記録を組み合わせることで、Blumenstockとその同僚は、金標準アプローチの見積もりに匹敵する見積もりを生成することができました。
懐疑的な人は、これらの結果を失望と見るかもしれない。結局のところ、それらを見る1つの方法は、大きなデータと機械学習を使用することによって、Blumenstockとその同僚は、既存の方法でより確実に推定できる推定値を生成することができたということです。しかし、私はそれが2つの理由でこの研究について考える正しい方法だとは思わない。第1に、Blumenstockらの推定は、コストが変動費の点で測定された場合、約10倍速く、50倍安くなった。この章の前半で議論したように、研究者は危険にさらされるコストを無視します。この場合、例えば、コストの劇的な減少は、人口統計調査と健康調査の標準であるように、数年ごとに実施されるのではなく、毎月実施される調査であり、研究者や政策に多くの利点をもたらすメーカー。第2の理由は、この研究がさまざまな研究状況に合わせて調整できる基本的なレシピを提供しているということです。このレシピは2つの成分と2つのステップしかありません。 (1)幅広いが薄い(すなわち、人が多く、人それぞれについて必要な情報がない)大きなデータソース、(2)狭いが厚いサーベイ少数の人々が、あなたがそれらの人々について必要とする情報を持っています)。次に、これらの成分を2つのステップで組み合わせる。まず、両方のデータソースのユーザーに対して、大きなデータソースを使用して調査回答を予測する機械学習モデルを構築します。次に、そのモデルを使用して、ビッグデータソースの全員のアンケート回答を代入します。したがって、多くの人に尋ねたい疑問がある場合は、大きなデータソースを気にしなくても 、回答を予測するために使用される可能性のある大きなデータソースを探します。つまり、Blumenstockとその同僚は本質的に通話記録を気にしませんでした。彼らは彼らが心配していた調査回答を予測するために使用することができるので、通話記録だけに気をつけました。ビッグデータソースにおけるこの特性のみの間接的関心事は、私が以前に説明した埋め込み型質問とは異なる質問を増幅しています。
結論として、Blumenstockの増幅されたアプローチは、調査データと大きなデータソースを組み合わせて、金標準の調査と同等の見積もりを生成します。この特定の例はまた、増幅された質問と従来の調査方法との間のトレードオフのいくつかを明確にしている。増幅された質問の見積もりは、よりタイムリーで、実質的に安価で、細かいものでした。しかし、一方で、このような増幅された質問のための強力な理論的根拠はまだない。この1つの例は、このアプローチがいつ有効になるか、そうでない場合には示されておらず、このアプローチを使用する研究者は、大きなデータソースに含まれている人と含まれていない人に起因する可能性のあるバイアスについて特に懸念する必要があります。さらに、増幅された尋ねるアプローチは、まだその推定値の周囲の不確実性を定量化する良い方法を持っていない。幸いなことに、増幅された質問は、小面積推定(Rao and Molina 2015) 、帰属(Rubin 2004) 、およびモデルベースの事後成層(それ自体はP。この章の前半で説明した方法) (Little 1993) 。これらの深いつながりのために、増幅された質問の方法論的基礎の多くはすぐに改善されると私は期待しています。
最後に、Blumenstockの第1回目と第2回目の試みを比較することは、デジタル時代の社会調査についての重要な教訓を示しています。つまり、多くの場合、最初の手法は最善ではありませんが、研究者が作業を続けると、状況は良くなります。より一般的には、デジタル時代のソーシャルリサーチの新しいアプローチを評価する際には、次の2つの異なる評価を行うことが重要です。 (2)データランドスケープが変化し、研究者がその問題にもっと注意を傾けるにつれて、これが将来どの程度うまくいくのでしょうか?研究者は最初の評価をするように訓練されていますが、2番目の評価はしばしば重要です。