充実した質問では、測量データは、重要な測定値を含んでいるが大きなものは含まない大きなデータソースの周りにコンテキストを構築します。
調査データと大きなデータソースを組み合わせる1つの方法は、 豊富な質問と呼ぶプロセスです。充実した質問では、大きなデータソースにいくつかの重要な測定値が含まれていますが、他の測定値がないため、調査員はこれらの不足した測定値を調査で収集してから2つのデータソースをリンクします。豊かな尋問の一例は、 Burke and Kraut (2014)がFacebook上で対話して友情の強さを増すかどうかについての研究である。その場合、BurkeとKrautは調査データをFacebookのログデータと組み合わせました。
しかし、BurkeとKrautが働いていたということは、研究者が豊富に尋ねる典型的な2つの大きな問題に対処する必要がないことを意味していました。まず、両方のデータソースに一意の識別子がなく、1つのデータセット内の正しいレコードが正しいレコードと一致することを保証することができれば、個々のレベルのデータセット、つまりレコードリンケージと呼ばれるプロセスを実際にリンクすることは困難です。他のデータセットでは豊かな質問の第2の主な問題は、データが作成されるプロセスが独自のものであり、第2章で説明されている多くの問題の影響を受けやすいため、大きなデータソースの品質が頻繁に評価されないことです。言い換えれば、質の高い質問は、頻繁に、未知の品質のブラックボックスデータソースへの調査のエラーを起こしやすいリンクを伴うことになります。しかし、これらの問題にもかかわらず、豊かな尋問は、米国における投票パターンの研究におけるStephen AnsolabehereとEitan Hersh (2012)が実証したように、重要な研究を行うために使用することができます。
有権者投票率は政治学の広範な研究の対象となっており、過去に投票者とその理由についての研究者の理解は、一般に調査データの分析に基づいていました。しかし、米国での投票は、各市民が投票したかどうかを政府が記録するという珍しい振る舞いです(もちろん、政府は各市民が誰に投票したか記録しません)。長年にわたり、これらの政府の投票記録は、各地のさまざまな地方自治体の官庁に散らばった紙の形態で入手できました。これは、政治学者が選挙の完全なイメージを持ち、実際の投票行動と投票に関するアンケートで人々が言うことを比較することは非常に難しいことですが、不可能ではありませんでした(Ansolabehere and Hersh 2012) 。
しかし、これらの投票記録は現在デジタル化されており、多数の民間企業が全米の投票行動を含む包括的なマスター投票ファイルを作成するために、それらを体系的に収集し合併している。 AnsolabehereとHershは、有権者のより良いイメージを開発するためにマスター投票ファイルを使用するために、これらの企業の1つであるCatalyst LCCと提携しました。さらに、彼らの研究は、データ収集と調和に多大な資源を投入した企業によって収集され、審査されたデジタル記録に依存していたため、企業の支援なしに、またアナログレコードを使用して行われた以前の努力に比べて、
第2章の大きなデータソースの多くと同様、Catalistのマスターファイルには、AnsolabehereとHershが必要とした人口統計、態度、行動情報の多くは含まれていませんでした。実際、彼らは調査での報告された投票行動を検証された投票行動(すなわち、Catalistデータベースの情報)と比較することに特に関心がありました。そこで、AnsolabehereとHershは、この章の前半で説明した大規模な社会調査であるCCESとして、必要なデータを収集しました。その後、彼らはカタリストにデータを渡し、カタリストは、(Catalistaの)有効投票行動、CCESの自己申告投票行動、回答者の人口統計および態度(CCESから)を含む合併データファイルを返した3.13)。言い換えれば、AnsolabehereとHershは投票記録データを調査データと組み合わせて、どちらのデータソースでも個別には不可能だった調査を実施しました。
それらのデータファイルを組み合わせて、AnsolabehereとHershは3つの重要な結論に達しました。第1に、投票の過度の報告が横行している。非投票者のほぼ半数が投票を報告し、誰かが投票を報告した場合、実際に投票した確率は80%に過ぎない。第二に、過剰報告は無作為ではない。過剰報告は、公務に携わっている高所得で、教育を受けた、党派の間でより一般的である。言い換えれば、投票する可能性が最も高い人々も、投票に嘘をつく可能性が最も高い。第3に、最も重大なことに、過度報告の体系的な性質のため、投票者と非投票者の実際の違いは、アンケートからちょうど現れるよりも小さい。たとえば、学士号を持っている人は、投票を報告する可能性が約22パーセンテージポイント高くなりますが、実際に投票する確率は10パーセントポイントに過ぎません。おそらく驚くべきことではないが、既存のリソースベースの投票理論は、誰が実際に投票するかを予測するよりも、投票を報告する人(過去に研究者が使用したデータ)を予測する上ではるかに優れている。したがって、 Ansolabehere and Hersh (2012)の経験的知見は、投票を理解し予測するための新しい理論を必要としている。
しかし、これらの結果をどれだけ信頼すべきでしょうか?これらの結果は、エラー量が不明なブラックボックスデータへのエラーの発生しやすいリンクに依存していることに注意してください。具体的には、(1)多数の異なるデータソースを結合して正確なマスタデータファイルを生成するカタリストの能力、(2)マスタデータファイルにサーベイデータをリンクするカタリストの能力、の2つの重要なステップが必要です。これらのステップはそれぞれ難しく、いずれのステップでもエラーが原因で研究者が誤った結論に陥る可能性があります。しかし、データ処理とリンクの両方は、カタリストが企業として存続する上で非常に重要です。したがって、これらの問題を解決するためのリソースを、多くの場合、学術研究者が対応できない規模で投資することができます。彼らの論文では、AnsolabehereとHershは、これらの2つのステップの結果を確認するためのいくつかのステップを実行します。そのうちのいくつかは独自のものですが、これらのチェックは、調査データをブラックボックスの大きなデータにリンクさせたいソース。
研究者がこの研究から得られる一般的な教訓は何ですか?第1に、大きなデータソースを調査データで充実させ、大きなデータソースで調査データを充実させること(いずれにしてもこの調査を見ることができる)の両方に大きな価値があります。これら2つのデータソースを組み合わせることで、研究者は個別にも不可能なことを行うことができました。第2の一般的な教訓は、カタリストからのデータなどの集計された商業データソースは「真実の真実」とみなされるべきではないが、場合によっては有用であり得ることである。懐疑派は、これらの集計された商用データソースを絶対真理と時々比較し、これらのデータソースが不足していることを指摘します。しかし、この場合、懐疑派は間違った比較をしています。研究者が使用するすべてのデータは、絶対的な真実には足りません。代わりに、集計された商用データ・ソースと、他の利用可能なデータ・ソース(例えば、自己報告投票行動)とを比較することがより良い。最後に、AnsolabehereとHershの研究の第3の一般レッスンでは、多くの民間企業が複雑なソーシャルデータセットを収集して調和させている膨大な投資の恩恵を受けることがある状況があります。