それは厄介なことができるにもかかわらず、濃縮された提示は強力することができます。
デジタルトレースデータの不完全性に対処する別のアプローチは、調査データ、私が濃縮された提示を呼ぶプロセスに直接それを豊かにすることです。濃縮された提示の一例は、の研究であるBurke and Kraut (2014)私は以前の章(3.2節)で、Facebook上で相互作用すると友情の強さを増加させるかどうかについて説明し、。その場合には、バークとドイツ人はFacebookのログデータと調査データを組み合わせました。
バークとドイツ人がで働いていた設定が、しかし、彼らは研究者は富む尋ねる顔をしている二つの大きな問題に対処する必要がなかったことを意味しました。まず、実際に一緒にレコードリンケージと呼ばれるプロセスのデータ・セットをリンクする、他の中で適切なレコードを持つ1データセット内のレコードのマッチング困難でエラーが発生しやすいことがデータセットは、することができます(私たちは、以下のこの問題の例を参照してくださいよ)。濃縮された提示の第二の主な問題は、デジタル・トレースの品質が頻繁に研究者が評価するのは難しいだろうということです。例えば、時にはそれが収集されるプロセスは、独自に開発したものであり、他の言葉では、第2章で説明する多くの問題の影響を受けやすい可能性があり、濃縮された提示は頻繁に未知のブラックボックスのデータソースへの調査のエラーが発生しやすいリンクを含むであろう品質。この2つの問題が紹介懸念にもかかわらず、それはスティーブンAnsolabehereとエイタン・ハーシュによって証明されたとして、この戦略で重要な研究を行うことができる(2012)米国での投票パターンに彼らの研究に。 Ansolabehereとハーシュは、開発戦略の多くは、濃縮された提示の他の用途に有用であろうので、いくつかの詳細に本研究の上に行くことは価値があります。
投票率は、政治学の広範な研究の対象となっており、過去に、投票を、なぜ誰の研究者の理解は、一般的に調査データの分析に基づいています。米国で投票、しかし、それぞれの市民が投票したかどうかという政府の記録に異常な動作です(もちろん、政府がために誰が各市民の票を記録しません)。長年にわたり、これらの政府の投票記録は、全国の様々な地方政府のオフィスに散在する、紙のフォーム上で利用可能でした。これは、難しいが、不可能ではない政治的な科学者が有権者の全体像を持っているし、人々が実際の投票行動に投票についてのアンケートに言うことを比較するために作られた(Ansolabehere and Hersh 2012)
しかし、今、これらの投票記録は、デジタル化されており、民間企業の数は、体系的に収集し、すべてのアメリカ人の投票行動を記録する総合的なマスター投票ファイルを生成するために、これらの投票記録を合併しています。 Ansolabehereとハーシュは、有権者のより良い絵の開発を支援するために彼らのマスター投票ファイルを使用するためにLCC-これらの企業-Catalistの一つと提携しました。それは会社によって収集し、キュレーションデジタル記録に依存していたので、また、それは企業の助けを借りずに、アナログレコードを使用して行われていた研究者による以前の努力に勝るいくつかの利点を提供しました。
第2章デジタルトレースソースの多くと同様に、CatalistマスタファイルはAnsolabehereとハーシュは、必要に応じて、人口統計学的態度、行動情報の多くが含まれていませんでした。この情報に加えて、Ansolabehereとハーシュは検証投票行動(Catalistデータベース内すなわち、情報)に報告された投票行動を比較する際に特に興味を持っていました。だから、研究者は協同組合議会選挙研究(CCES)、大規模な社会調査の一環として、望んでいたデータを収集しました。次に、研究者はCatalistにこのデータを与えた、とCatalistはバックCCESから(Catalistから)検証済み投票行動を含めたマージされたデータファイル、(CCESから)自己申告の投票行動と回答者の人口統計や態度を(研究者を与えました)。言い換えれば、Ansolabehereとハーシュは、調査データと投票データを豊かにし、結果として得られるマージされたファイルは、どちらのファイルを個別に有効に何かをすることができるようになります。
調査データとCatalistマスタデータファイルを豊かにすることにより、Ansolabehereとハーシュには、3つの重要な結論に達しました。まず、過報告投票の横行である:非有権者のほぼ半分が投票を報告しました。それとも、それを見て別の方法は、誰かが投票を報告した場合、彼らが実際に投票していることを唯一の80%のチャンスがあります。第二に、オーバー報告はランダムではありません。過報告公務に従事している高所得、高学歴、パルチザンの間でより一般的です。言い換えれば、投票する可能性が最も高いの人々はまた、投票を偽る可能性が最も高いです。第三に、そして最も重要なものは、理由オーバー報告の体系的性質のために、有権者と非投票者間の実際の違いは、彼らはただの調査から見えるよりも小さくなっています。例えば、大卒のものが約22%ポイントは、投票を報告する可能性が高くなりますが、実際の投票の唯一の10%ポイント可能性が高くなります。また、投票の既存のリソースベースの理論は誰実際に投票より投票、新しい理論を理解し、投票を予測するための呼び出しを経験的知見が報告されます誰が予測はるかに優れています。
しかし、どのくらい我々はこれらの結果を信頼する必要がありますか?これらの結果は、エラーの未知の量のブラックボックスデータにエラーが発生しやすいリンクに依存して覚えておいてください。具体的には、結果は二つの重要なステップにかかっ:1)正確なマスター・データ・ファイルおよび2)そのマスター・データ・ファイルへの調査データをリンクするCatalistの能力を生成するために、多くの異なるデータソースを組み合わせることCatalistの能力。これらの各ステップは非常に困難であり、いずれかの段階でエラーが間違った結論に研究者を導くことができました。それは多くの場合、研究者のない個々の学術研究者やグループが一致しないことができる規模で、これらの問題を解決するに資源を投入することができますので、しかし、データ処理およびマッチングの両方が企業としてCatalistの存続に不可欠です。章の最後でさらに読書では、私はより多くの詳細とどのようにAnsolabehereとハーシュは、その結果の信頼性を構築する中で、これらの問題について説明します。これらの詳細は、この研究に固有のものですが、これらに類似の問題は、ブラックボックスデジタルトレースデータ・ソースへのリンクを希望する他の研究者のために発生します。
研究者はこの研究から引き出すことができる一般的な教訓は何ですか?まず、調査データとデジタル・トレースを豊かから非常に大きな価値があります。第二に、これらの凝集にもかかわらず、商業的データソースは、「グランドトゥルース」と考えるべきではない、いくつかのケースではそれらは有用であり得ます。実際には、それが(彼らはいつも及ばないだろう、そこから)ない絶対的な真実にこれらのデータソースを比較するのが最善です。むしろ、常に、同様のエラーを持っている他の利用可能なデータソースにそれらを比較することをお勧めします。