大きなデータソースはどこにでもありますが、ソーシャルリサーチに使用するのは難しいことがあります。私の経験では、データのための「自由なランチ」ルールのようなものがあります:あなたがそれを集める仕事をたくさん入れていないならば、おそらくそれについて考えなければならないでしょう。それを分析する。
今日の大きなデータソース - そして明日の可能性 - は10の特徴を持つ傾向があります。これらのうちの3つは、一般的に(常にそうとは限らないが)研究に役立つ:大きく、常時オン、非反応的である。不完全で、アクセス不能であり、非代表的であり、漂流しており、アルゴリズム的に混乱していて、汚い、そして敏感であるという7つの研究(一般的ではない)が研究上問題である。これらの特性の多くは、ソーシャルリサーチの目的で大きなデータソースが作成されなかったために最終的に発生します。
この章のアイデアに基づいて、大きなデータソースがソーシャルリサーチにとって最も価値のある3つの主な方法があると私は思っています。第一に、研究者は競合する理論予測の間で決定することができます。この種の作品の例としては、 Farber (2015) (ニューヨークタクシー運転手)、 King, Pan, and Roberts (2013) (中国での検閲)などがあります。第2に、大きなデータソースは、現在のキャスティングを通じてポリシーの測定を向上させることができます。この種の研究の例は、 Ginsberg et al. (2009) (Google Flu Trends)最後に、大きなデータソースは、実験を実行せずに研究者が因果推定を行うのに役立ちます。このような仕事の例として、 Mas and Moretti (2009) (生産性に関するピアエフェクト)とEinav et al. (2015) (eBayでのオークション開始時の価格の影響)しかし、これらのアプローチのそれぞれは、推定に重要な量の定義や競合する予測を行う2つの理論など、研究者にデータを大量に提供する必要があります。したがって、大きなデータソースができることを考える最良の方法は、興味深い重要な質問をすることができる研究者を助けることができるということです。
結論の前に、大きなデータソースがデータと理論との関係に重要な影響を及ぼす可能性があることを考慮する価値があると私は考える。これまで、この章では、理論主導の経験的研究のアプローチをとった。しかし、大きなデータソースでも、研究者は経験に基づいた理論化を行うことができます。すなわち、経験的な事実、パターン、およびパズルを慎重に蓄積することによって、研究者は新しい理論を構築することができます。この代替的な、データへの最初の理論へのアプローチは新しいものではなく、Barney GlaserとAnselm Strauss (1967)によって、 根底にある理論が必要とされていることによって最も強く表現された。しかし、このデータファーストのアプローチは、デジタル時代の研究に関するジャーナリズムのいくつか(Anderson 2008)主張されているように、「理論の終わり」を意味するものではありません。むしろ、データ環境が変化するにつれて、データと理論との関係が再調整されることを期待する必要があります。データ収集が高価な世界では、理論が示唆しているデータだけを収集することが最も有用となりました。しかし、膨大な量のデータがすでに無料で利用可能な世界では、データ優先アプローチ(Goldberg 2015)試みるのも理にかなっています。
この章で示したように、研究者は人を見て多くのことを学ぶことができます。次の3つの章では、私たちがデータ収集を調整し、質問をする(第3章)、実験を実行する(第4章)、さらにはそれらを関与させることによって、より直接的に人々とやりとりすることによって、研究プロセスでは直接的に(第5章)。