アナログ時代には、何が何をし、誰が何をし、いつ、高価で、したがって比較的まれであるかという行動に関するデータを収集しました。現在、デジタル時代には、何十億という人々の行動が記録され、保存され、分析可能です。たとえば、ウェブサイトをクリックするか、携帯電話で電話をかけるか、クレジットカードで何かを支払うたびに、行動のデジタル記録が作成され、ビジネスによって保存されます。これらのタイプのデータは人々の日々の行動の副産物であるため、しばしばデジタルトレースと呼ばれます 。政府は企業が保有するこれらの痕跡に加えて、人と企業の両方について信じられないほど豊富なデータを持っています。これらのビジネス記録と政府記録はともに、しばしばビッグデータと呼ばれます 。
ますます増加する大きなデータの洪水は、行動データが不足している世界から、行動データが豊富な世界に移動したことを意味します。大規模なデータから学ぶための第一歩は、それが長年にわたり社会調査に使用されている広範囲のデータカテゴリの一部であることを認識しています 。概して、観測データは、何らかの介入なしに社会システムを観察した結果のデータです。観察データは、人々との話し合い(例えば、調査、第3章の話題)や人の環境の変化(例えば、第4章の話題)を含まないものであることを考えると、したがって、ビジネスや政府の記録に加えて、観測データには、新聞記事や衛星写真などのテキストも含まれます。
この章には3つの部分があります。まず第2.2節で、大きなデータソースをより詳細に説明し、過去の社会調査で一般的に使用されてきたデータとの根本的な違いを明確にします。次に、2.3節で大きなデータソースの10の共通特性を説明します。これらの特性を理解することで、既存の情報源の長所と短所を迅速に認識し、将来利用できる新しい情報源を活用するのに役立ちます。最後に、第2.4節では、観測データから学ぶために使用できる3つの主要な研究戦略、すなわち物事の数え方、物事予測、実験の近似について説明します。