2.2ビッグデータ

大きなデータは、研究以外の目的で企業や政府によって作成され、収集されます。したがって、このデータを研究に使用すると、再利用が必要になります。

多くの人々がデジタル時代に社会調査に遭遇する最初の方法は、しばしばビッグデータと呼ばれる方法です。この用語の普及にもかかわらず、大きなデータが何であるかについてはコンセンサスがありません。しかし、ビッグデータの最も一般的な定義の1つは、ボリューム、バラエティ、およびベロシティの3つのVsに焦点を当てています。大まかに言えば、さまざまな形式のデータがあり、常に作成されています。ビッグデータのファンには、VeracityやValueなどの他の「Vs」も追加されていますが、一部の評論家はVagueやVacuousなどのVを追加します。 3 "Vs"(または5 "Vs"または7 "Vs")ではなく、社会調査の目的のために、私はより良い場所を5 "Ws"と呼んでいます:Who、What、Where、When 、 なぜ。実際、大きなデータソースによって生み出される課題や機会の多くは、ただ1つの「W」に従うと考えています。なぜですか?

アナログ時代には、社会調査のために使用されたデータの大部分が研究目的で作成されました。しかし、デジタル時代になると、企業以外の政府や政府は、サービスの提供、利益の創出、法律の管理など、研究以外の目的で大量のデータを作成しています。しかし、創造的な人々は、あなたが研究のためにこの企業および政府のデータを再利用できることを認識しています。第1章の芸術の類推に戻ると、Duchampが発見されたオブジェクトを再利用して芸術を創造するのと同じように、科学者は発見されたデータを再利用して研究を作成できるようになりました。

研究目的のために作成されたものではないデータを使用することは、間違いなく再利用のための大きな機会ですが、新たな課題も生じます。 Twitterなどのソーシャルメディアサービスと、一般社会調査などの伝統的な世論調査を比較します。 Twitterの主な目標は、ユーザーにサービスを提供し、利益を上げることです。一方、一般社会調査は、特に世論調査のための社会調査のための汎用データの作成に焦点を当てている。この目標の違いは、世論調査のために使用できるものの、Twitterによって作成されたデータと一般社会調査によって作成されたデータが異なるプロパティを持つことを意味します。 Twitterは一般社会調査と比較することができない規模とスピードで動作しますが、一般社会調査とは異なり、ユーザーを慎重にサンプリングするのではなく、時間の経過とともに比較可能性を維持するために熱心に働きません。これらの2つのデータソースは非常に異なるため、一般社会調査がTwitterよりも優れていると言っても意味はありません。グローバルな気分(例えばGolder and Macy (2011) )の時間単位の測定が必要な場合は、Twitterが最適です。一方、米国の態度の偏りの長期的変化(例えば、 DiMaggio, Evans, and Bryson (1996) )を理解したい場合は、一般社会調査が最良の選択です。より一般的には、大きなデータソースが他のタイプのデータより優れているか悪いと主張するのではなく、大きなデータソースがどのような種類の研究に疑問を投げかけているのかを明らかにする理想的。

大きなデータソースについて考えると、多くの研究者は、検索エンジンのログやソーシャルメディアの投稿など、企業が作成して収集するオンラインデータにすぐに注目しています。しかしながら、この狭い焦点は、大きなデータの2つの他の重要な情報源を省いている。第1に、ますます大きくなる企業の大きなデータソースは、物理的な世界のデジタルデバイスからもたらされます。たとえば、この章では、従業員の生産性が同僚の生産性にどのように影響しているかを調査するために、スーパーマーケットのチェックアウトデータを再利用した調査について説明します(Mas and Moretti 2009) 。後の章では、携帯電話からの電話記録(Blumenstock, Cadamuro, and On 2015)と電気ユーティリティ(Allcott 2015) (Blumenstock, Cadamuro, and On 2015)で作成した課金データを使用した研究者について説明します。これらの例が示すように、企業規模の大きなデータソースは、単なるオンライン動作だけではありません。

オンライン行動に焦点を当てていない大きなデータの第2の重要な原因は、政府によって作成されたデータです。研究者が政府行政記録と呼ぶこれらの政府データには、納税記録、学校記録、重要な統計記録(例えば、出生および死亡の記録)などが含まれます。政府は、何百年もの間、こうした種類のデータを作成しており、社会科学者は、社会科学者がいる限り、それらを悪用してきました。しかし、変化したのはデジタル化であり、政府がデータの収集、送信、保管、分析を大幅に容易にしました。たとえば、この章では、労働経済学における根本的な議論に取り組むために、ニューヨーク市政府のデジタルタクシーメーターからデータを再利用した研究について説明します(Farber 2015) 。後の章では、政府が収集した投票記録が調査(Ansolabehere and Hersh 2012)と実験(Bond et al. 2012) (Ansolabehere and Hersh 2012)でどのように使われたかについて説明します。

私は、再利用のアイデアは大きなデータソースから学ぶための基本的なものだと思うので、大きなデータソース(セクション2.3)のプロパティとそれらを研究(セクション2.4)でどのように使うことができるかについて具体的に話す前に、再利用に関する2つの一般的なアドバイスを提供する。まず、「発見された」データと「設計された」データとの間のコントラストについて考えることが魅力的です。それは近いですが、それほど正しいことではありません。研究者の視点から見ると、大きなデータソースは「発見」されていても、空から落ちるだけではありません。代わりに、研究者によって「発見」されたデータソースは、何らかの目的で誰かによって設計されています。 「見つかった」データは誰かによって設計されたものなので、データを作成した人やプロセスについてできるだけ多くのことを理解するようにしてください。第2に、データを再利用するときには、問題の理想的なデータセットを想像し、その理想的なデータセットと使用しているデータセットを比較することが非常に役に立ちます。自分でデータを収集しなかった場合、あなたが望むものと持っているものとの間に重要な違いが生じる可能性があります。これらの違いに気づくと、あなたが持つデータから学ぶことができないことを明確にし、収集すべき新しいデータを示唆するかもしれません。

私の経験では、社会科学者とデータ科学者は、再利用のアプローチに非常に異なる傾向があります。研究用に設計されたデータを扱うことに慣れている社会科学者は、典型的には、再利用されたデータの問題点を指摘し、その強みを無視しています。一方、データ科学者は、典型的には、再利用されたデータの利点を、その弱点を無視して迅速に指摘しています。もちろん、最良のアプローチはハイブリッドです。つまり、研究者は、大規模なデータソースの特徴(良きものと悪いもの両方)を理解し、それらから学ぶ方法を理解する必要があります。それがこの章の残りの計画です。次のセクションでは、大きなデータソースの10の共通の特性について説明します。次に、以下のセクションでは、このようなデータでうまくいく3つの研究アプローチについて説明します。