ビッグデータが作成され、研究以外の目的のために政府によって収集されます。研究のためにこのデータを使用し、従って、再利用を必要とします。
社会調査の理想化されたビューは、科学者がアイデアを持って、そのアイデアをテストするためのデータを収集想像します。研究のこのスタイルは、研究の質問とデータ間のタイトフィットにつながるが、個々の研究者は、多くの場合、このような、大規模な豊かな、そして全国的に代表的なデータとして、彼らが必要とするデータを収集するために必要なリソースを持っていないので、それは限られています。そのため、過去の社会的研究の多くは、このような一般的な社会調査(GSS)、米国選挙調査(ANES)、および所得ダイナミクスのパネル調査(PSID)などの大規模な社会調査を、使用しています。これらの大規模な調査では、一般的に、研究者のチームによって実行され、それらは多くの研究者によって使用可能なデータを作成するように設計されています。これらの大規模な調査の目的のため、細心の注意は、データ収集を設計し、研究者が使用するために、得られたデータを作成するに入れられます。これらのデータは、研究者によってや研究者のためのものです。
デジタル時代のソースを使用して、ほとんどの社会的な研究は、しかし、根本的に異なります。代わりに、研究者によって研究者のために収集されたデータを使用するのではなく、そのような、利益を作るサービスを提供する、または法律の管理など、独自の目的のために企業や政府によって作成され、収集されたデータソースを使用しています。これらの企業と政府のデータソースは、 ビッグデータと呼ばれるようになってきました。ビッグデータで研究を行うと、もともと研究のために作成されたデータとの研究を行うよりも異なっています。このような一般的な社会調査(GSS)などの従来の世論調査で、例えば、ツイッターなどのソーシャルメディアのウェブサイトを、比較してください。 Twitterの主な目標は、そのユーザーにサービスを提供し、利益を上げることになっています。これらの目標を達成する過程で、Twitterは世論の特定の側面を研究するために有用であるかもしれないデータを作成します。しかし、一般的な社会調査(GSS)とは異なり、Twitterのは、主に社会的な研究に焦点を当てていません。
用語ビッグデータはいらいら曖昧であり、それを一緒にグループ多くの異なるものを。社会調査の目的のために、私はビッグデータ・ソースの2種類を区別することが有用であると思う:。政府行政記録やビジネス行政記録の政府行政記録日常活動の一環として、政府によって作成されたデータです。レコードのこれらの種類は、そのような過去、婚姻、死亡記録 - しかし、政府はますます出産収集と分析可能な形で詳細な記録を発表している研究人口統計学者としての研究者によって使用されています。たとえば、ニューヨーク市政府は市内のすべてのタクシーの内部デジタルメーターを設置しました。これらのメーターはドライバー、開始時間と場所、停止時間と場所、および運賃を含む各タクシーで約すべての種類のデータを記録します。私は、この章の後半で教えてあげるの研究では、ヘンリー・ファーバー(2015)時給や勤務時間数の関係について、労働経済学の基本的な議論に対処するために、これらのデータを再利用しました。
社会調査のためのビッグデータの第二の主なタイプは、 ビジネス行政記録です。これらは、ビジネスは日常活動の一環として作成し、収集したデータです。これらのビジネス行政記録は、多くの場合、 デジタル・トレースと呼ばれ、検索エンジンのクエリログなどが含まれ、ソーシャルメディアの投稿、携帯電話からレコードを呼び出しています。批判的に、これらの事業の管理レコードはちょうどオンライン行動についてではありません。例えば、チェックアウトのスキャナを使用する店舗は、労働者の生産性のリアルタイムの対策を作成しています。私は約この章の後半にあなたを教えてあげるの研究では、アレクサンドル・マスとエンリコ・モレッティ(2009)労働者の生産性は、仲間の生産性の影響を受ける方法を研究するために、このスーパーマーケットのチェックアウトデータを再利用しました。
これらの例の両方が示すように、再利用のアイデアは、ビッグデータからの学習の基本です。私の経験では、社会科学者およびデータ科学者は、これは非常に異なる転用に近づきます。研究のために設計されたデータでの作業に慣れている社会科学者は、その強みを無視して再利用データの問題をすぐに指摘しています。一方、データ科学者は、その弱点を無視して再利用データの利点をすぐに指摘しています。当然のことながら、最善のアプローチは、ハイブリッドであろう。つまり、研究者は、データの両方の良い面と悪い-、その後は彼らから学ぶする方法を見つけ出すのこれらの新しい情報源の特性を理解する必要があり、です。そして、それは、この章の残りの部分のための計画です。次に、私はビジネスと政府の管理データの10の共通の特徴を説明します。その後、私は、これらのデータと共に使用することができる3つの研究アプローチは、このデータの特性に適している手法について説明します。