2.3.1.1ビッグ

大規模なデータセットは、目的のための手段です。彼らは自分たちで終わりではありません。

ビッグデータの3つの良好な特性の最初はほとんど議論されています。これらはビッグデータです。多くの人、一人当たりのたくさんの情報、または時間をかけて多くの観察:これらのデータソースは、3つの異なる方法で大きなものとなります。大きなデータセットを持つことは、まれな事象を研究小さな差異を検出し、観測データから因果推定を行う、研究測定異質のいくつかの特定のタイプを可能にします。また、だらしの特定のタイプにつながると思われます。

サイズは特に有用であるために最初にすることは、特定のサブグループの見積もりを作るために平均値を超えて移動しています。たとえば、ゲイリー・キング、ジェニファー・パン、そしてモリー・ロバーツ(2013) 、中国のソーシャルメディアの投稿が政府によって検閲されるという確率を測定しました。自身によって削除のこの平均確率は、政府はいくつかの記事ではなく、他の人を検閲理由を理解するために非常に有用ではありません。そのデータセットが1100万の記事が含まれているためしかし、王らはまた、85の別々のカテゴリー(北京例えば、ポルノ、チベット、およびトラフィック)上のポストのための検閲の確率の推定値を生成しました。異なるカテゴリ内の記事のための検閲の確率を比較することにより、彼らは政府がポストの特定の種類の検閲方法と理由についての詳細を理解することができました。 11000投稿(というよりも1100万記事)で、彼らは、これらのカテゴリ固有の推定値を生成することはできなかったでしょう。

第二に、サイズは希少なイベントを検討しているために特に有用です。例えば、Goelさんと同僚ら(2015)ツイートがウイルスに行くことができるさまざまな方法を勉強したかったです。再つぶやきの大カスケードは非常にまれ、約1であるため3000 - 彼らは彼らの分析のために十分な大きさのカスケードを見つけるために10億以上のツイートを勉強する必要がありました。

第三に、大規模なデータセットは、小さな差異を検出する研究者を有効にします。実際には、業界のビッグデータに焦点の多くは、これらの小さな違いについてです:確実に余分な収入の何百万ドルに変換することができ、広告上の1%と1.1%のクリックスルーレートの差を検出します。いくつかの科学的な設定では、このような小さな違いが(彼らは統計学的に有意であっても)特に重要ではないかもしれません。合計で見た場合でも、一部のポリシー設定では、このような小さな違いが重要になることができます。そこに2公衆衛生上の介入があり、一方が他方よりもわずかに効果的である場合たとえば、その後、より効果的な介入への切り替えは、追加の数千人の命を保存してしまう可能性があります。

最後に、大規模なデータセットが大幅に観測データから因果推定を行うために我々の能力を高めます。大規模なデータセットは、基本的に観測データから因果推論を作る際の問題、マッチングと自然実験-2人の研究者が大幅に大規模なデータセットの恩恵を受ける観測データ-両方からの因果主張を作るために開発した手法を変更しませんが。私が説明し、私は研究戦略を説明したときに、この章の後半でより詳細にこの主張を説明します。

大げさでは一般的に正しく使用され、良好な特性であるが、私は大なることが一般的に概念的なエラーにつながることに気付きました。何らかの理由で、大げさでは、それらのデータが生成された方法を無視するように研究者をリードしているようです。大げさにランダム誤差を心配する必要性を軽減しますが、それは実際に系統誤差を心配する必要性を増大 、私はより多くのよりも下で説明しますエラーの種類は、データを作成し、収集された方法でバイアスから生じます。小さなデータセットでは、ランダム誤差と系統誤差の両方が重要になることができますが、大規模なデータセットにランダムエラーが離れて平均化することができるし、系統誤差が支配的。系統誤差について考えていない研究者が間違ったことを正確に推定値を得るために彼らの大きなデータセットを使用して終了します。彼らは正確に不正確になります(McFarland and McFarland 2015)