2.3ビッグデータの10の共通特性

大きなデータソースには多くの特性が共通している傾向があります。いくつかは一般的に社会調査に適しており、いくつかは一般的に悪いです。

それぞれの大きなデータソースが区別されていても、繰り返し発生する傾向がある特定の特性があることに気づくと便利です。したがって、プラットフォームごとにアプローチするのではなく(例えば、Twitterについて知っておくべきこと、ここでGoogle検索データなどについて知っておくべきことがあります)、bigの10の一般的な特性について説明しますデータソース。特定のシステムの詳細を確認し、これらの一般的な特性を調べることで、研究者は既存のデータソースをすばやく学び、将来作成されるデータソースに適用する一連のアイディアを得ることができます。

データソースの望ましい特性が研究目標に依存しているにもかかわらず、10の特性を次の2つの大きなカテゴリに大雑把にグループ化することが有用であることがわかります。

  • 一般的に研究に役立つ:大、常時オン、非反応
  • 一般的に研究には問題がある:不完全、アクセス不能、非代表、漂流、アルゴリズム的混乱、汚れ、敏感

私はこれらの特徴を説明しているので、大きなデータソースは研究の目的で作られていないため、しばしば発生することに気付くでしょう。