Большие источники данных, как правило, имеют ряд общих характеристик; некоторые из них в целом хороши для социальных исследований, а некоторые, как правило, плохи.
Несмотря на то, что каждый большой источник данных различен, полезно заметить, что есть определенные характеристики, которые имеют тенденцию возникать снова и снова. Поэтому, вместо того, чтобы принимать поэтапный подход (например, вот что вам нужно знать о Twitter, вот что вам нужно знать о данных поиска Google и т. Д.), Я собираюсь описать десять общих характеристик больших источники данных. Возвращаясь к деталям каждой конкретной системы и рассматривая эти общие характеристики, ученые могут быстро узнать о существующих источниках данных и иметь твердый набор идей для применения к источникам данных, которые будут созданы в будущем.
Несмотря на то, что желаемые характеристики источника данных зависят от цели исследования, я считаю, что полезно грубо группировать десять характеристик по двум широким категориям:
Поскольку я описываю эти характеристики, вы заметите, что они часто возникают из-за того, что большие источники данных не были созданы для целей исследования.