Большие источники данных , как правило, имеют десять характеристик; некоторые из них хороши для социальных исследований и некоторые из них плохо.
Если исследователи собираются извлечь из больших объемов данных, которые они не создавали или собирать, то они должны понимать ее общие характеристики. Вместо того, чтобы брать платформу с помощью платформы подхода (например, вот что вам нужно знать о Twitter, вот что вам нужно знать о данных поиска Google и т.д.), я собираюсь описать десять общих характеристик больших объемов данных, характеристики, которые возникают потому что данные не была создана с целью социальных исследований. По отступая от деталей каждой конкретной системы и, глядя на эти общие свойства, исследователи могут быстро узнать больше о существующих источниках данных и иметь твердую набор идей, чтобы применить к будущим источникам данных.
Я считаю полезным сгруппировать характеристики на две категории:
Грубо говоря, государственные административные записи являются менее нерепрезентативная, менее алгоритмически посрамлена, и менее дрейфующих. С другой стороны, бизнес-административные документы, как правило, более крупные и всегда на.