2.3 Vanlige kjennetegn ved big data

Store datakilder tendens til å ha ti kjennetegn; noen er gode for samfunnsforskning og noen er dårlige.

Hvis forskerne kommer til å lære fra store data som de ikke lage eller samle inn, så de må forstå dens generelle egenskaper. Snarere enn å ta en plattform etter plattform tilnærming (f.eks, her er hva du trenger å vite om Twitter, her er hva du trenger å vite om Google-søkedata, etc), kommer jeg til å beskrive ti generelle kjennetegn ved store data, egenskaper som oppstår fordi dataene ikke ble opprettet med det formål samfunnsforskning. Ved å trå tilbake fra detaljene i hvert enkelt system og ser på disse generelle egenskaper, kan forskerne raskt lære mer om eksisterende datakilder og har en fast sett med ideer til å gjelde for fremtidige datakilder.

Jeg synes det er nyttig å gruppere egenskapene inn i to kategorier:

generelt bra for forskning: stor, alltid-på, ikke-reaktiv
generelt dårlig for forskning: ufullstendig, utilgjengelige, ikke-representativ, drivende, algoritmer til skamme, utilgjengelige, skitne, og sensitive

Grovt sett, offentlige administrative registre er mindre non-representant, mindre algoritmer til skamme, og mindre drivende. På den annen side, økonomiske-administrative poster tendens til å bli større og mer alltid-på.