Store datakilder tendens til å ha ti kjennetegn; noen er gode for samfunnsforskning og noen er dårlige.
Hvis forskerne kommer til å lære fra store data som de ikke lage eller samle inn, så de må forstå dens generelle egenskaper. Snarere enn å ta en plattform etter plattform tilnærming (f.eks, her er hva du trenger å vite om Twitter, her er hva du trenger å vite om Google-søkedata, etc), kommer jeg til å beskrive ti generelle kjennetegn ved store data, egenskaper som oppstår fordi dataene ikke ble opprettet med det formål samfunnsforskning. Ved å trå tilbake fra detaljene i hvert enkelt system og ser på disse generelle egenskaper, kan forskerne raskt lære mer om eksisterende datakilder og har en fast sett med ideer til å gjelde for fremtidige datakilder.
Jeg synes det er nyttig å gruppere egenskapene inn i to kategorier:
Grovt sett, offentlige administrative registre er mindre non-representant, mindre algoritmer til skamme, og mindre drivende. På den annen side, økonomiske-administrative poster tendens til å bli større og mer alltid-på.