2.3 Fælles karakteristika for big data

Big datakilder tendens til at have ti karakteristika; nogle er gode til social forskning og nogle er dårlige.

Hvis forskerne vil lære fra store data, at de ikke skaber eller indsamle, så de må forstå dens generelle kendetegn. Snarere end at tage en platform ved platform tilgang (f.eks, her er hvad du behøver at vide om Twitter, her er hvad du behøver at vide om Google-søgning data, osv), vil jeg beskrive ti generelle kendetegn ved store data, karakteristika, der opstår fordi dataene ikke er oprettet med henblik på social forskning. Ved at træde tilbage fra detaljerne i hvert enkelt system, og se på disse generelle egenskaber, kan forskerne hurtigt lære mere om de eksisterende datakilder og har en fast sæt ideer til at gælde for fremtidige datakilder.

Jeg finder det nyttigt at gruppere egenskaberne i to kategorier:

generelt god til forskning: store, altid-on, ikke-reaktivt
generelt dårligt for forskning: ufuldstændig, utilgængelige, ikke-repræsentant, drifting, algoritmisk forvirret, utilgængelige, beskidt, og følsom

Groft sagt, offentlige administrative registre er mindre ikke-repræsentant, mindre algoritmisk forvirret, og mindre drivende. På den anden side, business administrative registre tendens til at være større og mere altid-on.