2.1 Indledning

I den analoge tidsalder, indsamle data om adfærd-hvem der gør hvad, når-var dyrt, og derfor relativt sjældne. Nu, i den digitale tidsalder, adfærd af milliarder af mennesker registreres, opbevares, og analyserbare. For eksempel, hver gang du klikker på en hjemmeside, foretage et opkald på din mobiltelefon, eller betale for noget med dit kreditkort, er en digital registrering af din adfærd oprettet og gemt af en virksomhed. Fordi disse data er et biprodukt af folks daglige handlinger, er de ofte kaldes digitale spor. Ud over disse spor, som virksomheder, regeringer har også utrolig rig data om både mennesker og virksomheder, data, som ofte digitaliseret og analyserbare. Sammen disse forretninger og offentlige registre kaldes ofte store data.

Den stadig stigende strøm af big data betyder, at vi har bevæget os fra en verden, hvor adfærdsmæssige data var knappe til en verden, hvor adfærdsmæssige data er rigeligt. Men, fordi disse typer data er relativt nyt, en uheldig mængde af forskning bruge dem ligner videnskabsmænd blindt jagter tilgængelige data. Dette kapitel i stedet tilbyder en principiel tilgang til at forstå de forskellige datakilder, og hvordan de kan bruges. Dette rigere forståelse bør hjælpe dig til bedre at matche dine forskningsspørgsmål til relevante datakilder. Eller, hvis sådanne eksisterende kilder mangler, overbevise dig om at samle dine egne data ved hjælp af de idéer i fremtidige kapitler.

Et første skridt til at lære af big data, er at indse, at det er en del af en bredere kategori af data, som er blevet brugt til social forskning i mange år: observationsdata. Groft, observationelle data er data, der er resultatet af at observere et socialt system uden at gribe ind på en eller anden måde. En rå måde at tænke på det er, at observationelle data er alt, der ikke involverer at tale med mennesker (f.eks undersøgelser, emnet for kapitel 3), eller ændre folks miljøer (f.eks eksperimenter, emne for kapitel 4). Således, i tillæg til erhvervslivet og offentlige registre, observationsdata også ting som teksten i avisartikler og satellitfotos.

Dette kapitel har tre dele. Først i afsnit 2.2, jeg beskrive store data mere detaljeret og klarlægge en grundlæggende forskel mellem det og de data, der er generelt blevet anvendt til social forskning i fortiden. Så, i afsnit 2.3, jeg beskrive ti fælles karakteristika af store datakilder. Forståelsen af disse egenskaber gør os i stand til hurtigt at genkende de stærke og svage sider eksisterende kilder og vil hjælpe os udnytte nye kilder, der vil blive oprettet i fremtiden. Endelig i afsnit 2.4, jeg beskrive tre vigtigste forskningsstrategier, som du kan bruge til at lære af observationelle data: tælle ting, prognoser ting, og tilnærme et eksperiment.