2.1 Inleiding

In het analoge tijdperk, het verzamelen van gegevens over het gedrag van-wie doet wat als-was duur, en dus relatief zeldzaam. Nu, in het digitale tijdperk, het gedrag van miljarden mensen zijn opgenomen, opgeslagen en analyseerbaar. Bijvoorbeeld, elke keer als u klikt op een website, maak een gesprek op uw mobiele telefoon, of betalen voor iets met uw creditcard, wordt een digitaal overzicht van uw gedrag aangemaakt en opgeslagen door een bedrijf. Omdat deze gegevens een bijproduct van mensen dagelijks handelingen, worden ze vaak digitale sporen. In aanvulling op deze sporen in het bezit van bedrijven, overheden hebben ook ongelooflijk rijke data over zowel de mensen en bedrijven, data die vaak gedigitaliseerd en analyseerbaar. Samen vormen deze bedrijfsleven en de overheid records worden vaak genoemd big data.

De steeds toenemende stroom van big data betekent dat we uit een wereld zijn verhuisd, waar behavioural data schaars was naar een wereld waar behavioural data is er in overvloed. Maar omdat dit soort gegevens zijn relatief nieuw, een ongelukkige bedrag van onderzoek met behulp van hen ziet eruit als wetenschappers blindelings achterna beschikbare gegevens. Dit hoofdstuk, in plaats daarvan biedt een principiële benadering voor het begrijpen van de verschillende gegevensbronnen en hoe ze kunnen worden gebruikt. Dit rijker inzicht moet helpen beter overeenkomen met uw onderzoeksvragen naar geschikte bronnen van de gegevens. Of, indien dergelijke bestaande bronnen ontbreken, te overtuigen om uw eigen gegevens te verzamelen met behulp van de ideeën in de toekomst hoofdstukken.

Een eerste stap om te leren van big data is om te beseffen dat het deel uitmaakt van een bredere categorie van de gegevens die zijn gebruikt voor het sociaal onderzoek voor vele jaren: waarnemingsgegevens. Ruwweg, observationele gegevens zijn alle gegevens die voortvloeit uit het observeren van een sociaal systeem zonder in te grijpen op een bepaalde manier. Een ruwe manier om na te denken over het is dat observationele data is alles wat niet gepaard gaat praten met mensen (bv, enquêtes, het onderwerp van hoofdstuk 3) of veranderende omgevingen van mensen (bijvoorbeeld experimenten, het onderwerp van hoofdstuk 4). Dus, in aanvulling op het bedrijfsleven en de overheid records waarnemingsgegevens omvat ook dingen zoals de tekst van krantenartikelen en satellietfoto's.

Dit hoofdstuk bestaat uit drie delen. Ten eerste, in paragraaf 2.2, beschrijf ik big data nader te verduidelijken en een fundamenteel verschil tussen haar en de gegevens die in het algemeen zijn gebruikt voor sociaal onderzoek in het verleden. Dan, in paragraaf 2.3, beschrijf ik tien gemeenschappelijke kenmerken van big data bronnen. Inzicht in deze kenmerken stelt ons in staat om de sterke en zwakke punten van bestaande bronnen snel te herkennen en zal ons helpen benutten van de nieuwe bronnen die zullen worden gecreëerd in de toekomst. Tot slot, in paragraaf 2.4, beschrijf ik drie belangrijke onderzoek strategieën die je kunt gebruiken om te leren van observationele data: het tellen van dingen, forecasting dingen, en benaderen van een experiment.