In het analoge tijdperk was het verzamelen van gegevens over gedrag - wie wat doet en wanneer - duur en daarom relatief zeldzaam. Nu worden in het digitale tijdperk miljarden mensen geregistreerd, opgeslagen en geanalyseerd. Telkens wanneer u bijvoorbeeld op een website klikt, op uw mobiele telefoon belt of iets met uw creditcard betaalt, wordt een digitaal overzicht van uw gedrag door een bedrijf gemaakt en opgeslagen. Omdat dit soort gegevens een bijproduct zijn van de dagelijkse handelingen van mensen, worden ze vaak digitale sporen genoemd . Naast deze sporen van bedrijven beschikken overheden ook over ongelooflijk rijke gegevens over zowel mensen als bedrijven. Samen worden deze zakelijke en overheidsrecords vaak big data genoemd .
De immer toenemende stroom van big data betekent dat we zijn verhuisd van een wereld waar gedragsgegevens schaars waren naar een wereld waar gedragsgegevens overvloedig zijn. Een eerste stap naar het leren van big data is het feit dat het deel uitmaakt van een bredere categorie gegevens die al vele jaren wordt gebruikt voor sociaal onderzoek: observatiegegevens . Grofweg zijn observationele gegevens alle gegevens die voortkomen uit het observeren van een sociaal systeem zonder op een of andere manier tussenbeide te komen. Een ruwe manier om erover na te denken is dat observatiegegevens alles is wat niet gepaard gaat met praten met mensen (bijv. Enquêtes, het onderwerp van hoofdstuk 3) of het veranderen van de omgeving van mensen (bijvoorbeeld experimenten, het onderwerp van hoofdstuk 4). Naast observaties van bedrijven en overheden bevatten observationele gegevens dus ook dingen als de tekst van krantenartikelen en satellietfoto's.
Dit hoofdstuk bestaat uit drie delen. Allereerst beschrijf ik in paragraaf 2.2 de big data-bronnen in meer detail en verheldering van een fundamenteel verschil tussen hen en de gegevens die in het verleden typisch voor sociaal onderzoek zijn gebruikt. Vervolgens beschrijf ik in paragraaf 2.3 tien algemene kenmerken van big data-bronnen. Door deze kenmerken te begrijpen, kunt u snel de sterke en zwakke punten van bestaande bronnen herkennen en kunt u de nieuwe bronnen gebruiken die in de toekomst beschikbaar zullen zijn. Ten slotte beschrijf ik in paragraaf 2.4 drie belangrijke onderzoeksstrategieën die je kunt gebruiken om te leren van observatiegegevens: dingen tellen, dingen voorspellen en een experiment benaderen.