Het maakt niet uit hoe groot uw big data is, hij heeft waarschijnlijk niet de informatie die u zoekt.
De meeste big data-bronnen zijn onvolledig , in die zin dat ze niet de informatie bevatten die u voor uw onderzoek wilt hebben. Dit is een algemene functie van gegevens die zijn gemaakt voor andere doeleinden dan onderzoek. Veel sociale wetenschappers hebben al ervaring met het omgaan met onvolledigheden, zoals een bestaande enquête die de vraag niet stelde die nodig was. Helaas zijn de problemen van onvolledigheid vaak extremer in big data. Naar mijn ervaring missen big data meestal drie soorten informatie die nuttig zijn voor sociaal onderzoek: demografische informatie over deelnemers, gedrag op andere platforms en gegevens om theoretische constructies te operationaliseren.
Van de drie soorten incompleetheden is het probleem van onvolledige gegevens om theoretische constructies te operationaliseren het moeilijkst op te lossen. En in mijn ervaring wordt het vaak per ongeluk over het hoofd gezien. Ruwweg zijn theoretische constructies abstracte ideeën die sociale wetenschappers bestuderen en operationaliseren van een theoretisch construct, wat inhoudt dat ze een manier bieden om dat construct te vangen met waarneembare gegevens. Helaas blijkt dit eenvoudig klinkende proces vaak vrij moeilijk te zijn. Laten we ons bijvoorbeeld eens voorstellen empirisch de schijnbaar eenvoudige bewering te testen dat mensen die intelligenter zijn, meer geld verdienen. Om deze bewering te testen, moet u 'intelligentie' meten. Maar wat is intelligentie? Gardner (2011) voerde aan dat er in feite acht verschillende vormen van intelligentie zijn. En zijn er procedures die een van deze vormen van intelligentie nauwkeurig kunnen meten? Ondanks enorme hoeveelheden werk van psychologen, hebben deze vragen nog steeds geen eenduidige antwoorden.
Dus zelfs een relatief eenvoudige claim - mensen die intelligenter zijn, meer geld verdienen - kan moeilijk zijn om empirisch te beoordelen, omdat het moeilijk kan zijn om theoretische constructies in data te operationaliseren. Andere voorbeelden van theoretische concepten die belangrijk zijn maar moeilijk te operationaliseren zijn onder andere “normen”, “sociaal kapitaal” en “democratie”. Sociale wetenschappers noemen de wedstrijd tussen theoretische concepten en data constructvaliditeit (Cronbach and Meehl 1955) . Zoals deze korte lijst met constructen suggereert, is constructvaliditeit een probleem waar sociale wetenschappers al heel lang mee worstelen. Maar in mijn ervaring zijn de problemen van constructvaliditeit zelfs nog groter wanneer wordt gewerkt met gegevens die niet zijn gemaakt voor onderzoeksdoeleinden (Lazer 2015) .
Wanneer u een onderzoeksresultaat beoordeelt, is een snelle en nuttige manier om constructvaliditeit te beoordelen, het resultaat te nemen, dat gewoonlijk wordt uitgedrukt in termen van constructies, en het opnieuw uit te drukken in termen van de gebruikte gegevens. Beschouw bijvoorbeeld twee hypothetische studies die beweren te laten zien dat mensen die intelligenter zijn meer geld verdienen. In de eerste studie ontdekte de onderzoeker dat mensen die goed scoren op de Raven Progressive Matrices-test - een goed bestudeerde test van analytische intelligentie (Carpenter, Just, and Shell 1990) - hoger gerapporteerde inkomsten hebben op hun belastingaangiften. In de tweede studie ontdekte de onderzoeker dat mensen op Twitter die langere woorden gebruikten, eerder luxe merken vermelden. In beide gevallen konden deze onderzoekers beweren dat zij hebben aangetoond dat mensen die intelligenter zijn meer geld verdienen. In de eerste studie zijn de theoretische constructies echter goed geoperationaliseerd door de gegevens, terwijl ze in de tweede studie dat niet zijn. Verder, zoals dit voorbeeld illustreert, lossen meer gegevens problemen met constructvaliditeit niet automatisch op. U moet twijfelen aan de resultaten van de tweede studie of het gaat om een miljoen tweets, een miljard tweets of een biljoen tweets. Voor onderzoekers die niet bekend zijn met het idee van constructvaliditeit, geeft tabel 2.2 enkele voorbeelden van onderzoeken die theoretische constructies hebben geoperationaliseerd met behulp van digitale traceergegevens.
Databron | Theoretische constructie | Referenties |
---|---|---|
E-maillogboeken van een universiteit (alleen meta-gegevens) | Sociale relaties | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Social media-berichten op Weibo | Maatschappelijk engagement | Zhang (2016) |
E-maillogboeken van een bedrijf (metagegevens en volledige tekst) | Culturele fit in een organisatie | Srivastava et al. (2017) |
Hoewel het probleem van onvolledige gegevens voor het vastleggen van theoretische constructies vrij moeilijk op te lossen is, bestaan er gemeenschappelijke oplossingen voor de andere veelvoorkomende soorten onvolledigheden: onvolledige demografische informatie en onvolledige informatie over gedrag op andere platforms. De eerste oplossing is om daadwerkelijk de gegevens te verzamelen die u nodig hebt; Ik zal je dat in hoofdstuk 3 vertellen als ik je vertel over enquêtes. De tweede belangrijkste oplossing is om te doen wat data-wetenschappers gebruikersattribuut-gevolgtrekking noemen en sociale wetenschappers imputatie noemen. In deze benadering gebruiken onderzoekers de informatie die ze bij sommige mensen hebben om attributen van andere mensen af te leiden. Een derde mogelijke oplossing is om meerdere gegevensbronnen te combineren. Dit proces wordt ook wel recordkoppeling genoemd . Mijn favoriete metafoor voor dit proces is geschreven door Dunn (1946) in de allereerste alinea van de allereerste paper die ooit op een recordlink werd geschreven:
"Elke persoon in de wereld creëert een Book of Life. Dit boek begint met de geboorte en eindigt met de dood. De pagina's zijn opgebouwd uit verslagen van de belangrijkste gebeurtenissen in het leven. Record koppeling is de naam die wordt gegeven aan het proces van het samenstellen van de pagina's van dit boek in een volume. "
Toen Dunn die passage schreef, stelde hij zich voor dat het boek des levens belangrijke levensgebeurtenissen als geboorte, huwelijk, echtscheiding en dood zou kunnen omvatten. Nu echter zoveel informatie over mensen is vastgelegd, zou het boek des levens een ongelooflijk gedetailleerd portret kunnen zijn, als die verschillende pagina's (dat wil zeggen, onze digitale sporen) aan elkaar kunnen worden gebonden. Dit boek van het leven zou een geweldige bron voor onderzoekers kunnen zijn. Maar het kan ook een database van ruïne worden genoemd (Ohm 2010) , die kan worden gebruikt voor allerlei onethische doeleinden, zoals ik in hoofdstuk 6 (Ethiek) zal beschrijven.