Niet-representatieve gegevens zijn slecht voor out-of-sample-generalisaties, maar kunnen erg handig zijn voor vergelijkingen binnen een steekproef.
Sommige sociale wetenschappers zijn gewend om te werken met gegevens die afkomstig zijn van een probabilistische willekeurige steekproef uit een goed gedefinieerde populatie, zoals alle volwassenen in een bepaald land. Dit soort gegevens wordt representatieve gegevens genoemd omdat het monster de grotere populatie "vertegenwoordigt". Veel onderzoekers geven representatieve gegevens, en tot op zekere hoogte is representatieve gegevens synoniem met rigoureuze wetenschap, terwijl niet-representatieve gegevens synoniem zijn voor slordigheid. In het uiterste geval lijken sommige sceptici te geloven dat niets kan worden geleerd van niet-representatieve gegevens. Als dit waar is, lijkt dit ernstig te beperken wat kan worden geleerd van big data-bronnen, omdat veel van hen niet-representatief zijn. Gelukkig hebben deze sceptici maar gedeeltelijk gelijk. Er zijn bepaalde onderzoeksdoelen waarvoor niet-representatieve gegevens duidelijk niet geschikt zijn, maar er zijn andere waarvoor het eigenlijk best nuttig zou kunnen zijn.
Om dit onderscheid te begrijpen, laten we een wetenschappelijke klassieker beschouwen: de studie van John Snow over de cholera-uitbraak in 1853-54 in Londen. In die tijd geloofden veel artsen dat cholera werd veroorzaakt door "slechte lucht", maar Snow geloofde dat het een infectieziekte was, misschien verspreid door rioolwater-geregen drinkwater. Om dit idee te testen, profiteerde Snow van wat we nu een natuurlijk experiment zouden kunnen noemen. Hij vergeleek de cholera-cijfers van huishoudens die worden bediend door twee verschillende waterbedrijven: Lambeth en Southwark & Vauxhall. Deze bedrijven dienden vergelijkbare huishoudens, maar ze verschilden op een belangrijke manier: in 1849 - een paar jaar voordat de epidemie begon - verhuisde Lambeth zijn innamepunt stroomopwaarts van de hoofdafvoer van rioolwater in Londen, terwijl Southwark & Vauxhall hun inlaatpijp stroomafwaarts van de riolering. Toen Snow de sterftecijfers van cholera in huishoudens die door de twee bedrijven werden bediend, vergeleek, ontdekte hij dat klanten van Southwark & Vauxhall - het bedrijf dat klanten rioolwater bezorgde - tien maal meer kans hadden om te sterven aan cholera. Dit resultaat levert sterk wetenschappelijk bewijs voor het argument van Snow over de oorzaak van cholera, ook al is het niet gebaseerd op een representatieve steekproef van mensen in Londen.
De gegevens van deze twee bedrijven zouden echter niet ideaal zijn om een andere vraag te beantwoorden: wat was de prevalentie van cholera in Londen tijdens de uitbraak? Voor die tweede vraag, die ook belangrijk is, zou het veel beter zijn om een representatieve steekproef van mensen uit Londen te hebben.
Zoals het werk van Snow illustreert, zijn er enkele wetenschappelijke vragen waarvoor niet-representatieve gegevens vrij effectief kunnen zijn en er zijn andere waarvoor het niet goed geschikt is. Een grove manier om deze twee soorten vragen te onderscheiden is dat sommige vragen betrekking hebben op vergelijkingen binnen een steekproef en sommige gaan over out-of-sample generalisaties. Dit onderscheid kan verder worden geïllustreerd door een andere klassieke studie in epidemiologie: de British Doctors Study, die een belangrijke rol speelde in het aantonen dat roken kanker veroorzaakt. In deze studie volgden Richard Doll en A. Bradford Hill ongeveer 25.000 mannelijke artsen gedurende verschillende jaren en vergeleken hun sterftecijfers op basis van het aantal dat ze rookten toen de studie begon. Doll en Hill (1954) vonden een sterke relatie tussen blootstelling en reactie: hoe meer mensen rookten, hoe groter de kans dat ze zouden sterven aan longkanker. Natuurlijk zou het onverstandig zijn om de prevalentie van longkanker bij alle Britse mensen op basis van deze groep mannelijke artsen te schatten, maar de vergelijking binnen de steekproef levert nog steeds bewijs dat roken longkanker veroorzaakt.
Nu dat ik het verschil tussen interne steekproefvergelijkingen en out-of-sample generalisaties heb geïllustreerd, zijn twee waarschuwingen op zijn plaats. Ten eerste zijn er natuurlijk vragen over de mate waarin een relatie binnen een steekproef van mannelijke Britse artsen ook zal bestaan uit een steekproef van vrouwelijke, Britse artsen of mannelijke Britse fabrieksarbeiders of vrouwelijke Duitse fabrieksarbeiders of vele andere groepen. Deze vragen zijn interessant en belangrijk, maar ze verschillen van vragen over de mate waarin we kunnen generaliseren van een steekproef naar een populatie. Merk bijvoorbeeld op dat u waarschijnlijk vermoedt dat de relatie tussen roken en kanker die werd aangetroffen bij mannelijke Britse artsen waarschijnlijk vergelijkbaar zal zijn in deze andere groepen. Uw vermogen om deze extrapolatie te doen, komt niet van het feit dat mannelijke Britse artsen een probabilistische willekeurige steekproef zijn uit welke populatie dan ook; het komt eerder uit een begrip van het mechanisme dat roken en kanker met elkaar verbindt. Aldus is de generalisatie van een steekproef naar de populatie waaruit wordt getrokken grotendeels een statistische kwestie, maar vragen over de transporteerbaarheid van patronen in de ene groep naar een andere groep zijn grotendeels een niet- (Pearl and Bareinboim 2014; Pearl 2015) onderwerp (Pearl and Bareinboim 2014; Pearl 2015) .
Op dit punt kan een scepticus erop wijzen dat de meeste sociale patronen waarschijnlijk minder draagbaar zijn in groepen dan de relatie tussen roken en kanker. En ik ga akkoord. De mate waarin we verwachten dat patronen transporteerbaar zijn, is uiteindelijk een wetenschappelijke vraag die moet worden beslist op basis van theorie en bewijs. Er mag niet automatisch worden aangenomen dat patronen kunnen worden getransporteerd, maar er mag ook niet van worden uitgegaan dat ze niet vervoerbaar zijn. Deze enigszins abstracte vragen over transporteerbaarheid zullen je bekend voorkomen als je de debatten hebt gevolgd over hoeveel onderzoekers over menselijk gedrag kunnen leren door het studeren van niet-gegradueerden (Sears 1986, [@henrich_most_2010] ) . Ondanks deze debatten zou het echter onredelijk zijn om te zeggen dat onderzoekers niets van het studeren van studenten kunnen leren.
Het tweede voorbehoud is dat de meeste onderzoekers met niet-representatieve gegevens niet zo voorzichtig zijn als Snow, Doll en Hill. Dus, om te illustreren wat er mis kan gaan als onderzoekers proberen om een out-of-sample generalisatie uit niet-representatieve data te maken, wil ik je graag vertellen over een studie van de Duitse parlementsverkiezingen van Andranik Tumasjan 2009 en collega's (2010) . Door meer dan 100.000 tweets te analyseren, ontdekten ze dat het aantal tweets dat een politieke partij vermeldde, overeenkwam met het aantal stemmen dat de partij bij de parlementsverkiezingen had ontvangen (figuur 2.3). Met andere woorden, het bleek dat Twitter-gegevens, die in wezen gratis waren, de traditionele enquêtes van de publieke opinie konden vervangen, die duur zijn vanwege hun nadruk op representatieve gegevens.
Gezien wat u waarschijnlijk al over Twitter weet, moet u onmiddellijk sceptisch staan tegenover dit resultaat. Duitsers op Twitter in 2009 waren geen probabilistische willekeurige steekproef van Duitse kiezers, en aanhangers van sommige partijen zouden veel vaker over politiek kunnen tweeten dan supporters van andere partijen. Het lijkt dus verrassend dat alle mogelijke vooroordelen die je je zou kunnen voorstellen op een of andere manier zouden worden opgeheven, zodat deze gegevens direct een afspiegeling zouden zijn van de Duitse kiezers. In feite zijn de resultaten in Tumasjan et al. (2010) bleek te mooi om waar te zijn. Een follow-up paper van Andreas Jungherr, Pascal Jürgens en Harald Schoen (2012) wees erop dat de oorspronkelijke analyse de politieke partij die de meeste vermeldingen op Twitter had gekregen, had uitgesloten: de Piratenpartij, een kleine partij die regeringswetgeving bestrijdt van internet. Toen de Piratenpartij in de analyse werd opgenomen, wordt de melding van Twitter een vreselijke voorspeller van verkiezingsresultaten (figuur 2.3). Zoals in dit voorbeeld wordt geïllustreerd, kan het gebruik van niet-representatieve big data-bronnen voor het uitvoeren van out-of-sample-generalisaties zeer verkeerd zijn. Ook zou je moeten opmerken dat het feit dat er 100.000 tweets waren in principe irrelevant was: veel niet-representatieve gegevens zijn nog steeds niet-representatief, een thema waar ik in hoofdstuk 3 op terugkeer wanneer ik enquêtes bespreek.
Tenslotte zijn veel big data-bronnen geen representatieve voorbeelden van een goed gedefinieerde populatie. Voor vragen waarvoor gegeneraliseerde resultaten van het monster moeten worden gebruikt naar de populatie waaruit het is getrokken, is dit een serieus probleem. Maar voor vragen over interne vergelijkingen tussen monsters kunnen niet-representatieve gegevens krachtig zijn, zolang onderzoekers duidelijk zijn over de kenmerken van hun steekproef en beweringen over transporteerbaarheid ondersteunen met theoretisch of empirisch bewijs. In feite hoop ik dat grote gegevensbronnen onderzoekers in staat zullen stellen om meer in-steekproef vergelijkingen te maken in veel niet-representatieve groepen, en ik vermoed dat schattingen van veel verschillende groepen meer zullen doen om sociaal onderzoek te bevorderen dan een enkele schatting van een probabilistische willekeurige monster.