Nie-verteenwoordigende data is sleg vir buite-monster-veralgemenings, maar kan redelik nuttig wees vir binne-vergelykings.
Sommige sosiale wetenskaplikes is gewoond daaraan om te werk met data wat voortspruit uit 'n probabilistiese ewekansige steekproef uit 'n goed gedefinieerde bevolking, soos alle volwassenes in 'n spesifieke land. Hierdie soort data word verteenwoordigende data genoem omdat die steekproef die groter bevolking verteenwoordig. Baie navorsersprys verteenwoordigende data, en sommige verteenwoordigende data is sinoniem met streng wetenskap, terwyl nie-verteenwoordigende data sinoniem is met slordigheid. In die uiterste geval lyk sommige skeptici om te glo dat niks van nie-verteenwoordigende data geleer kan word nie. As dit waar is, lyk dit ernstig om te beperk wat uit groot databronne geleer kan word, omdat baie van hulle nie verteenwoordigend is nie. Gelukkig is hierdie skeptici slegs gedeeltelik reg. Daar is sekere navorsingsdoelwitte waarvoor nie-verteenwoordigende data duidelik nie goed gepas is nie, maar daar is ander wat dit eintlik redelik nuttig kan wees.
Om hierdie onderskeid te verstaan, kom ons kyk na 'n wetenskaplike klassieke: John Snow se studie van die 1853-54 cholera-uitbraak in Londen. In die tyd het baie dokters geglo dat cholera deur 'n slegte lug veroorsaak is, maar Sneeu het geglo dat dit 'n aansteeklike siekte was, wat moontlik deur rioolwater gesuiwer is. Om hierdie idee te toets, het Snow gebruik gemaak van wat ons nou 'n natuurlike eksperiment kan noem. Hy vergelyk die cholera-tariewe van huishoudings wat deur twee verskillende watermaatskappye bedien word: Lambeth en Southwark & Vauxhall. Hierdie maatskappye het soortgelyke huishoudings gedien, maar hulle het op een belangrike manier verskil: in 1849 - 'n paar jaar voor die epidemie begin het - het Lambeth sy inname punt verbystroom vanaf die hoofwaterafvoer in Londen, terwyl Southwark & Vauxhall hul innamepyp stroomaf van die rioolafvoer. Toe Sneeu die sterftesyfers van cholera in huishoudings wat deur die twee maatskappye gedien word, vergelyk het, het hy bevind dat die kliënte van Southwark & Vauxhall, die maatskappy wat klere aan die klere verskaf het, 10 keer meer geneig was om cholera te sterf. Hierdie resultaat bied sterk wetenskaplike bewyse vir Snow se argument oor die oorsaak van cholera, hoewel dit nie op 'n verteenwoordigende steekproef van mense in Londen gebaseer is nie.
Die data van hierdie twee maatskappye sou egter nie ideaal wees om 'n ander vraag te beantwoord nie. Wat was die voorkoms van cholera in Londen tydens die uitbreek? Vir die tweede vraag, wat ook belangrik is, sal dit baie beter wees om 'n verteenwoordigende steekproef van mense uit Londen te hê.
Soos Sneeu se werk illustreer, is daar enkele wetenskaplike vrae waarvoor nie-verteenwoordigende data redelik effektief kan wees en daar is ander wat dit nie goed geskik is nie. 'N Ruwe manier om hierdie twee soorte vrae te onderskei, is dat sommige vrae oor binne-monstervergelykings handel, en sommige handel oor buite-monster-veralgemenings. Hierdie onderskeid kan verder geïllustreer word deur 'n ander klassieke studie in epidemiologie: die British Doctors Study, wat 'n belangrike rol gespeel het in die bewys dat rook kanker veroorsaak. In hierdie studie het Richard Doll en A. Bradford Hill ongeveer 'n paar jaar lank ongeveer 25 000 manlike dokters gevolg. Hulle het hul sterftesyfers vergeleke met die hoeveelheid wat hulle gerook het toe die studie begin het. Doll and Hill (1954) het 'n sterk blootstelling-respons verhouding aangetref: hoe swaarder mense het gerook, hoe meer waarskynlik hulle van longkanker moes sterf. Dit is natuurlik onwys om die voorkoms van longkanker onder alle Britse mense te bepaal, gegrond op hierdie groep manlike dokters, maar die vergelyking tussen die steekproef lewer steeds bewys dat rookkanker veroorsaak word.
Noudat ek die verskil tussen tussen-steekproefvergelykings en buite-monster-veralgemenings geïllustreer het, is twee voorbehoude in orde. Eerstens is daar natuurlik vrae oor die mate waarin 'n verhouding wat in 'n steekproef van manlike Britse dokters plaasvind, ook in 'n steekproef van vroulike, Britse dokters of manlike Britse fabriekswerkers of vroulike Duitse fabriekswerkers of baie ander groepe sal hou. Hierdie vrae is interessant en belangrik, maar hulle verskil van vrae oor die mate waarin ons van 'n steekproef tot 'n bevolking kan veralgemeen. Let byvoorbeeld daarop dat jy vermoedelik vermoed dat die verhouding tussen rook en kanker wat in manlike Britse dokters gevind is, waarskynlik in hierdie ander groepe gelyk sal wees. Jou vermoë om hierdie ekstrapolasie te doen, kom nie uit die feit dat manlike Britse dokters 'n probabilistiese ewekansige steekproef uit enige populasie is nie; eerder kom dit uit 'n begrip van die meganisme wat rook en kanker verbind. So is die veralgemening van 'n steekproef tot die bevolking uit 'n groot mate 'n statistiese kwessie, maar vrae oor die vervoerbaarheid van patrone wat in een groep na 'n ander groep gevind word, is grotendeels 'n nie- (Pearl and Bareinboim 2014; Pearl 2015) kwessie (Pearl and Bareinboim 2014; Pearl 2015) .
Op hierdie stadium kan 'n skeptici daarop wys dat die meeste sosiale patrone waarskynlik minder vervoerbaar is oor groepe as die verhouding tussen rook en kanker. En ek stem saam. Die mate waarin ons van patrone verwag om vervoerbaar te wees, is uiteindelik 'n wetenskaplike vraagstuk wat op teorie en bewyse gebaseer moet word. Daar moet nie outomaties aanvaar word dat patrone vervoerbaar sal wees nie, maar dit moet ook nie aanvaar word dat hulle nie vervoerbaar sal wees nie. Hierdie ietwat abstrakte vrae oor vervoerbaarheid sal vir u bekend wees as u die debatte gevolg het oor hoeveel navorsers oor menslike gedrag kan leer deur voorgraadse studente te studeer (Sears 1986, [@henrich_most_2010] ) . Ten spyte van hierdie debatte, sou dit egter onredelik wees om te sê dat navorsers niks van die studie van voorgraadse studente kan leer nie.
Die tweede voorbehoud is dat die meeste navorsers met nie-verteenwoordigende data nie so versigtig soos Snow or Doll and Hill is nie. Dus, om te illustreer wat verkeerd kan gaan as navorsers probeer om 'n buitensporige veralgemening van nie-verteenwoordigende data te maak, wil ek jou vertel van 'n studie van die 2009-Duitse parlementêre verkiesing deur Andranik Tumasjan en kollegas (2010) . Deur meer as 100 000 tweets te analiseer, het hulle bevind dat die verhouding van tweets wat 'n politieke party genoem het, ooreenstem met die persentasie stemme wat die party in die parlementêre verkiesing ontvang het (figuur 2.3). Met ander woorde, dit blyk dat Twitter-data, wat in wese vry was, tradisionele publieke opinie-opnames kan vervang, wat duur is weens hul klem op verteenwoordigende data.
Gegee wat jy waarskynlik reeds van Twitter weet, moet jy dadelik skepties wees oor hierdie uitslag. Duitsers op Twitter in 2009 was nie 'n probabilistiese ewekansige steekproef van Duitse kiesers nie, en ondersteuners van party partye kan veel meer gereeld oor die politiek as ondersteuners van ander partye praat. Dit blyk dus verbasend dat al die moontlike vooroordeel wat jy kan voorstel, op een of ander manier sal kanselleer sodat hierdie data direk van Duitse kiesers weerspieël sal word. Trouens, die resultate in Tumasjan et al. (2010) was te goed om waar te wees. 'N Opvolgdokument deur Andreas Jungherr, Pascal Jürgens en Harald Schoen (2012) daarop gewys dat die oorspronklike analise die politieke party wat eintlik die meeste op Twitter ontvang het, uitgesluit het: die Pirate Party, 'n klein party wat regeringsregulasie van die internet. Toe die Pirate Party in die analise ingesluit is, word Twitter genoem 'n vreeslike voorspeller van verkiesingsuitslae (figuur 2.3). Soos hierdie voorbeeld illustreer, kan die gebruik van nie-verteenwoordigende groot databronne om buite-monster-veralgemenings te doen, baie verkeerd gaan. U moet ook opmerk dat die feit dat daar 100.000 tweets bestaan, basies irrelevant was. Baie van die nie-verteenwoordigende data is nog nie verteenwoordigend nie, 'n tema wat ek weer in hoofstuk 3 sal weergee wanneer ek opnames bespreek.
Ter afsluiting is baie groot databronne nie verteenwoordigende monsters van sommige goed gedefinieerde populasies nie. Vir vrae wat algemene resultate vereis van die monster na die populasie waaruit dit getrek is, is dit 'n ernstige probleem. Maar vir vrae oor binne-monster vergelykings, kan nie-verteenwoordigende data kragtig wees, solank navorsers duidelik is oor die eienskappe van hul steekproef en ondersteun eise oor vervoerbaarheid met teoretiese of empiriese bewyse. Trouens, ek hoop dat groot databronne navorsers in staat sal stel om meer binne-steekvergelykings in baie nie-verteenwoordigende groepe te maak en my raai is dat skattings uit baie verskillende groepe meer sal doen om sosiale navorsing te bevorder as 'n enkele skatting van 'n probabilistiese willekeur monster.