Net-represintative gegevens binne ferkeard foar out-of-sample generalizations, mar kinne ek hiel brûkber wêze foar binnen-echte fergeliking.
Guon sosjale wittenskippers binne gewoan te wurkjen mei gegevens dy't komme fan in probabilistyske willekeurich probleem út in goed bepaalde befolking, lykas alle folwoeksenen yn in bepaalde lân. Dizze soarte fan gegevens wurdt fertsjintwurdige gegevens neamd, omdat de echte "fertsjintwurdiget" de gruttere befolking. In soad ûndersikers prize represintative gegevens, en foar guon, fertsjintwurdigende gegevens binne synonym mei rigele wittenskip, wylst nonrepresentative gegevens synonym is mei sloppens. Op it meast ekstreem sjogge guon skeptiken dat net leard wurde kin fan net-represintative gegevens. As wier, dan soe it wêze dat it gruttendiels beheind wurdt wat leard wurde kin út grutte data boarnen omdat in soad fan har net represintatyf binne. Gelokkich binne dizze skeptikingen mar inkeld rjochts. Der binne bepaalde ûndersyksdoelen foar hokker net-represintative gegevens dúdlik net goed oanwêzich binne, mar der binne oaren foar wêr't it feitlik krekt brûkber wêze kin.
Om dit ûnderskied te begripen, litte wy in wittenskiplik klassiker beskôgje: John Snow's stúdzje fan 'e cholera-útbrek fan 1853 oant 54 yn Londen. Op dat stuit leauwe in protte dokters dat koerera waard troch "min lucht" feroarsake, mar Snie leaude dat it in ynfeksje wie, mar miskien ferspraat troch seewetter drinkwetter. Om dit idee te hifkjen, naam Snowboard foardiel fan wat wy no in natuerlik eksperimint neame. Hy fergelike de koartere tariven fan húshâldens tsjinne troch twa ferskillende wetterbedriuwen: Lambeth en Southwark & Vauxhall. Dizze bedriuwen tsjinnen lykwols hokker húshâldings, mar se ûnderskiede op ien wichtige manier: yn 1849 - in pear jier foardat de epidemie begon-Lambeth ferhuze it ynletpunt opstream fan 'e wichtichste riolearring yn Londen, wylst Southwark & Vauxhall harren ynlaatpûle nei de stream fan de seewage ôfslach. As snie fergelike de deapriorren fan 'e kolera yn húshâldingen dy't tsjintwurdich troch de beide bedriuwen tsjinne, fûn er dat klanten fan Southwark & Vauxhall - it bedriuw dat kofje fan wetterwetter opsloech, - 10 kear wierskynlik stjerre fan' e kolera. Dit resultaat leveret sterke wittenskiplike bewiis foar Snow argument oer de oarsaak fan kolera, al is it net basearre op in represintative perioade fan minsken yn Londen.
De gegevens fan dizze twa bedriuwen lykwols soe net ideaal wêze foar it beäntwurdzjen fan in oare fraach: wat wie de prevalens fan kolera yn Londen yn 'e útbrek? Foar dy twadde fraach, dy't ek wichtich is, soe it in protte better wêze om in represintative probleem fan minsken út Londen te hawwen.
As Schnee's wurk yllustrearret, binne der guon wittenskiplike fragen wêrby't net-represintative gegevens gewoan effektyf binne en der binne oaren foar hokker net goed oanwêzich binne. Ien rûge manier om dizze twa soarten fragen te ûnderskieden is dat guon fragen oer binnen-samling-fergeliking binne en guon binne oer útgeande generalisaasjes. Dizze ûnderskieding kin fierder yllustrearre wurde troch in oare klassike stúdzje yn epidemyology: de Britske doktoraal Studie, dy't in wichtige rol spile hat yn demonstrearjen dat it smoken feroarsaakt kanker. Yn dizze stúdzje folgen Richard Doll en A. Bradford Hill sa'n 25.000 manlike dokters en ferskate jierren en fergelike harren dea-tariven basearre op it bedrach dat se smoarden doe't de stúdzje begon. Doll and Hill (1954) fûn in sterke eksposysje-antwurd-ferhâlding: de heuleren minsken smieten de hyltyd dat se stjerre moasten fan longkanker. Fansels soe it net wis wêze om de prestaasjes fan longkanker foar alle Britske minsken te basearjen op grûn fan dizze groep manlike dokters, mar it binnen-samling fergeliking jout noch oan dat it smoken feroarsaak longkanker.
No, dat ik it ferskil tusken binnen-echte fergelikingskrêften en bûtengewoane generalisaasjes yllustrearje, binne twa behearen yn oarder. Earst binne der fansels fragen oer hoef in relaasje dy't binnen in samling fan manlike Britske dokters hâldt sil ek binnen in echte fraach fan froulike, Britske dokters of manlike Britske fabriekarbeiders of froulike Dútske fabrikanten of in protte oare groepen hâlde. Dizze fragen binne ynteressant en wichtich, mar se binne ferskillend fan fragen oer hoe hokker we kinne fan in probleem generalisearje nei in befolking. Notysje, bygelyks, dat jo wierskynlik fertelle dat de relaasje tusken fiksje en kanker dy't fûn is yn manlike Britske dokters, wierskynlik wêze sil yn dizze oare groepen. Jo fermogen om dizze ekstrapolaasje te dwaan, komt net út it feit dat manlike Britske dokters in probabilistysk willekeurich probleem fan elke befolking binne; Earder, it komt út in begripen fan 'e meganisaasje dy't keppelje fan smoken en kanker. De ferhaling fan in probleem oan 'e befolking fan' e gegevens is in foar in statistysk probleem, mar fragen oer de ferfiersbarkeit fan patroanen dy't fûn binne yn ien groep nei in oare groep is foar in grut part in nonstatistyske probleem (Pearl and Bareinboim 2014; Pearl 2015) .
Op dit punt kin in skeptik opmerke dat de measte maatskiplike patroanen wierskynlik minder transporteare binne oer groepen as de relaasje tusken it smoken en it kanker. En ik stel mei. De yn hoefier't wy ferlet fan patroanen ferwachtsje moatte, is úteinlik in wittenskiplike fraach dy't besletten wurde moat op basis fan teory en bewiis. It moat net automatysk oannommen wurde dat patroanen ferfarber wurde, mar ek wurde net oannommen dat se net ferfierber wêze kinne. Dizze lytse abstrakte fragen oer transportfeardichheid sille jo bekend wêze as jo de debatten hawwe oangeande hoefolle ûndersikers learje kinne oer minskehoutsjen troch studearje ûnderwittende studinten (Sears 1986, [@henrich_most_2010] ) . Nettsjinsteande dizze debatten soe it lykwols ûnferbidlik wêze moatte om te sizzen dat ûndersikers net leard wurde kinne fan it studearjen fan studinten.
De twadde behertiging is dat de measte ûndersikers mei net-represintative gegevens net sa assichtich binne as Snow of Doll and Hill. Sa, om yllustrearje wat kin ferkeard wurde as ûndersikers besykje in algemienalisaasje fan 'e echte samlerjen fan net-represintative gegevens te meitsjen, soe ik jo graach sizze oer in stúdzje fan' e Dútse parlemintêre ferkiezings fan 2009 troch Andranik Tumasjan en kollega's (2010) . Troch analysearje mear as 100.000 tweets, fûnen se dat it oanbod fan tweets oanjûn dat in politike partij it part fan stimmen oangie dat partij yn 'e parlemintêre ferkiezings ûntfong (figuer 2.3). Mei oare wurden, it ferskynde dat Twittergegevens, dy't yn essinsjefree wie, kinne tradisjoneel publike mieningûndersiken ferfange, dy't djoer binne troch har klam op fertsjintwurdige gegevens.
Sjoen wat jo wierskynlik al witte oer Twitter, moatte jo fuortendaliks skepysk wêze. Dûmny's op Twitter yn 2009 wiene net in probabilistysk willekeurich probleem fan Dútske kiezers, en oanwêzigen fan guon partijen koene tweet oer polityk faker faak as supporters fan oare partijen. Sa liket it ferrassend dat alle mooglike foardielen dy't jo miskien foarkomme soene útbrekke soene dat dizze gegevens direkt reflektyf wêze kinne fan Dútske kiezers. In feite, de resultaten yn Tumasjan et al. (2010) wie net te goed te wêzen om wier te wêzen. In folgjende papier fan Andreas Jungherr, Pascal Jürgens en Harald Schoen (2012) wize dat de oarspronklike analyze de politike partij útsluten dy't de measte mentions op Twitter krigen hat: de Piratepartij, in lytse partij dy't it regearregulaasje fan it ynternet. Doe't de Piratenpartij yn 'e analyze waard opnommen, waard Twitter in fûle presidint fan ferkiezingsresultaten (figuer 2.3). As dit foarbyld illustratearret, kinne gebrûk fan nonrepresentative grutte gegevensboarnen om útgeande generalisaasjes út te dwaan kinne tige ferkeard wurde. Ek moatte jo bepale dat it feit dat 100.000 tweets yn 't gefal binne: in protte net-represintative gegevens binne noch net-represintative, in tema dat ik weromkomt yn haadstik 3 as ik oerlissings besprekke.
Om te sluten binne in soad grutte gegevensboarnen net fertsjintwurdige samples fan guon goed begrypende befolking. Foar fragen dy't de resultaten fan it probleem fergrutend ferwiderje om de befolking út te fieren, wêrtroch't dat tekene waard, is dit in serieuze probleem. Mar foar fragen oer binnenprobeaze fergeliken kinne net-represintative gegevens krêftich wêze, sa lang as ûndersikers dúdlik binne oer de skaaimerken fan har sampling en stipefermogen oer ferfiersbetingsten mei teoretyske of empiryske bewiis. Yn 't feit is myn hope dat grutte data boarnen de ûndersikers ynskeakelje kinne om mear ynteressante fergelikings te meitsjen yn in protte net-represintative groepen, en myn tinken is dat de skatten fan in protte ferskillende groepen mear dwaan om sosjaal ûndersyk te dwaan as in ienige skatting fan in probabilistyske willekeur foarbyld.