Net-Representativ Daten sinn schlecht fir Out-of-sample Verallgemeeschterungen, awer ka ganz nëtzlech sinn fir d'Verfaassung vum internen Beispiller.
Verschidde Sozialwëssenschaftler si gewinnt mat Daten, déi aus enger probabilistescher Zufallsprobe aus enger bestëmmter Bevëlkerung kommen, wéi all déi Erwuessener an engem bestëmmte Land. Dës Zort vu Daten gëtt repräsentative Donnée genannt, well d'Probe "representéiert" déi grouss Bevëlkerung. Vill Wëssenschaftler Präisdirektendaten, a fir eng repräsentativ Donnéeën ass ënner anerem mat enger strenger Wëssenschaft, an netrepresentativ Donnéeën sinn Synonym mat Päckelcher. Am extremsten schéngen e puer Skeptiker ze gleewen, datt näischt vu netrepresentativen Daten geléiert gëtt. Wann ech richteg sinn, da géif et schrëftlech limitéieren, wat vu groussen Datenquellen geléiert gëtt, well vill vun hinnen net repräsentativ sinn. Glécklech sinn dës Skeptiker nëmme deelweis richteg. Et ginn verschidde Fuerschungsziele fir déi netrepresentativ Donnéeën eidel net gutt passt, awer et ginn aner, fir déi et eigentlech ganz nëtzlech wier.
Fir dës Ënnerscheed ze verstoen, lued Iech e wëssenschaftleche Klassiker: d'John Snow ass Studie vum 1853-54 Choleraausbrieche zu London. Zu där Zäit hunn vill Dokteren iwwerzeegt, datt Cholera vu "schlechte Loft" verursaacht gouf, awer de Snow ass gegleeft datt et eng Infektiounserkrankung ass, déi vielleicht duerch eesäiteg Trinkwasser verdeelt gouf. Fir dës Iddi ze testen, de Schneemäert profitéiert wat mir elo e natierlecht Experiment hunn. Hie verglach de Cholera-Taux vun de Stéit, déi vun zwee verschiddene Waasserdierfer ginn: Lambeth an Southwark & Vauxhall. Dës Firmen hunn déi ähnlech Stéit gedronk, awer si hunn op eng wichteg Plaz: 1849 - e puer Joer virun der Epidemie - huet Lambeth säin Intakepunkt virun der Haaptentwässerung vu London ofgelenkt, während d'Southwark & Vauxhall hiren Entree-Pipe stroum iwwert dem Klärauslaascht. Wann de Snow géint d'Doudesreschter vun der Cholera an de Stéit vun deenen zwee Firme bedriwwen huet, huet hien festgestallt datt d'Clienten vun Southwark & Vauxhall - d'Firma, déi Cliente ofwuelte Waasser gemaach huet - 10 mol méi Chancen huet wéi Cholera stierwen. Dëst Resultat léisst staark wëssenschaftlech Beweiser fir d'Argumenter vum Snow iwwert d'Ursaach vun Cholera, obwuel et net op enger repräsentative Prouf vu Leit an London baséiert.
Déi Daten aus deenen zwee Firmen wären awer net ideal fir eng aner Fro ze beäntweren: Wat war d'Prévalenz vun Cholera zu London während dem Ausbrieche? Fir déi zweet Fro, wat och wichteg ass, wär et besser fir eng repräsentativ Probe vu Leit aus London ze hunn.
Wéi d'Snow's Wierklechkeet illustréiert, sinn et e puer wëssenschaftlech Froen, fir déi net repräsentativ Donnéeën effektiv effektiv sinn an et sinn aner, fir déi se net gutt ugepasst sinn. Eng rude Manéier fir dës zwou Zorte vu Froen ze ënnerscheeden ass datt verschidde Froen iwwer d'Veraarbechtung vu bannenzeg Beispiller sinn, an e puer sinn iwwer d'Verhalensvergréisserung. Dës Ënnerdeelung kann weider illustriert sinn duerch eng aner klassesch Studie an der Epidemiologie: d'britesch Doktoratstudie, déi eng wichteg Roll gespillt huet beim Beweis datt d'Smoken e Kriibs mécht. An dëser Studie hunn Richard Doll an A. Bradford Hill ongeféier 25.000 Männer Doktoren während e puer Joer gefuer an de Verloscht vun hirem Doud veruerteelt, baséiert op de Betrag deen se gefëmmt hunn wann d'Studie ugefaang huet. Doll and Hill (1954) hunn eng staark Belaaschtungs-Response-Bezéiung fonnt: d'méi schlechte Leit hunn gefëmmt, wat méi wahrscheinlech si vun de Lungenkrebs stierwen. Natierlech wier et net kloer, datt d'Prévalence vu Lungenkrebs tëscht alle britesche Leit baséiert op dëser Grupp vu männlechen Doktoren, awer de Verglach mam intern Verfaassung weist nach ëmmer Beweiser datt de Smoken e Lungenkrebs verursaacht.
Elo, datt ech den Ënnerscheed tëscht Referenzvergläicher an Ausbezuelungen aus der Probe illustréiert hunn, sinn zwee Opfaassungen un der Rei. Éischtens ginn natierlech d'Froen iwwer d'Ausmooss, wou eng Bezéiung déi an enger Probe vu männleche britesch Doktoren anhält, och an enger Probe vun weibleichen, briteschen Dokteren oder männlecher britesch Fabrikanten oder weise däitsch Aarbechter oder vill aner Gruppen. Dës Froen sinn interessant a wichteg, awer si sinn ënnerschiddlech vu Froen iwwer d'Ausmooss, déi mir vun enger Probe zu enger Populatioun generaliséieren kënnen. Bemierkung, zum Beispill, datt Dir wahrscheinlech vermësst datt d'Relatioun tëscht Rauchen a Kriibs, déi an de männlech briteschen Dokteren fonnt gi sinn, wahrscheinlech an deenen anere Gruppen ähnlech sinn. Är Fäegkeet fir dës Extrapolatioun ze maachen ass net aus der Tatsaach datt d'männlech britesch Dokteren eng probabilistesch Zufallsprobe aus all Bevëlkerung sinn; éischter, et kënnt aus engem Verständnis vum Mechanismus, deen d'Fëmmen opzehalen an de Kriibs. Dofir ass d'Generaliséierung vun enger Probe zu der Populatioun aus deem sech gezeechent ass eng grouss statistesch Fro, mee Froe stellen iwwert d' Transportméiglechkeet vun engem Muster, deen an enger Grupp zu enger anerer Grupp fonnt gouf, ass haaptsächlech eng nonstatistesch Emissioun (Pearl and Bareinboim 2014; Pearl 2015) .
An dësem Punkt kann eng Skeptiker soen, datt déi meescht sozialen Mustern wahrscheinlech manner Frae wéi bannent der Relatioun tëscht Rauchen a Kriibs sinn. An ech sinn averstanen. Den Ausmooss, op dee mir eis Muster fir transportabel ze rechnen hunn, ass letztendlech eng wëssenschaftlech Fro déi op Grond vun Theorie a Beweiser entscheet misst ginn. Et sollt net automatesch ugeholl ginn, datt d'Muster transporterbar sinn, awer och sollt et ugeholl datt se net transportabel sinn. Dës zimlech abstrakt Froe fir d'Transportbarkeet wäerten Iech vertraut sinn, wann Dir d'Debatten gefollegt hutt wéi vill Forscher iwwer (Sears 1986, [@henrich_most_2010] ) kennen léieren kënnen duerch Studien vun Undergraduate Studenten (Sears 1986, [@henrich_most_2010] ) . Trotz dëser Debatten ass et awer net veronséchert ze soen datt d'Fuerscher näischt aus dem Studium vu Bachelorstudenten léieren.
Déi zweet Oppositioun ass, datt déi meescht Fuerscher mat netrepresentativen Donnéeën net sou genee wéi Snow oder Doll a Hill. Also, fir ze illustréieren wat kann falsch ginn wann d'Fuerscher eng Versammlung vun der echte Generaliséierung vun netrepresentativen Donnéeën maachen, ech wéilt Dir Iech iwwer eng Studie vun der parlamentarescher Bundestag 2009 vun Andranik Tumasjan an Kollegen (2010) erzielen. Duerch d'Analyse vu méi wéi 100.000 Tweets, hunn se festgestallt datt den Undeel vun Tweets mat enger politescher Partei mat de Stëmme vun de Stëmmen déi Partei an der parlamentarescher Wale krut (Ziffer 2.3). An anere Wierder, et huet geschéngt datt Twitter Donnéeën, déi am Wesentlechen fräi waren, kënnen traditionell ëffentlech Meenungsauperien ersetzen, déi deier sinn wéinst hirem Schwerer op Vertriederendaten.
Wann Dir un Är Wahrscheinlech schonn iwwer Twitter wësst, musst Dir direkt vun dësem Resultat skeptesch ginn. D'Germans op Twitter am Joer 2009 waren net e probabilisteschen Zousaz vun de germanesche Wieler, an d'Supportere vu verschiddene Parteien kënnen d'Politik méi vill ufänken wéi d'Anerer vun anere Parteien. Esou ass et verwonnerlech datt all d'méiglechen Biissiounen, déi Dir kéint virstellen, irgendwie ofsoen, fir datt dës Donnéeën direkt vun de Wahle sinn. Tatsächlech hunn d'Resultater zu Tumasjan et al. (2010) hu sech ze gutt fir richteg ze sinn. E Successeur vu Andreas Jungherr, Pascal Jürgens an Harald Schoen (2012) weist datt d'originell Analyse déi politesch Partei geschloen huet déi tatsächlech déi meeschte verwonnert huet Twitter: d'Piratepartei, eng kleng Partei, déi Regierungsregulatioun vum Internet. Wann d'Piratepartei an der Analyse matmaacht, gëtt Twitter zitéiert e schrecklechen Prädiktor vu Wale Resultater (Ziffer 2.3). Wéi dëst Beispill illustréiert, mat net-repräsentative grouss Datenquellen, fir d'Verdeelung vun der Echulanzelegkeete maachen ze goe goen. Och sollt Dir kucken datt d'Tweets 100.000 Tweets haaptsächlech irrelevant waren: Vill vun net représentative Donnéeën ass nach ëmmer net repräsentativ, en Thema deen ech am Kapitel 3 zréckbrénge wann ech Diskussiounen diskutéieren.
Schlussendlech sinn et vill grouss Datenquellen net repräsentativ Ënnerschrëfte vun enger bestëmmter Bevëlkerung. Fir Froen déi d'Resultater vun der Préift un d'Populatioun ze erfëllen, wou et gezeechent gouf, ass dat e seriöse Problem. Mä fir Froen iwwer intern Verfaassung ze maachen sinn net repräservative Daten ka staark ginn, soulaang wéi d'Fuerscher kloer iwwert d'Charakteristike vun hirer Probe an Ënnerstëtzung vun der Fuerschung iwwer Transportniveau mat theoreteschen oder empiresche Beweise sinn. Tatsächlech, meng Hoffnung ass datt grouss Datenquellen d'Fuerscher erméiglechen, méi intern Verfaassung ze vergläichen a villen netrepresentativen Gruppen ze maachen, a meng Schätzung ass datt Schätzungen aus vill verschiddene Gruppen méi maachen fir d'sozial Recherche wéi eng eenzeg Schätzung vun engem probabilisteschen Zufall Beispill.