Të dhënat jo-përfaqësuese janë të këqija për përgjithësimet jashtë mostrave, por mund të jenë mjaft të dobishme për krahasimet brenda mostrave.
Disa shkencëtarë shoqëror janë mësuar të punojnë me të dhëna që vijnë nga një mostër probabilitare e rastit nga një popullatë e përcaktuar mirë, si të gjithë të rriturit në një vend të caktuar. Këto të dhëna quhen të dhëna përfaqësuese sepse mostra "përfaqëson" popullatën më të madhe. Shumë studiues çmojnë të dhëna përfaqësuese, dhe disa të dhëna përfaqësuese janë sinonim i shkencës rigoroze, ndërsa të dhënat jo përfaqësuese janë sinonim i lirisë. Në më ekstreme, disa skeptikë duket se besojnë se asgjë nuk mund të mësohet nga të dhënat jo-përfaqësuese. Nëse është e vërtetë, kjo do të duket të kufizojë ashpër atë që mund të mësohet nga burime të mëdha të të dhënave, sepse shumë prej tyre nuk janë përfaqësues. Për fat të mirë, këta skeptikë janë vetëm pjesërisht të drejtë. Ka disa qëllime kërkimore për të cilat të dhënat jo-përfaqësuese nuk janë të përshtatshme, por ka të tjerë për të cilat në të vërtetë mund të jetë mjaft e dobishme.
Për të kuptuar këtë dallim, le të shqyrtojmë një klasik shkencor: Studimi i John Snow për shpërthimin e kolera të 1853-54 në Londër. Në atë kohë, shumë doktorë besonin se kolera ishte shkaktuar nga "ajri i keq", por Snow besonte se ajo ishte një sëmundje ngjitëse, ndoshta e përhapur nga uji i pijshëm i ujrave të zeza. Për të provuar këtë ide, Snow përfitoi nga ajo që tani mund të quajmë një eksperiment natyror. Ai krahasoi normat e kolerës së familjeve të shërbyera nga dy kompani të ndryshme të ujit: Lambeth dhe Southwark & Vauxhall. Këto kompani shërbyen si familje të ngjashme, por ato ndryshonin në një mënyrë të rëndësishme: në vitin 1849 - pak vite para fillimit të epidemisë - Lambeth zhvendosi pikën e saj të marrjes në rrjedhën e sipërme nga shkarkimi kryesor i ujërave të zeza në Londër, ndërsa Southwark & Vauxhall la tubin e marrjes së tyre në drejtim të rrymës. shkarkimi i ujërave të zeza. Kur Snow krahasoi normat e vdekjeve nga kolera në familjet e shërbyera nga të dy kompanitë, ai gjeti se konsumatorët e Southwark & Vauxhall, kompania që po u ofronte ujërave të zeza të ujërave të zeza, kishin 10 herë më shumë gjasa të vdisnin nga kolera. Ky rezultat siguron prova të forta shkencore për argumentin e Snow-it për shkak të kolerës, edhe pse nuk bazohet në një mostër përfaqësuese të njerëzve në Londër.
Të dhënat nga këto dy kompani, megjithatë, nuk do të ishin ideale për t'iu përgjigjur një pyetjeje tjetër: cili ishte prevalenca e kolerës në Londër gjatë shpërthimit? Për atë pyetje të dytë, e cila është gjithashtu e rëndësishme, do të ishte shumë më mirë të kishim një mostër përfaqësuese të njerëzve nga Londra.
Siç ilustron puna e Snow, ka disa pyetje shkencore për të cilat të dhënat jo-përfaqësuese mund të jenë mjaft efektive dhe ka të tjerë për të cilat nuk është e përshtatshme. Një mënyrë e papërpunuar për të dalluar këto dy lloje pyetjesh është se disa pyetje kanë të bëjnë me krahasimet brenda mostrave dhe disa janë rreth përgjithësimeve jashtë kampioneve. Ky dallim mund të ilustrohet më tej nga një studim tjetër klasik në epidemiologjinë: Studimi Britanik i Mjekëve, i cili luajti një rol të rëndësishëm në demonstrimin se pirja e duhanit shkakton kancer. Në këtë studim, Richard Doll dhe A. Bradford Hill pasuan rreth 25,000 mjekë meshkuj për disa vjet dhe i krahasuan normat e tyre të vdekshmërisë në bazë të sasisë që tymonin kur filloi studimi. Doll dhe Hill (1954) gjetën një marrëdhënie të fortë ekspozimi-përgjigje: njerëzit më të rëndë të tymosur, aq më shumë do të vdisnin nga kanceri i mushkërive. Natyrisht, nuk do të ishte e mençur të vlerësohej përhapja e kancerit të mushkërive në mesin e të gjithë njerëzve britanikë bazuar në këtë grup të mjekëve meshkuj, por krahasimi brenda mostrave ende jep dëshmi se pirja e duhanit shkakton kancer të mushkërive.
Tani që unë e kam ilustruar dallimin midis krahasimeve brenda mostrave dhe përgjithësimeve jashtë mostrave, dy paralajmërime janë në rregull. Së pari, ekzistojnë pyetje të natyrshme rreth shkallës në të cilën një marrëdhënie që mban brenda një mostre të mjekëve meshkuj britanikë do të mbajë gjithashtu brenda një mostre të femrave, mjekëve britanikë ose punonjës të fabrikës britanike të meshkujve ose punëtoreve gjermane të fabrikave ose shumë grupeve të tjera. Këto pyetje janë interesante dhe të rëndësishme, por ato janë të ndryshme nga pyetjet në lidhje me shkallën në të cilën mund të përgjithësojmë nga një mostër në një popullsi. Vini re, për shembull, që ndoshta dyshoni se marrëdhënia midis pirjes së duhanit dhe kancerit që u gjet në mjekët meshkuj britanikë ndoshta do të jetë e ngjashme në këto grupe të tjera. Aftësia juaj për të bërë këtë ekstrapolim nuk vjen nga fakti se mjekët meshkuj britanikë janë një mostër probabilitare e rastit nga çdo popullsi; Përkundrazi, ai vjen nga një kuptim i mekanizmit që lidh duhan dhe kancerin. Kështu, përgjithësimi nga një mostër në popullatën nga e cila është tërhequr është kryesisht një çështje statistikore, por pyetjet në lidhje me transportueshmërinë e modelit të gjetur në një grup në një grup tjetër është kryesisht një çështje (Pearl and Bareinboim 2014; Pearl 2015) .
Në këtë pikë, një skeptik mund të theksojë se shumica e modeleve shoqërore ndoshta janë më pak të transportueshme në grupe sesa marrëdhëniet midis pirjes së duhanit dhe kancerit. Dhe unë pajtohem. Shkalla në të cilën ne duhet të presim që modelet të jenë të transportueshme në fund të fundit është një çështje shkencore që duhet të vendoset në bazë të teorisë dhe dëshmive. Nuk duhet automatikisht të supozohet se modelet do të jenë të transportueshme, por nuk duhet të supozohet se ato nuk do të jenë të transportueshme. Këto pyetje paksa abstrakte rreth transportueshmërisë do të jenë të njohura për ju nëse keni ndjekur debatet rreth asaj se sa kërkues mund të mësojnë për sjelljen njerëzore duke studiuar studentët universitarë (Sears 1986, [@henrich_most_2010] ) . Përkundër këtyre debateve, megjithatë, do të ishte e paarsyeshme të thuhet se studiuesit nuk mund të mësojnë asgjë nga studimi i studentëve universitarë.
Parashtrimi i dytë është se shumica e hulumtuesve me të dhëna jo-përfaqësuese nuk janë aq të kujdesshme sa Snow ose Doll dhe Hill. Pra, për të ilustruar se çfarë mund të shkojë keq kur hulumtuesit përpiqen të bëjnë një përgjithësim të jashtëm nga të dhënat jo-përfaqësuese, do të doja t'ju tregoja për një studim të zgjedhjeve parlamentare gjermane 2009 nga Andranik Tumasjan dhe kolegët (2010) . Duke analizuar më shumë se 100,000 tweets, ata kanë gjetur se përqindja e tweets që përmend një parti politike përputhet me përqindjen e votave që partia mori në zgjedhjet parlamentare (figura 2.3). Me fjalë të tjera, u duk se të dhënat e Twitter-it, të cilat në thelb ishin të lira, mund të zëvendësonin sondazhet tradicionale të opinionit publik, të cilat janë të shtrenjta për shkak të theksit të tyre në të dhënat përfaqësuese.
Duke pasur parasysh atë që ndoshta tashmë e dini për Twitter, menjëherë duhet të jeni skeptik për këtë rezultat. Gjermanët në Twitter në vitin 2009 nuk ishin një mostër e rastësishme probabilistike e votuesve gjermanë dhe mbështetësit e disa partive mund të bëjnë cicëroj rreth politikës shumë më shpesh sesa mbështetësit e partive të tjera. Kështu, duket e çuditshme që të gjitha paragjykimet e mundshme që ju mund ta imagjinoni do të anulonin disi në mënyrë që këto të dhëna të jenë drejtpërsëdrejti reflektuese për votuesit gjermanë. Në fakt, rezultatet në Tumasjan et al. (2010) doli të jetë shumë e mirë për të qenë e vërtetë. Një studim pasues nga Andreas Jungherr, Pascal Jürgens dhe Harald Schoen (2012) vunë në dukje se analiza origjinale kishte përjashtuar partinë politike që kishte marrë më së shumti përmendur në Twitter: Partia Pirate, një parti e vogël që lufton rregullimin e qeverisë e internetit. Kur Partia Pirate u përfshi në analizë, Twitter përmend një parashikues të tmerrshëm të rezultateve të zgjedhjeve (figura 2.3). Siç ilustron ky shembull, përdorimi i burimeve të mëdha të të dhënave jo-përfaqësuese për të bërë përgjithësime jashtë-mostër mund të shkojnë shumë keq. Gjithashtu, duhet të vëreni se fakti që ka qenë 100,000 tweete ishte thelbësisht i parëndësishëm: shumë të dhëna jo-përfaqësuese janë akoma jo-përfaqësuese, një temë që do të kthehem në kapitullin 3 kur diskutoj anketat.
Për të përfunduar, shumë burime të mëdha të të dhënave nuk janë mostra përfaqësuese nga një popullsi e definuar mirë. Për pyetjet që kërkojnë përgjithësimin e rezultateve nga mostra në popullatën nga e cila është tërhequr, ky është një problem serioz. Por për pyetjet rreth krahasimeve brenda mostrave, të dhënat jo-përfaqësuese mund të jenë të fuqishme, për sa kohë që kërkuesit janë të qartë në lidhje me karakteristikat e mostrës së tyre dhe mbështesin pretendimet rreth transportueshmërisë me dëshmi teorike apo empirike. Në të vërtetë, shpresa ime është që burimet e mëdha të të dhënave do t'u mundësojnë hulumtuesve të bëjnë më shumë krahasime brenda mostrave në shumë grupe jo përfaqësuese dhe supozimi im është se vlerësimet nga shumë grupe të ndryshme do të bëjnë më shumë për të çuar përpara kërkimin shoqëror sesa një vlerësim të vetëm nga një random probabiliteti mostër.