Mēs varam tuvināt eksperimentus, kurus mēs neesam darījuši vai nevaram izdarīt. Divas pieejas, kas īpaši iegūst lielus datu avotus, ir dabiski eksperimenti un saskaņošana.
Daži svarīgi zinātniskie un politiskie jautājumi ir cēloniski. Piemēram, kāda ir darba apmācību programmas ietekme uz algām? Pētnieks, kas mēģina atbildēt uz šo jautājumu, var salīdzināt to cilvēku ieņēmumus, kuri piesakās apmācībai, uz tiem, kuri to nedarīja. Bet cik liela daļa no algu atšķirībām starp šīm grupām ir apmācības dēļ un cik liela ir iepriekš pastāvošo atšķirību dēļ starp reģistrētajiem cilvēkiem un tiem, kas to nedara? Šis ir sarežģīts jautājums, un tas ir tas, kas automātiski nenokļūst ar vairāk datu. Citiem vārdiem sakot, bažas par iespējamām iepriekš pastāvošajām atšķirībām rodas neatkarīgi no tā, cik darbinieki ir jūsu dati.
Daudzās situācijās spēcīgākais veids, kā novērtēt dažu ārstēšanas cēloņsakarību, piemēram, darba apmācību, ir vadīt randomizētu kontrolētu eksperimentu, kurā pētnieks nejauši izvēlas ārstēšanu dažiem cilvēkiem, nevis citiem. Visu 4. nodaļu es veltīšu eksperimentiem, tāpēc šeit es pievērsīšos divām stratēģijām, kuras var izmantot ar datiem, kas nav eksperimentāli. Pirmā stratēģija ir atkarīga no kaut kas notiek pasaulē, kas nejauši (vai gandrīz nejauši izvēlas) piešķir ārstēšanu dažiem cilvēkiem, nevis citiem. Otrā stratēģija ir atkarīga no statistikas pielāgošanas neeksperimentāliem datiem, lai mēģinātu ņemt vērā iepriekš pastāvošās atšķirības starp tiem, kuri to izdarīja un nesaņēma.
Skeptiķis varētu apgalvot, ka jāizvairās no abām šīm stratēģijām, jo tām ir vajadzīgi stingri pieņēmumi, pieņēmumi, kurus ir grūti novērtēt un kurus praksē bieži pārkāps. Lai gan es esmu apmierināts ar šo apgalvojumu, es domāju, ka tas ir mazliet pārāk tālu. Protams, ir grūti ticami noteikt cēloņsakarības no neeksperimentāliem datiem, bet es nedomāju, ka tas nozīmē, ka nekad nevajadzētu izmēģināt. Jo īpaši bez eksperimentālas pieejas var būt noderīgi, ja loģistikas ierobežojums neļauj veikt eksperimentu vai ja ētiskie ierobežojumi nozīmē, ka jūs nevēlaties palaist eksperimentu. Turklāt bezeksperimentālas pieejas var būt noderīgas, ja vēlaties izmantot jau esošos datus, lai izveidotu randomizētu kontrolētu eksperimentu.
Pirms turpināt, ir arī vērts atzīmēt, ka cēloņu aplēšu noteikšana ir viena no vissarežģītākajām tēmām sociālajā pētniecībā, un tā var izraisīt intensīvas un emocionālas diskusijas. Turpmāk es sniegšu optimistisku aprakstu par katru pieeju, lai izveidotu intuīciju par to, tad es aprakstīt dažas problēmas, kas rodas, izmantojot šo pieeju. Sīkāka informācija par katru pieeju ir pieejama materiālos šīs nodaļas beigās. Ja jūs plānojat izmantot kādu no šīm metodēm savā pētījumā, es ļoti iesaku izlasīt vienu no daudzajām lieliskajām grāmatām par cēloņsakarību (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Viena pieeja, lai veiktu cēloņsakarības aprēķinus no neeksperimentāliem datiem, ir meklēt notikumu, kas nejauši piešķirtu ārstēšanu dažiem cilvēkiem, nevis citiem. Šīs situācijas sauc par dabiskiem eksperimentiem . Viens no skaidrākiem dabas eksperimenta piemēriem izriet no pētījuma Joshua Angrist (1990) izmērīta militāro dienestu ietekme uz ienākumiem. Kara laikā Vjetnamā Amerikas Savienotās Valstis palielināja savu bruņoto spēku skaitu, izstrādājot projektu. Lai izlemtu, kuri pilsoņi tiks nodoti ekspluatācijā, ASV valdība rīko loteriju. Katrs dzimšanas datums tika uzrakstīts uz papīra, un, kā parādīts 2.7. Attēlā, šie papīri tika atlasīti pa vienam, lai noteiktu kārtību, kādā jaunie vīrieši tiks aicināti kalpot (jaunām sievietēm nebija pakļautas uz projektu). Balstoties uz rezultātiem, 14. septembrī dzimušie vīrieši tika saukti pirmie, 24. aprīlī dzimušie vīrieši tika saukti par otru, un tā tālāk. Galu galā šajā loterijā tika sagatavoti vīrieši, kas dzimuši 195 dažādās dienās, savukārt vīriešiem, kas dzimuši 171 dienas, nebija.
Lai gan tas var nebūt uzreiz skaidrs, loterijas projektam ir kritiska līdzība ar nejaušinātu kontrolējamo eksperimentu: abās situācijās dalībnieki tiek izlaisti, lai saņemtu ārstēšanu. Lai izpētītu šīs randomizētās ārstēšanas sekas, Angrist izmantoja vienmēr lielu datu sistēmu: ASV Sociālās drošības administrāciju, kas apkopo informāciju par gandrīz katru amerikāņu ienākumu no nodarbinātības. Apvienojot informāciju par to, kas tika izlases veidā izvēlēts loterijas projektā, ar ienākumu datiem, kas tika savākti valdības administratīvajos ierakstos, Angrist secināja, ka veterānu ienākumi bija par 15% mazāki nekā salīdzināmo ne-veterānu ienākumi.
Kā tas parādīts šajā piemērā, dažreiz sociālie, politiskie vai dabas spēki piešķir ārstēšanu tādā veidā, ka pētnieki var tos izmantot, un dažreiz šo ārstēšanas sekas tiek atspoguļotas vienmēr lielos datu avotos. Šo pētījumu stratēģiju var apkopot šādi: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Lai ilustrētu šo stratēģiju digitālajā laikmetā, apsveriet Alexandre Mas un Enrico Moretti (2009) pētījumu, kurā mēģināts novērtēt darba ar ražīgām kolēģiem ietekmi uz darba ņēmēja produktivitāti. Pirms redzēt rezultātus, ir vērts norādīt, ka jums ir pretrunīgas cerības. No vienas puses, jūs varētu sagaidīt, ka darbs ar produktīviem kolēģiem novedīs pie darba ņēmēja, lai paaugstinātu viņas darba ražīgumu, jo ir vienādranga spiediens. Vai arī, no otras puses, jūs varētu sagaidīt, ka, strādājot vienaudžiem, darba ņēmējs varētu tikt novilcis, jo jebkurā gadījumā darbs tiks paveicams viņas vienaudžiem. Skaidrākais veids, kā pētīt vienaudžu ietekmi uz produktivitāti, būtu nejaušināti kontrolēts eksperiments, kurā darbinieki nejauši tiek novirzīti pārmaiņām ar dažāda produktivitātes līmeņa darbiniekiem, un pēc tam iegūtais produktivitātes līmenis tiek novērtēts ikvienam. Tomēr pētnieki nekontrolē darba ņēmēju grafiku, kas darbojas kādā reālā uzņēmējdarbībā, tāpēc Masam un Morettiam bija jāpaļaujas uz dabisko eksperimentu, kurā iesaistīti kasieri lielveikalā.
Šajā konkrētajā lielveikalā, ņemot vērā to, ka plānošana tika pabeigta un veids, kā mainās pārklāšanās, katram kasierim bija dažādi kolēģi dažādos laika periodos. Turklāt šajā konkrētajā lielveikalā kasieru piešķiršana nebija saistīta ar viņu vienaudžu produktivitāti vai arī cik veikala bija aizņemta. Citiem vārdiem sakot, kaut arī loterijā netika noteikts kasieru plānojums, it kā darbinieki dažkārt nejauši tika izraudzīti darbā ar augstu (vai zemu) ražīguma vienaudžiem. Par laimi, šim lielveikalam bija arī digitālā vecuma pārbaudes sistēma, kas izsekoja priekšmetus, kurus katrs kasieris visu laiku skanēja. No šī izrakstīšanas žurnāla datiem Mas un Moretti varēja izveidot precīzu, individuālu un vienmērīgu produktivitātes rādītāju: skenēto vienību skaits sekundē. Apvienojot šīs divas lietas - dabiskās atšķirības vienaudžu produktivitātē un produktivitātes vienmērīgie rādītāji - Mas un Moretti aprēķināja, ka tad, ja kādam kasierim tiktu piešķirti kolēģi, kuri bija par 10% produktīvāki nekā vidēji, viņas produktivitāte pieaugs par 1,5% . Turklāt viņi izmantoja savu datu lielumu un bagātību, lai izpētītu divus svarīgus jautājumus: šī efekta neviendabību (kādiem darbinieku veidiem ir lielāka ietekme?) Un mehānismiem, kas ietekmē šo efektu (kāpēc augsta ražīguma vienaudžiem rodas lielāka produktivitāte?). Mēs atgriezīsimies pie šiem diviem svarīgiem jautājumiem - ārstēšanas efektu un mehānismu neviendabīgumam - 4. nodaļā, kad mēs detalizētāk apspriedīsim eksperimentus.
Kopumā no šiem diviem pētījumiem 2.3. Tabulā ir apkopoti citi pētījumi, kuriem ir tāda pati struktūra: izmantojot vienmēr pieejamu datu avotu, lai noteiktu dažu nejaušu variāciju ietekmi. Praksē pētnieki izmanto divas dažādas stratēģijas, lai atrastu dabiskus eksperimentus, abi no tiem var būt auglīgi. Daži pētnieki sāk ar vienmēr pieejamu datu avotu un meklēt izlases notikumus pasaulē; citi uzsāk izlases gadījumu pasaulē un meklē datu avotus, kas atspoguļo tā ietekmi.
Būtiska uzmanība | Dabīgā eksperimenta avots | Vienmērīgs datu avots | Atsauce |
---|---|---|---|
Peer efekti uz produktivitāti | Plānošanas process | Norēķinu dati | Mas and Moretti (2009) |
Draudzības veidošana | Viesuļvētras | Phan and Airoldi (2015) | |
Emociju izplatīšanās | Lietus | Lorenzo Coviello et al. (2014) | |
Peļņas un peļņas ekonomiskie pārvedumi | Zemestrīce | Mobilo naudas dati | Blumenstock, Fafchamps, and Eagle (2011) |
Personiskā patēriņa uzvedība | 2013 ASV valdības izslēgšana | Personisko finanšu dati | Baker and Yannelis (2015) |
Ieteicamo sistēmu ekonomiskā ietekme | Dažādi | Pārlūkošanas datus Amazonā | Sharma, Hofman, and Watts (2015) |
Stresa ietekme uz nedzimušiem bērniem | 2006 Izraēlas un Hezbollah karš | Dzimšanas ieraksti | Torche and Shwed (2015) |
Lasīšanas uzvedība Wikipēdijā | Snowden atklāsmes | Wikipedia žurnāli | Penney (2016) |
Peer ietekmi uz fizisko aktivitāti | Laikapstākļi | Fitnesa izsekotāji | Aral and Nicolaides (2017) |
Līdzšinējā diskusijā par dabas eksperimentiem esmu atstājis svarīgu aspektu: dažkārt var būt grūts process, no kura daba ir sniegusi to, ko jūs vēlaties. Atgriezīsimies Vjetnamas projekta piemērā. Šajā gadījumā Angrist bija ieinteresēts novērtēt militārā dienesta ietekmi uz ienākumiem. Diemžēl militārais dienests netika izraudzīts nejauši; Drīzāk tas tika sagatavots, kas tika nejauši piešķirts. Tomēr netika pasniegti visi, kas bija sagatavoti (bija dažādi izņēmumi), un ne visi, kas kalpoja, tika sagatavoti (cilvēki var brīvprātīgi kalpot). Tā kā sagatavošana tika veikta pēc nejaušības principa, pētnieks var novērtēt projektu ietekmi uz visiem vīriešiem. Bet Angrods nevēlējās uzzināt, kā tiek izstrādāts projekts; viņš vēlējās uzzināt, kāda ir militāro dienestu darbība. Tomēr, lai veiktu šo aprēķinu, ir vajadzīgi papildu pieņēmumi un komplikācijas. Pirmkārt, pētniekiem jāuzskata, ka vienīgais veids, kā izstrādāt ietekmētos ienākumus, ir militārais dienests, pieņēmums ir izslēgšanas ierobežojums . Šis pieņēmums varētu būt nepareizs, ja, piemēram, vīrieši, kuri tika sagatavoti, paliktu skolā ilgāk, lai izvairītos no darba vai ja darba devēji mazāk pieņemtu darbā vīriešus, kuri tika sagatavoti. Parasti izslēgšanas ierobežojums ir kritisks pieņēmums, un to parasti ir grūti pārbaudīt. Pat ja izslēgšanas ierobežojums ir pareizs, joprojām nav iespējams novērtēt pakalpojuma ietekmi uz visiem vīriešiem. Tā vietā izrādās, ka pētnieki var novērtēt ietekmi tikai uz konkrētu vīriešu apakškopu, ko sauc par komplikatoriem (vīrieši, kas kalpotu, kad tos sagatavos, bet kuri netiks izmantoti, kad tie nav sagatavoti) (Angrist, Imbens, and Rubin 1996) . Tomēr saderīgie nebija sākotnēji interesējošie iedzīvotāji. Ievērojiet, ka šīs problēmas rodas pat relatīvi tīrā loterijas projekta gadījumā. Vēl viens komplikāciju komplekts rodas, ja ārstēšanu nenosaka fiziska loterija. Piemēram, Masa un Moretti kasieru izpētē rodas papildu jautājumi par pieņēmumu, ka vienaudžu nodošana būtībā ir nejauša. Ja šis pieņēmums tika stingri pārkāpts, tas varētu novirzīt to aprēķinus. Noslēgumā dabas eksperimenti var būt spēcīga stratēģija cēloņu aprēķinu veikšanai no neeksperimentāliem datiem, un lielie datu avoti palielina mūsu spēju gūt labumu no dabas eksperimentiem, kad tie notiek. Tomēr tas, iespējams, prasīs lielu piesardzību un reizēm spēcīgu pieņēmumu, lai pārietu no tā, ko daba ir sniedzusi aplēsei, kuru vēlaties.
Otrā stratēģija, kuru es gribētu jums pastāstīt par cēloņsakarību aprēķinu no neeksperimentāliem datiem, ir atkarīga no statistikas korekcijas ar neeksperimentāliem datiem, mēģinot ņemt vērā iepriekš pastāvošās atšķirības starp tiem, kas to darīja un kuri nesaņēma ārstēšanu. Ir daudz šādu korekciju pieeju, taču es pievērsīšu uzmanību vienam sauktajam saskaņojumam . Atbilstoši pētnieks meklē neeksperimentus datus, lai izveidotu līdzīgu cilvēku pāri, izņemot to, ka ir saņemta ārstēšana, bet neviena no tām nav. Saskaņošanas procesā pētnieki faktiski arī apgriežas ; tas ir, izmetumu gadījumus, kad nav acīmredzama atbilstība. Tādējādi šo metodi precīzāk sauc par saskaņošanu un atzarošanu, bet es pielīpšu ar tradicionālo terminu: saskaņošana.
Viens piemērs tam, kā saskaņot stratēģijas ar lieliem neeksperimentāliem datu avotiem, ir Liran Einav un kolēģu patērētāju uzvedības pētījums (2015) . Viņi bija ieinteresēti izsolēs, kas notiek eBay, un, aprakstot viņu darbu, es pievērsīšos izsoles sākuma cenas ietekmei uz izsoles rezultātiem, piemēram, pārdošanas cenu vai pārdošanas varbūtību.
Visnaivākais veids, kā novērtēt sākuma cenas ietekmi uz pārdošanas cenu, būtu vienkārši aprēķināt galīgo cenu izsolēm ar atšķirīgām sākuma cenām. Šī pieeja būtu kārtībā, ja jūs vēlētos prognozēt pārdošanas cenu, ņemot vērā sākuma cenu. Bet, ja jūsu jautājums ir par sākuma cenas ietekmi, tad šī pieeja nedarbosies, jo tā pamatā nav taisnīgu salīdzinājumu; izsoles ar zemākām sākuma cenām var būt diezgan atšķirīgas no tām, kurām ir augstākas sākuma cenas (piemēram, tās varētu būt dažādu preču vai dažādu veidu pārdevēju gadījumā).
Ja jūs jau esat informēts par problēmām, kas var rasties cēloņu aprēķināšanā, izmantojot eksperimentālus datus, jūs varat izlaist naivi pieeju un apsvērt iespēju veikt lauka eksperimentu, kur varētu pārdot konkrētu priekšmetu - teiksim, golfa klubs - ar fiksētu izsoles parametru kopums - teiksim, bezmaksas piegāde un izsoles atklāšana divas nedēļas - bet ar nejauši izvēlētu sākuma cenu. Salīdzinot iegūtos tirgus rezultātus, šajā lauka eksperimentā būtu ļoti precīzi jānosaka sākuma cenas ietekme uz pārdošanas cenu. Bet šis mērījums attiecas tikai uz vienu noteiktu produktu un izsoles parametru kopumu. Rezultāti var būt atšķirīgi, piemēram, dažādiem produktu veidiem. Ja nav spēcīgas teorijas, no šī vienotā eksperimenta ir grūti ekstrapolēt visu iespējamo eksperimentu spektru, kas varētu tikt izmantoti. Turklāt lauka eksperimenti ir pietiekami dārgi, jo nebūtu iespējams izpildīt visas izmaiņas, kuras jūs varētu vēlēties izmēģināt.
Atšķirībā no naivām un eksperimentālām metodēm Einav un kolēģi izmantoja trešo pieeju: saskaņošana. Galvenais triks to stratēģijā ir atklāt lietas, kas līdzīgas lauka eksperimentiem, kas jau notika eBay. Piemēram, 2.8. Attēlā ir parādīti daži no 31 sarakstiem tieši tādam pašam golfa klubam - Taylormade Burner 09 vadītājs tiek pārdots tieši tajā pašā pārdevējam - "budgetgolfer". Tomēr šiem 31 sarakstiem ir nedaudz atšķirīgas pazīmes, piemēram, dažādas iezīmes cenas, beigu datumi un nosūtīšanas maksa. Citiem vārdiem sakot, tā ir tā, it kā "budgetgolfer" pētniekiem darbotos eksperimenti.
Šie "Taylormade Burner 09" vadītāja saraksti, ko pārdod "budgetgolfer", ir viens no sarakstā iekļauto vienotu piemēru paraugiem, kad tieši tādu pašu preci pārdod tieši tas pats pārdevējs, bet katru reizi ar nedaudz atšķirīgām īpašībām. Lielajā eBay žurnālā ir burtiski simtiem tūkstošu saskaņotu komplektu, kas ietver miljonus sarakstus. Tādējādi, nevis salīdzinot galīgo cenu visām izsolēm ar noteiktu sākuma cenu, Einav un viņa kolēģi salīdzināja saskaņotās kopās. Lai apvienotu rezultātus no salīdzinājumiem šajos simtiem tūkstošu saskaņoto kopu, Einav un viņa kolēģi atkārtoti izteica sākuma cenu un galīgo cenu katra posteņa atsauces vērtības izteiksmē (piemēram, tā vidējā pārdošanas cena). Piemēram, ja Taylormade Burner 09 vadītājam bija atsauces vērtība 100 ASV dolāru apmērā (pamatojoties uz tā pārdošanas apjomu), sākotnējā cena 10 USD tiek izteikta kā 0,1 un galīgā cena 120 USD kā 1,2.
Atgādinām, ka Einav un kolēģi bija ieinteresēti sākuma cenas ietekmē izsoles rezultātos. Pirmkārt, viņi izmantoja lineāro regresiju, lai novērtētu, ka augstākas sākumcenas samazina pārdošanas varbūtību un ka augstākas sākumcenas palielina galīgo pārdošanas cenu (atkarībā no pārdošanas notiek). Arī šīs aplēses, kas apraksta lineāro attiecību un ir vidējā vērtība attiecībā uz visiem produktiem, nav tik interesantas. Tad Einav un viņa kolēģi lielo datu apjomu izmantoja, lai izveidotu vairākus izsmalcinātus aprēķinus. Piemēram, novērtējot ietekmi atsevišķi dažādām sākuma cenām, tās konstatēja, ka attiecība starp sākuma cenu un pārdošanas cenu ir nelineāra (2.9. Attēls). Jo īpaši, lai sāktu cenas no 0,05 līdz 0,85, sākuma cenai ir ļoti maza ietekme uz pārdošanas cenu, un atzinums, kuru vispirms neizmantoja to pirmā analīze. Turklāt Einav un viņa kolēģi novērtēja sākuma cenas ietekmi uz 23 dažādām preču kategorijām (piemēram, lolojumdzīvnieku piegādes, elektronika un sporta piemiņlietas), nevis vidējo rādītāju visās pozīcijās (2.10. Attēls). Šie aprēķini liecina, ka attiecībā uz atšķirīgākiem priekšmetiem, piemēram, piemiņlietu sākuma cenām, mazāka ietekme uz pārdošanas varbūtību un lielāka ietekme uz galīgo pārdošanas cenu. Turklāt, lai iegādātos vairāk preču, piemēram, DVD, sākotnējā cena gandrīz nekādi neietekmē galīgo cenu. Citiem vārdiem sakot, vidējais rādītājs, kas apvieno rezultātus no 23 dažādām preču kategorijām, slēpj būtiskas atšķirības starp šiem posteņiem.
Pat ja jūs īpaši neinteresē eBay izsoles, jums jābrīnās, kā 2.9. Un 2.10. Attēlā tiek piedāvāta bagātāka izpratne par eBay nekā vienkāršas aplēses, kas apraksta lineāro attiecību un apvieno daudz dažādu kategoriju vienumus. Turklāt, lai gan zinātniski būtu iespējams radīt šos izsmalcinātākos aprēķinus ar eksperimentu laukiem, izmaksas padarītu šādus eksperimentus praktiski neiespējamu.
Tāpat kā dabīgos eksperimentos, ir vairāki veidi, kā saskaņošana var radīt sliktas aplēses. Manuprāt, vislielākā problēma saistībā ar atbilstošām aplēsēm ir tāda, ka tās var neobjektīvi ietekmēt lietas, kuras netika izmantotas saskaņošanā. Piemēram, viņu galvenajos rezultātos Einav un viņa kolēģi veica precīzu atbilstību četrām īpašībām: pārdevēja ID numurs, vienumu kategorija, vienuma nosaukums un apakšvirsraksts. Ja vienumi bija atšķirīgi tādos veidos, kas netika izmantoti, lai tos saskaņotu, tas varētu radīt negodīgu salīdzinājumu. Piemēram, ja "budgetgolfer" pazemināja cenas Taylormade Burner 09 vadītājam ziemā (ja golfa klubi ir mazāk populāri), tad varētu šķist, ka zemākas sākuma cenas noved pie zemākām gala cenām, jo patiesībā tas būtu artefakts sezonas pieprasījuma svārstības. Viena pieeja šīs problēmas risināšanai ir mēģinājums daudz dažādu veidu saskaņošanu. Piemēram, Einav un viņa kolēģi atkārtoja savu analīzi, vienlaikus mainot saskaņošanai piemēroto laika periodu (saskaņotie komplekti ietvēra preces, kas tika pārdotas vienā gadā, viena mēneša laikā un vienlaicīgi). Par laimi, viņi atrada līdzīgus rezultātus visiem laika logiem. Vēl viena problēma saistībā ar saskaņošanu rodas no interpretācijas. Aprēķini no atbilstības attiecas tikai uz saskaņotiem datiem; tie neattiecas uz gadījumiem, kurus nevarēja saskaņot. Piemēram, ierobežojot pētījumu ar precēm, kurām bija vairāki saraksti, Einav un kolēģi koncentrējas uz profesionāliem un pusprofesionāliem pārdevējiem. Tādējādi, interpretējot šos salīdzinājumus, jāatceras, ka tie attiecas tikai uz šo eBay apakškopu.
Atbilstība ir spēcīga stratēģija taisnīgu salīdzinājumu iegūšanai neeksperimentu datos. Daudziem sociālajiem zinātniekiem saskaņošana izjūt otro labāko eksperimentu veikšanai, taču tā ir nedaudz ticama, ka to var pārskatīt. Liela apjoma datu salīdzināšana varētu būt labāka nekā neliels skaits lauku eksperimentu, kad (1) efektu neviendabīgums ir svarīgs un (2) ir novērtēti svarīgie mainīgie, kas nepieciešami, lai saskaņotu. 2.4. Tabulā sniegti daži citi piemēri, kā saskaņošana var tikt izmantota ar lieliem datu avotiem.
Būtiska uzmanība | Liels datu avots | Atsauce |
---|---|---|
Šaušanas ietekme uz policijas vardarbību | Stop-and-frisk ieraksti | Legewie (2016) |
2001. gada 11. septembra ietekme uz ģimenēm un kaimiņiem | Balsošanas ieraksti un ziedojumu ieraksti | Hersh (2013) |
Sociālās problēmas | Saziņa un produktu pieņemšanas dati | Aral, Muchnik, and Sundararajan (2009) |
Nobeigumā ir grūti novērtēt neeksperimentālu datu cēloņsakarību, taču var izmantot tādas pieejas kā dabiskie eksperimenti un statistikas pielāgojumi (piem., Saskaņošana). Dažās situācijās šīs pieejas var būt ļoti nepareizi, taču, tos uzmanīgi izmantojot, šīs pieejas var būt lietderīgs papildinājums eksperimentālajai pieejai, kuru aprakstīju 4. nodaļā. Turklāt šīs divas pieejas, visticamāk, varēs gūt labumu no vienmēr pastāvošas izaugsmes, uz lielām datu sistēmām.