4.4.1 Valideco

Tiu traduko estis kreitaj de komputilo. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.4.1 Valideco

Valideco rilatas al kiom la rezultoj de eksperimento apogas pli ĝeneralan konkludon.

Neniu eksperimento estas perfekta, kaj esploristoj evoluigis vastan vortotrezoron priskribi eblajn problemojn. Valideco rilatas al la amplekso al kiu la rezultoj de aparta eksperimento subtenas iun pli ĝeneralan konkludon. Sociaj sciencistoj trovis ĝin utila por fendi valideco en kvar ĉefaj tipoj: statistika konkludo valideco, interna valideco, konstrui valideco kaj ekstera valideco (Shadish, Cook, and Campbell 2001, Ch 2) . Majstranta tiuj konceptoj provizos vin mensa Checklist por kritikas kaj plibonigi la dezajnon kaj analizon de eksperimento, kaj ĝi helpos vin komuniki kun aliaj esploristoj.

Statistika konkludo valideco centras ĉirkaŭ ĉu la statistika analizo de la eksperimento estis farita ĝuste. En la kunteksto de Schultz et al. (2007) tia demando povus centri sur ĉu ili komputis iliajn p-valorojn ĝuste. Statistikaj analizoj estas preter la kadro de tiu ĉi libro, sed mi povas diri ke la statistikaj principoj bezonas desegni kaj analizi eksperimentoj ne ŝanĝis en la cifereca erao. Tamen, la malsamaj datumoj medio en cifereca eksperimentoj ne kreos novan statistikaj eblecoj (ekz, uzante maŝino lernado metodoj taksi heterogeneco de traktado efektoj (Imai and Ratkovic 2013) ) kaj novaj komputa defioj (ekz, blokante en amasa eksperimentoj (Higgins, Sävje, and Sekhon 2016) ).

Interna valideco centras ĉirkaŭ ĉu la eksperimentaj procedoj estis faritaj ĝuste. Revenante al la eksperimento de Schultz et al. (2007) , demandoj pri interna valideco povus centri ĉirkaŭ la aleatorización, transdono de la traktado, kaj mezurado de rezultoj. Ekzemple, vi povus esti koncerna ke la esploro helpantoj ne legis la elektra metroj fidinde. Fakte, Schultz kaj kolegoj estis maltrankviligitaj tiu problemo kaj ili havis provaĵon de metroj legi dufoje; feliĉe, la rezultoj estis esence identaj. Ĝenerale, Schultz kaj kolegoj 'eksperimento ŝajnas havi altan internan validecon, sed tio ne estas ĉiam la kazo; kompleksa kampo kaj rete eksperimentoj ofte renkontas problemojn reale transdonante la dekstra traktado dekstren personoj kaj mezurante la rezultoj por ĉiu. Feliĉe, la cifereca erao povas helpi redukti maltrankvilon pri interna valideco ĉar ĝi faciligante por certigi ke la traktado estas liverita kiel desegnita por tiuj kiu estas supozita ricevi ĝin kaj mezuri rezultojn por ĉiuj partoprenantoj.

Konstrui valideco centroj ĉirkaŭ la matĉo inter la datumoj kaj la teoriaj konstruoj. Kiel diskutis en Ĉapitro 2, konstruoj estas abstraktaj konceptoj kiu sociaj sciencistoj kialon pri. Bedaŭrinde, tiuj abstraktaj konceptoj ne ĉiam havas klaran difinoj kaj mezuradojn. Revenante al Schultz et al. (2007) , la aserto ke prescriptiva sociaj normoj povas malaltigi elektro uzo postulas esploristoj desegni traktadon kiu manipuli "prescriptiva sociaj normoj" (ekz, la emoticon) kaj mezuri "elektro uzo". En analoga eksperimentoj, multaj esploristoj desegnis siajn proprajn traktadoj kaj mezuris ilian propran rezultoj. Tiu aliro certigas ke, laŭeble, la eksperimentoj parigi la abstraktaj konstruoj studita. En cifereca eksperimentoj kie esploristoj partneron kun firmaoj aŭ registaroj liveri traktadoj kaj uzi ĉiam-sur datumoj sistemoj por mezuri rezultojn, la matĉo inter la eksperimento kaj la teoriaj konstruoj povas esti malpli strikta. Tiel, mi atendas ke konstrukcio valideco tendencos esti pli granda konzerno en cifereca eksperimentojn ol analoga eksperimentoj.

Fine, ekstera valideco centras ĉirkaŭ ĉu la rezultoj de ĉi tiu eksperimento estus ĝeneraligi al aliaj situacioj. Revenante al Schultz et al. (2007) , oni povus demandi, ĉu ĉi tiu ideo-havigante homoj informojn pri ilia energio uzado en rilato al liaj kompanoj kaj signalo de prescriptiva normojn (ekz, de emoticon) -reduce energio uzado se ĝi okazis en malsama maniero en malsama scenaro? Por plej bone desegnita kaj bone kuri eksperimentoj, zorgoj pri eksteraj valideco estas la plej malfacila por trakti. En la pasinteco, tiuj debatoj pri eksteraj valideco estis ofte nur aro de homoj sidantaj en ĉambro provas imagi kio okazus se la proceduroj faritaj en malsama maniero, aŭ en malsama loko, aŭ kun malsamaj personoj. Feliĉe, la cifereca erao ebligas esploristoj moviĝi preter tiuj datumoj -libera spekuladoj kaj taksi ekstera valideco empirie.

Ĉar la rezultoj de Schultz et al. (2007) estis tiel ekscita, kompanio nomita Opower partnerita kun utilecoj en Usono deploji la traktado pli vaste. Bazita sur la dezajno de Schultz et al. (2007) , Opower kreita adaptitajn Hejmo Energia Raportoj kiu havis du ĉefajn modulojn, unu montranta hemanaro elektro uzado relative al siaj najbaroj per emoticon kaj disponigante konsiletojn por malaltigo energio uzado (Figuro 4.6). Tiam, en partnereco kun esploristoj, Opower kuris randomigitaj kontrolitaj eksperimentoj por taksi la efikon de la Home Energy Raportoj. Kvankam la traktadoj en tiuj eksperimentoj estis tipe liverita fizike-kutime tra antikvaj heliko poŝto-la rezulto estis mezurita uzante ciferecaj mekanismoj en la fizika mondo (ekz, potenco metroj). Anstataŭ permane kolekti tiujn informojn kun esploro helpantoj vizitante ĉiun domon, la Opower eksperimentoj estis ĉiuj faritaj en partnereco kun potenco firmaoj ebligante la esploristoj aliri la potencon legadoj. Tiel, ĉi tiuj parte diĝita kampo eksperimentoj elĉerpis al amasa skalo ĉe malaltaj variablo kosto.

Figuro 4.6: La Hejma Energio Raportoj en Allcott (2011) havis Socia Komparo Modulo kaj Ago Paŝoj Modulo.

En unua aro de eksperimentoj implikantaj 600,000 domanaroj utilita de 10 utileco kompanioj ĉirkaŭ Usono, Allcott (2011) trovis la Home Energy Raporti mallevis elektro konsumo de 1,7%. En aliaj vortoj, la rezultoj de la multe pli granda, pli geografie diversaj studo estis kvalite similan al la rezultoj de Schultz et al. (2007) . Sed, la efekto esas malgranda: en Schultz et al. (2007) la hejmoj en la priskriba kaj enjekcia normoj kondiĉo (tiu kun la emoticon) reduktis sian elektro uzado de 5%. La preciza kialo de tiu diferenco estas nekonata, sed Allcott (2011) konjektis ke ricevinte manskribitaj emoticon kiel parto de studo sponsorita fare universitata havu pli grandan efikon sur la konduto ol ricevi presitajn emoticon kiel parto de maso produktis raporton de potenco kompanio.

Plui, en postaj esploroj, Allcott (2015) raportis pri plia 101 eksperimentoj implikantaj plia 8 milionoj domanaroj. En tiuj proksimaj 101 eksperimentoj la Home Energy Raporti daŭre kaŭzi homojn malaltigi ilian elektro konsumado, sed la efektoj estis eĉ pli malgranda. La preciza kialo de tiu malpliiĝo estas nekonata, sed Allcott (2015) konjektis ke la efikeco de la raporto ŝajnis esti malkreskanta tempo ĉar ĝi estis reale esti aplikita al malsamaj tipoj de partoprenantoj. Pli specife, utilecoj en pli ekologiisto areoj estis pli verŝajna adopti la programon pli frue kaj iliaj klientoj estis pli respondema al la traktado. Kiel utilecoj kun malpli media klientoj adoptis la programon, lia efikeco aperis declinar. Tiel, kiel aleatorización en eksperimentoj certigas ke la traktado kaj kontrolo grupo estas similaj, aleatorización en esploro ejoj certigas ke la taksoj povas esti ĝeneraligita de unu grupo de partoprenantoj al pli ĝenerala loĝantaro (pensas reen al Ĉapitro 3 pri muestreo). Se esploro ejoj ne specimenis hazarde, tiam ĝeneraligo -eĉ el perfekte desegnita kaj farita eksperimento-povas esti problema.

Kune, tiuj 111 eksperimentojn-10 en Allcott (2011) kaj 101 en Allcott (2015) -involved pri 8.5 milionoj hejmoj de refoje Usono. Ili konsekvence montras ke Home Energy Raportoj redukti mezumo elektro konsumado, rezulto kiu subtenas la originalan trovoj de Schultz kaj kolegoj de 300 hejmoj en Kalifornio. Preter nur repliki tiuj originalaj rezultoj, la sekvaĵo eksperimentoj ankaŭ montras ke la grandeco de la efekto varias laŭloke. Tiu aro de eksperimentoj ankaŭ ilustras du pli ĝeneralaj punktoj pri parte diĝita kampo eksperimentoj. Unue, esploristoj povos empirie Adreso zorgojn pri eksteraj valideco kiam la kosto de kurado eksperimentoj estas malalta, kaj tio povas okazi se la rezulto jam estas mezurita de ĉiam-sur datumoj sistemo. Sekve, ĝi sugestas ke esplorado povas esti sur la rigardo-ekstere por aliaj interesa kaj grava kondutoj kiuj estas jam registrita, kaj tiam desegni eksperimentojn sur supro de tiu ekzistanta mezura infrastrukturo. Due, tiu aro de eksperimentoj rememorigas nin ke diĝita kampo eksperimentoj ne nur rete; ĉiam mi atendas ke ili estos ĉie kun multaj rezultoj mezuritaj per sensores en la konstruita medio.

La kvar tipoj de valideco-statistika konkludo valideco, interna valideco, konstrui valideco, ekstera valideco-disponigi mensa Checklist helpi esploristoj taksi se la rezultoj de aparta eksperimento apogas pli ĝeneralan konkludon. Kompare al analoga aĝo eksperimentoj, en cifereca erao eksperimentoj devus esti pli facile trakti eksterajn valideco empirie kaj ĝi devus esti facila por certigi interna valideco. Aliflanke, aferoj de konstrukcio valideco verŝajne estos pli defia en diĝita aĝo eksperimentoj (kvankam tiu ne estis la kazo kun la Opower eksperimentoj).