Maswali kuhusu ukatili katika utafiti wa jamii mara nyingi ni ngumu na ya ajabu. Kwa njia ya msingi ya causality kulingana na grafu causal, angalia Pearl (2009) , na kwa mbinu ya msingi kulingana na matokeo ya uwezo, angalia Imbens and Rubin (2015) . Kwa kulinganisha kati ya njia hizi mbili, angalia Morgan and Winship (2014) . Kwa njia rasmi ya kufafanua VanderWeele and Shpitser (2013) , angalia VanderWeele and Shpitser (2013) .
Katika sura hii, nimeunda kile kilichoonekana kama mstari mkali kati ya uwezo wetu wa kufanya makadirio ya causal kutoka data ya majaribio na yasiyo ya jaribio. Hata hivyo, nadhani kwamba, kwa kweli, tofauti ni mbaya zaidi. Kwa mfano, kila mtu anakubali kuwa sigara husababisha saratani, hata ingawa hakuna jaribio la kudhibitiwa randomized ambalo linawashawishi watu kuta moshi limewahi kufanyika. Kwa matibabu bora ya kitabu cha urefu kwa kufanya makadirio ya causal kutoka kwa data isiyo ya majaribio ona Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , na Dunning (2012) .
Sura ya 1 na 2 ya Freedman, Pisani, and Purves (2007) hutoa utangulizi wazi wa tofauti kati ya majaribio, majaribio ya kudhibitiwa, na majaribio yaliyodhibitiwa na randomized.
Manzi (2012) hutoa kuanzishwa kwa kuvutia na kuonekana kwa msingi wa filosofi na takwimu za majaribio ya kudhibitiwa randomized. Pia hutoa mifano ya kuvutia ya ulimwengu halisi ya nguvu ya majaribio katika biashara. Issenberg (2012) hutoa kuanzishwa kwa kushangaza kwa matumizi ya majaribio katika kampeni za kisiasa.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, na Athey and Imbens (2016b) hutoa utangulizi mzuri kwa mambo ya takwimu ya kubuni na majaribio ya majaribio. Zaidi ya hayo, kuna matibabu bora ya matumizi ya majaribio katika nyanja nyingi: uchumi (Bardsley et al. 2009) , sociology (Willer and Walker 2007; Jackson and Cox 2013) , saikolojia (Aronson et al. 1989) , sayansi ya kisiasa (Morton and Williams 2010) , na sera ya kijamii (Glennerster and Takavarasha 2013) .
Umuhimu wa waajiri wa washiriki (kwa mfano, sampuli) mara nyingi hujulikana katika utafiti wa majaribio. Hata hivyo, ikiwa athari ya matibabu ni tofauti na idadi ya watu, basi sampuli ni muhimu. Longford (1999) hufanya jambo hili wazi wakati anapendekeza kwa watafiti kufikiri ya majaribio kama uchunguzi wa idadi ya watu na sampling haphazard.
Nimeonyesha kuwa kuna mwendelezo kati ya majaribio ya maabara na shamba, na watafiti wengine wamependekeza vigezo vya kina zaidi, hususan wale ambao hutenganisha aina mbalimbali za majaribio ya shamba (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Majarida kadhaa yamefananisha majaribio ya maabara na shamba katika kielelezo (Falk and Heckman 2009; Cialdini 2009) na kwa matokeo ya majaribio maalum katika sayansi ya siasa (Coppock and Green 2015) , uchumi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , na saikolojia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) hutoa kubuni nzuri ya utafiti kwa kulinganisha matokeo kutoka kwa majaribio ya maabara na shamba. Parigi, Santana, and Cook (2017) inaelezea jinsi majaribio ya uwanja wa mtandaoni yanaweza kuchanganya baadhi ya sifa za majaribio ya maabara na shamba.
Wasiwasi kuhusu washiriki wanabadili tabia zao kwa sababu wanajua kuwa wanazingatiwa kwa wakati mwingine huitwa madhara ya mahitaji , na wamejifunza katika saikolojia (Orne 1962) na uchumi (Zizzo 2010) . Ingawa mara nyingi huhusishwa na majaribio ya maabara, masuala hayo yanayoweza kusababisha matatizo ya majaribio ya shamba pia. Kwa kweli, madhara ya mahitaji pia huitwa madhara ya Hawthorne , neno ambalo linapata majaribio maarufu ya kujaa ambayo ilianza mwaka wa 1924 katika Kazi za Hawthorne za Kampuni ya Magharibi ya Umeme (Adair 1984; Levitt and List 2011) . Madhara mawili ya mahitaji na madhara ya Hawthorne yanahusiana kwa karibu na wazo la kipimo cha tendaji kilichojadiliwa katika sura ya 2 (tazama pia Webb et al. (1966) ).
Majaribio ya shamba ni historia ndefu katika uchumi (Levitt and List 2009) , sayansi ya siasa (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , saikolojia (Shadish 2002) , na sera ya umma (Shadish and Cook 2009) . Sehemu moja ya sayansi ya jamii ambapo majaribio ya shamba yalianza kuwa maarufu ni maendeleo ya kimataifa. Kwa upitio mzuri wa kazi hiyo ndani ya uchumi kuona Banerjee and Duflo (2009) , na kwa ajili ya tathmini muhimu kuangalia Deaton (2010) . Kwa ukaguzi wa kazi hii katika sayansi ya siasa kuona Humphreys and Weinstein (2009) . Hatimaye, changamoto za kimaadili zinazojitokeza kutokana na majaribio ya shamba zimezingatiwa katika mazingira ya sayansi ya siasa (Humphreys 2015; Desposato 2016b) na uchumi wa maendeleo (Baele 2013) .
Katika sehemu hii, nilipendekeza kuwa taarifa za matibabu kabla ya matibabu inaweza kutumika kuboresha usahihi wa madhara ya matibabu, lakini kuna mjadala juu ya njia hii; angalia Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , na Bloniarz et al. (2016) kwa habari zaidi.
Hatimaye, kuna aina nyingine mbili za majaribio yaliyotumiwa na wanasayansi wa kijamii ambayo haifai vizuri katika mwelekeo wa shamba la maabara: majaribio ya uchunguzi na majaribio ya kijamii. Majaribio ya uchunguzi ni majaribio ya kutumia miundombinu ya tafiti zilizopo na kulinganisha majibu na matoleo mbadala ya maswali sawa (baadhi ya majaribio ya uchunguzi yanawasilishwa katika Sura ya 3); kwa zaidi juu ya majaribio ya utafiti ona Mutz (2011) . Majaribio ya kijamii ni majaribio ambapo matibabu ni sera fulani ya kijamii ambayo inaweza kutekelezwa tu na serikali. Majaribio ya kijamii yanahusiana na tathmini ya programu. Kwa maelezo zaidi juu ya majaribio ya sera, ona Heckman and Smith (1995) , Orr (1998) , na @ glennerster_running_2013.
Nimechagua kuzingatia dhana tatu: uhalali, uharibifu wa madhara ya tiba, na taratibu. Dhana hizi zina majina tofauti katika nyanja tofauti. Kwa mfano, wanasaikolojia huwa na hoja zaidi ya majaribio rahisi kwa kuzingatia wapatanishi na wasimamizi (Baron and Kenny 1986) . Dhana ya wapatanishi inachukuliwa na kile ambacho ninachoita, na wazo la wasimamizi linachukuliwa na kile ninachokiita uhalali wa nje (kwa mfano, matokeo ya jaribio yanaweza kuwa tofauti ikiwa yameendeshwa katika hali tofauti) na uharibifu wa madhara ya tiba ( kwa mfano, ni madhara makubwa kwa watu wengine kuliko kwa wengine).
Jaribio la Schultz et al. (2007) inaonyesha jinsi nadharia za jamii zinaweza kutumika kutengeneza hatua za ufanisi. Kwa hoja zaidi juu ya jukumu la nadharia katika kubuni mipango yenye ufanisi, angalia Walton (2014) .
Dhana za uhalali wa ndani na nje zilianzishwa kwanza na Campbell (1957) . Angalia Shadish, Cook, and Campbell (2001) kwa historia ya kina zaidi na ufafanuzi wa makini ya uhitimisho wa hesabu, uhalali wa ndani, kujenga uhalali, na uhalali wa nje.
Kwa maelezo ya kina ya masuala yanayohusiana na Imbens and Rubin (2015) wa takwimu uhalali katika majaribio ona Gerber and Green (2012) (kutoka mtazamo wa sayansi ya jamii) na Imbens and Rubin (2015) (kutoka mtazamo wa takwimu). Baadhi ya masuala ya uthibitisho wa hesabu ya takwimu ambayo hutokea hasa katika majaribio ya uwanja wa mtandaoni yanajumuisha masuala kama njia za ufanisi kwa kuunda vipindi vya ujasiri na takwimu za tegemezi (Bakshy and Eckles 2013) .
Uhalali wa ndani unaweza kuwa vigumu kuhakikisha katika majaribio makubwa ya shamba. Angalia, kwa mfano, Gerber and Green (2000) , Imai (2005) , na Gerber and Green (2005) kwa mjadala juu ya utekelezaji wa majaribio ya shamba juu ya kupiga kura. Kohavi et al. (2012) na Kohavi et al. (2013) hutoa utangulizi katika changamoto za uhalali wa muda katika majaribio ya uwanja wa mtandaoni.
Tishio moja kubwa kwa uhalali wa ndani ni uwezekano wa kushindwa kwa randomization. Njia moja rahisi ya kuchunguza matatizo na randomization ni kulinganisha matibabu na vikundi vya kudhibiti juu ya sifa zinazoonekana. Aina hii ya kulinganisha inaitwa hundi ya usawa . Angalia Hansen and Bowers (2008) kwa njia ya takwimu ya ufuatiliaji na Mutz and Pemantle (2015) kwa wasiwasi kuhusu ufuatiliaji wa usawa. Kwa mfano, kwa kutumia hundi ya uwiano, Allcott (2011) alipata ushahidi wa kwamba randomization haikutekelezwa kwa usahihi katika majaribio matatu ya Opower (angalia jedwali la 2; maeneo 2, 6, na 8). Kwa njia nyingine, angalia sura ya 21 ya Imbens and Rubin (2015) .
Masuala mengine makuu kuhusiana na uhalali wa ndani ni: (1) yasiyo ya kufuata, ambapo si kila mtu katika kundi la tiba kweli alipokea matibabu, (2) mbili zisizo na usaidizi, ambapo si kila mtu katika matibabu ya kundi anapata matibabu na watu wengine katika kundi la udhibiti hupokea tiba, (3) uhamisho, ambapo matokeo hayakuhesabiwa kwa washiriki wengine, na (4) kuingilia kati, ambapo matibabu inamwagika kutoka kwa watu katika hali ya matibabu kwa watu wenye hali ya udhibiti. Angalia sura ya 5, 6, 7, na 8 za Gerber and Green (2012) kwa zaidi juu ya kila maswala haya.
Kwa zaidi juu ya kujenga uhalali, angalia Westen and Rosenthal (2003) , na kwa zaidi juu ya kujenga uhalali katika vyanzo vya data kubwa, Lazer (2015) na sura ya 2 ya kitabu hiki.
Kipengele kimoja cha uhalali wa nje ni mipangilio ambayo kuingilia kati kunajaribiwa. Allcott (2015) hutoa matibabu makini na maonyesho ya upendeleo wa uteuzi wa tovuti. Suala hili pia linajadiliwa na Deaton (2010) . Kipengele kingine cha uhalali wa nje ni kama operesheni mbadala ya kuingiliana sawa zitakuwa na athari sawa. Katika kesi hiyo, kulinganisha kati ya Schultz et al. (2007) na Allcott (2011) inaonyesha kwamba majaribio ya Opower yalikuwa na athari ndogo ya kutibiwa kuliko ya majaribio ya awali na Schultz na wenzake (1.7% dhidi ya 5%). Allcott (2011) walidhani kuwa majaribio ya kufuatilia yalikuwa na athari ndogo kwa sababu ya njia ambazo matibabu yalitengana: emoticon iliyoandikwa kwa mkono kama sehemu ya utafiti uliofadhiliwa na chuo kikuu, ikilinganishwa na emoticon iliyochapishwa kama sehemu ya mazao yaliyozalishwa ripoti kutoka kwa kampuni ya nguvu.
Kwa maelezo mazuri ya hterogeneity ya madhara ya matibabu katika majaribio ya shamba, ona sura ya 12 ya Gerber and Green (2012) . Kwa utangulizi wa uharibifu wa madhara ya matibabu katika majaribio ya matibabu, ona Kent and Hayward (2007) , Longford (1999) , na Kravitz, Duan, and Braslow (2004) . Kuzingatia uharibifu wa athari za matibabu kwa ujumla huzingatia tofauti kulingana na sifa za kabla ya matibabu. Ikiwa una nia ya heterogeneity kulingana na matokeo ya baada ya matibabu, basi mbinu zenye ngumu zinahitajika, kama vile stratification kuu (Frangakis and Rubin 2002) ; tazama Page et al. (2015) kwa ukaguzi.
Watafiti wengi wanakadiria uharibifu wa madhara ya matibabu kwa kutumia ukandamizaji wa nishati, lakini njia mpya zaidi hutegemea kujifunza mashine; tazama, kwa mfano, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , na Athey and Imbens (2016a) .
Kuna baadhi ya wasiwasi juu ya upatikanaji wa hterogeneity ya madhara kwa sababu ya matatizo mbalimbali kulinganisha na "uvuvi." Kuna mbinu mbalimbali za takwimu ambazo zinaweza kusaidia kushughulikia wasiwasi kuhusu kulinganisha nyingi (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Njia moja ya wasiwasi kuhusu "uvuvi" ni kabla ya usajili, ambayo inazidi kuwa ya kawaida katika saikolojia (Nosek and Lakens 2014) , sayansi ya kisiasa (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , na uchumi (Olken 2015) .
Katika utafiti wa Costa and Kahn (2013) tu kuhusu nusu ya kaya katika jaribio inaweza kuunganishwa na habari za idadi ya watu. Wasomaji wanaopenda maelezo haya wanapaswa kutaja karatasi ya awali.
Utaratibu ni muhimu sana, lakini huwa vigumu sana kujifunza. Utafiti juu ya utaratibu unahusiana kwa karibu na utafiti wa wapatanishi katika saikolojia (lakini tazama pia VanderWeele (2009) kwa kulinganisha sahihi kati ya mawazo mawili). Mbinu za kutafuta njia, kama vile mbinu iliyopatikana katika Baron and Kenny (1986) , ni ya kawaida. Kwa bahati mbaya, inaonyesha kuwa taratibu hizi zinategemea mawazo mengine yenye nguvu (Bullock, Green, and Ha 2010) na huteseka wakati kuna njia nyingi, kama mtu anavyoweza kutarajia katika hali nyingi (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) na Imai and Yamamoto (2013) hutoa mbinu za kuboresha takwimu. Zaidi ya hayo, VanderWeele (2015) inatoa matibabu ya urefu wa kitabu na matokeo kadhaa muhimu, ikiwa ni pamoja na njia kamili ya uchambuzi wa uelewa.
Mbinu tofauti inalenga katika majaribio ambayo yanajaribu kuendesha utaratibu wa moja kwa moja (kwa mfano, kutoa wasafiri wa vitamini C). Kwa bahati mbaya, katika mipangilio mingi ya sayansi ya kijamii, mara nyingi kuna taratibu nyingi na ni vigumu kutengeneza tiba zinazobadilika moja bila kubadilisha wengine. Baadhi ya mbinu za mabadiliko ya majaribio zinaelezwa na Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , na Pirlott and MacKinnon (2016) .
Watafiti wanaendesha majaribio kamili ya uandishi wa habari watahitaji kuwa na wasiwasi juu ya kupima nyingi za hypothesis; angalia Fink, McConnell, and Vollmer (2014) na List, Shaikh, and Xu (2016) kwa habari zaidi.
Hatimaye, taratibu pia zina historia ndefu katika falsafa ya sayansi kama ilivyoelezwa na Hedström and Ylikoski (2010) .
Kwa zaidi juu ya matumizi ya tafiti za mawasiliano na tafiti za ukaguzi ili kupima ubaguzi, angalia Pager (2007) .
Njia ya kawaida ya kuwaajiri washiriki wa majaribio ambayo hujenga ni Amazon Mechanical Turk (MTurk). Kwa sababu MTurk mimics ya vipengele vya watu wa kawaida wa majaribio ya maabara ya kufanya kazi ambazo hawatakiwa kufanya kwa watafiti wasio na malipo tayari wameanza kutumia Waturuki (watumishi wa MTurk) kama washiriki wa majaribio, na kusababisha ukusanyaji wa data nafuu zaidi kuliko unaweza kupatikana katika majaribio ya maabara ya jadi kwenye chuo (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Kwa ujumla, faida kubwa za kutumia washiriki walioajiriwa kutoka MTurk ni vifaa. Ingawa majaribio ya maabara yanaweza kuchukua majuma ya kuendesha na majaribio ya shamba yanaweza kuchukua miezi kuanzisha, majaribio na washiriki walioajiriwa kutoka MTurk wanaweza kukimbia siku. Kwa mfano, Berinsky, Huber, and Lenz (2012) waliweza kuhamasisha masomo 400 kwa siku moja ili kushiriki katika jaribio la dakika 8. Zaidi ya hayo, washiriki hawa wanaweza kuajiriwa kwa madhumuni yoyote (ikiwa ni pamoja na tafiti na ushirikiano wa wingi, kama ilivyojadiliwa katika sura 3 na 5). Urahisi huu wa kuajiri ina maana kwamba watafiti wanaweza kukimbia mfululizo wa majaribio kuhusiana na mfululizo wa haraka.
Kabla ya kuajiri washiriki kutoka MTurk kwa majaribio yako mwenyewe, kuna vitu vinne muhimu ambavyo unahitaji kujua. Kwanza, watafiti wengi wana wasiokuwa na wasiwasi wa majaribio yanayoshirikisha Turkers. Kwa sababu hii skepticism si maalum, ni vigumu kukabiliana na ushahidi. Hata hivyo, baada ya miaka kadhaa ya tafiti kutumia Turkers, tunaweza sasa kuhitimisha kwamba hii skepticism si hasa haki. Kumekuwa na tafiti nyingi kulinganisha idadi ya watu wa Turkers na wale wa watu wengine na tafiti nyingi kulinganisha matokeo ya majaribio na Turkers yaani wale kutoka kwa watu wengine. Kutokana na kazi hii yote, nadhani kuwa njia bora zaidi ya kufikiria ni kwamba Turkers ni sampuli rahisi, kama vile wanafunzi lakini kidogo zaidi (Berinsky, Huber, and Lenz 2012) . Kwa hiyo, kama wanafunzi ni idadi nzuri ya watu, lakini sio wote, utafiti, Turkers ni idadi nzuri ya watu, lakini siyo yote, utafiti. Ikiwa utakwenda kufanya kazi na Waturuki, basi ni busara kusoma masomo haya ya kulinganisha na kuelewa nuances yao.
Pili, watafiti wamejenga mbinu bora za kuongeza uhalali wa ndani wa majaribio ya MTurk, na unapaswa kujifunza na kufuata mazoea haya bora (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Kwa mfano, watafiti wanaotumia Turkers wanahimizwa kutumia wachunguzi kuondoa washiriki (Berinsky, Margolis, and Sances 2014, 2016) (lakini tazama pia DJ Hauser and Schwarz (2015b) na DJ Hauser and Schwarz (2015a) ). Ikiwa hutawaondoa washiriki wasio na wasiwasi, basi athari yoyote ya matibabu inaweza kufutwa nje na kelele ambayo huanzisha, na katika utendaji idadi ya wasiojali washiriki inaweza kuwa kubwa. Katika jaribio la Huber na wenzake (2012) , asilimia 30 ya washiriki walishindwa wachunguzi wa msingi wa tahadhari. Matatizo mengine yanayotokea mara nyingi wakati Waturuki wanatumiwa ni washiriki wasio na wasiwasi (Chandler et al. 2015) na attrition (Zhou and Fishbach 2016) .
Tatu, kuhusiana na aina nyingine za majaribio ya digital, majaribio ya MTurk hayawezi kuenea; Stewart et al. (2015) inakadiriwa kuwa kwa wakati wowote kuna watu 7,000 tu kwenye MTurk.
Hatimaye, unapaswa kujua kwamba MTurk ni jumuiya yenye sheria na kanuni zake (Mason and Suri 2012) . Kwa namna ile ile ambayo utajaribu kujua kuhusu utamaduni wa nchi ambako ungeenda kukimbia majaribio yako, unapaswa kujaribu kujua zaidi kuhusu utamaduni na kanuni za Turkers (Salehi et al. 2015) . Na unapaswa kujua kwamba Waturuki watazungumzia juu ya jaribio lako ikiwa hufanya kitu kisichofaa au kibaya (Gray et al. 2016) .
MTurk ni njia rahisi sana ya kuwaajiri washiriki kwenye majaribio yako, ikiwa ni maabara kama vile Huber, Hill, and Lenz (2012) , au zaidi ya shamba, kama vile ya Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , na Mao et al. (2016) .
Ikiwa unafikiri ya kujaribu kuunda bidhaa yako mwenyewe, ninapendekeza usome ushauri uliotolewa na kundi la MovieLens huko Harper and Konstan (2015) . Uelewa muhimu kutoka kwa uzoefu wao ni kwamba kwa mradi kila mafanikio kuna mengi, kushindwa nyingi. Kwa mfano, kikundi cha MovieLens kilizindua bidhaa zingine, kama vile GopherAnswers, ambazo zilikuwa kushindwa kamili (Harper and Konstan 2015) . Mfano mwingine wa mtafiti kushindwa wakati akijaribu kujenga bidhaa ni jaribio la Edward Castronova la kujenga mchezo wa online unaitwa Arden. Pamoja na $ 250,000 kwa ufadhili, mradi huo ulikuwa flop (Baker 2008) . Miradi kama GopherAnswers na Arden ni bahati mbaya sana zaidi kuliko miradi kama MovieLens.
Nimesikia wazo la Quadrant ya Pasteur kujadiliwa mara kwa mara kwenye makampuni ya teknolojia, na husaidia kupanga jitihada za utafiti kwenye Google (Spector, Norvig, and Petrov 2012) .
Utafiti wa kifungo na wenzake (2012) pia hujaribu kutambua athari za matibabu haya kwa marafiki wa wale waliowapokea. Kwa sababu ya jaribio la jaribio, vidonda hivi ni vigumu kuchunguza usafi; wasomaji wenye nia wanapaswa kuona Bond et al. (2012) kwa majadiliano zaidi. Jones na wafanyakazi wenzake (2017) pia walifanya jaribio lililofanana sana wakati wa uchaguzi wa 2012. Majaribio haya ni sehemu ya utamaduni mrefu wa majaribio katika sayansi ya siasa juu ya jitihada za kuhamasisha kupiga kura (Green and Gerber 2015) . Majaribio haya ya kutosha ya kupiga kura ni ya kawaida, kwa sehemu kwa sababu ni katika Quadrant ya Pasteur. Hiyo ni, kuna watu wengi ambao wanahamasishwa kuongeza ongezeko la kura na kupiga kura inaweza kuwa tabia ya kuvutia kupima nadharia zaidi ya jumla kuhusu mabadiliko ya tabia na ushawishi wa kijamii.
Kwa ushauri kuhusu kuendesha majaribio ya shamba na mashirika ya washirika kama vile vyama vya siasa, NGOs, na biashara, ona Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , na Gueron (2002) . Kwa mawazo kuhusu jinsi ushirikiano na mashirika unaweza kuathiri miundo ya utafiti, ona King et al. (2007) na Green, Calfano, and Aronow (2014) . Ushirikiano unaweza pia kusababisha maswali ya kimaadili, kama ilivyojadiliwa na Humphreys (2015) na Nickerson and Hyde (2016) .
Ikiwa utaenda kupanga mpango wa uchambuzi kabla ya kukimbia majaribio yako, naomba kuwa uanze kwa kusoma miongozo ya utoaji taarifa. Miongozo ya CONSORT (Mkutano Mkuu wa Ripoti ya Majaribio) ilitengenezwa katika dawa (Schulz et al. 2010) na kurekebishwa kwa utafiti wa kijamii (Mayo-Wilson et al. 2013) . Seti ya miongozo inayohusiana yameandaliwa na wahariri wa jarida la Sayansi ya Sayansi ya Majaribio (Gerber et al. 2014) (tazama pia Mutz and Pemantle (2015) na Gerber et al. (2015) ). Hatimaye, miongozo ya kutoa ripoti imeanzishwa katika saikolojia (APA Working Group 2008) , na pia kuona Simmons, Nelson, and Simonsohn (2011) .
Ikiwa unapanga mpango wa uchambuzi, unapaswa kuzingatia kabla ya kujiandikisha kwa sababu kabla ya usajili itaongeza ujasiri kwamba wengine wako katika matokeo yako. Zaidi ya hayo, ikiwa unafanya kazi na mpenzi, itawawezesha uwezo wa mpenzi wako kubadilisha mabadiliko baada ya kuona matokeo. (Nosek and Lakens 2014) usajili umeongezeka kwa saikolojia (Nosek and Lakens 2014) , sayansi ya siasa (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , na uchumi (Olken 2015) .
Ushauri wa kubuni hasa kwa ajili ya majaribio ya uwanja wa mtandaoni pia umewasilishwa Konstan and Chen (2007) na Chen and Konstan (2015) .
Nini nimeiita mkakati wa armada wakati mwingine huitwa utafiti wa programu ; angalia Wilson, Aronson, and Carlsmith (2010) .
Kwa zaidi juu ya majaribio ya MusicLab, ona Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , na Salganik (2007) . Kwa habari zaidi juu ya masoko ya mshindi, pata Frank and Cook (1996) . Kwa habari zaidi juu ya kufuta bahati na ujuzi zaidi kwa ujumla, ona Mauboussin (2012) , Watts (2012) , na Frank (2016) .
Kuna njia nyingine ya kuondoa malipo ya washiriki ambayo watafiti wanapaswa kutumia kwa uangalifu: usajili. Katika majaribio mengi ya uwanja wa wavuti washiriki wamejiandikisha katika majaribio na kamwe hawapati fidia. Mifano ya njia hii ni pamoja na jitihada za Restivo na van de Rijt (2012) kwa malipo katika Wikipedia na Bond na jaribio la mwenzake (2012) ili kuwahimiza watu kupiga kura. Majaribio haya hayana gharama za kutofautiana na zero-badala, wana gharama za kutofautiana kwa watafiti . Katika majaribio hayo, hata kama gharama kwa kila mshiriki ni mdogo sana, gharama ya jumla inaweza kuwa kubwa sana. Watafiti wanaendesha majaribio makubwa ya mtandaoni mara nyingi huthibitisha umuhimu wa madhara madogo ya matibabu kwa kusema kwamba madhara madogo haya yanaweza kuwa muhimu wakati hutumiwa kwa watu wengi. Fikiria sawa sawa inatumika kwa gharama ambazo watafiti huwapa washiriki. Ikiwa jaribio lako linasababisha watu milioni moja kupoteza dakika moja, jaribio halidhuru sana kwa mtu fulani, lakini kwa jumla imeharibiwa karibu miaka miwili.
Njia nyingine ya kuunda malipo ya gharama kwa washiriki ni kutumia bahati nasibu, njia ambayo pia imetumika katika utafiti wa utafiti (Halpern et al. 2011) . Kwa habari zaidi kuhusu kubuni uzoefu wa mtumiaji kufurahisha, angalia Toomim et al. (2011) . Kwa zaidi kuhusu kutumia bots ili kujenga jaribio la gharama za kutofautiana kuona ( ??? ) .
Ya tatu ya R kama awali iliyopendekezwa na Russell and Burch (1959) ni kama ifuatavyo:
"Replacement ina maana badala ya fahamu wanaoishi wanyama ya juu ya vifaa insentient. Kupunguza maana kupunguza idadi ya wanyama kutumika ili kupata taarifa ya kiasi kutokana na na usahihi. Finslipades ina maana kupungua yoyote katika matukio au ukali wa taratibu kinyama kutumika kwa wanyama wale ambao bado wana kutumiwa. "
R's tatu ambazo mimi hupendekeza hazizidi kanuni za kimaadili zilizoelezwa katika sura ya 6. Badala yake, ni toleo la kufafanuliwa zaidi ya kanuni hizo-faida-hasa katika mazingira ya majaribio ya kibinadamu.
Kwa upande wa R kwanza ("badala"), kulinganisha jaribio la kuambukizwa kihisia (Kramer, Guillory, and Hancock 2014) na jaribio la asili la kihisia (Lorenzo Coviello et al. 2014) hutoa masomo ya jumla kuhusu biashara zinazohusika katika kusonga kutoka majaribio hadi majaribio ya asili (na mbinu zingine zinazofanana na jaribio la majaribio ya takriban katika data isiyo ya majaribio; ona sura ya 2). Mbali na faida za kimaadili, kubadili kutoka kwa majaribio hadi tafiti zisizo za majaribio pia huwawezesha watafiti kuchunguza tiba ambazo zinaweza kutumiwa. Faida hizi za maadili na vifaa huja kwa gharama, hata hivyo. Kwa majaribio ya asili watafiti hawana udhibiti mdogo juu ya mambo kama kuajiri wa washiriki, randomization, na hali ya matibabu. Kwa mfano, ukomo mmoja wa mvua kama matibabu ni kwamba wote huongeza positivity na hupungua negativity. Katika utafiti wa majaribio, hata hivyo, Kramer na wenzake waliweza kurekebisha msimamo na negativity kwa kujitegemea. Njia fulani inayotumiwa na Lorenzo Coviello et al. (2014) ilifafanuliwa zaidi na L. Coviello, Fowler, and Franceschetti (2014) . Kwa utangulizi wa vigezo vya vyombo, ni njia inayotumiwa na Lorenzo Coviello et al. (2014) , angalia Angrist and Pischke (2009) (si rasmi) au Angrist, Imbens, and Rubin (1996) (rasmi zaidi). Kwa uchunguzi wa wasiwasi wa vigezo vya vyombo, angalia Deaton (2010) , na kwa kuanzishwa kwa vigezo vya vyombo na vyombo vyenye nguvu (mvua ni chombo dhaifu), ona Murray (2006) . Kwa ujumla, utangulizi mzuri wa majaribio ya asili hutolewa na Dunning (2012) , wakati Rosenbaum (2002) , ( ??? ) , na Shadish, Cook, and Campbell (2001) hutoa mawazo mazuri kuhusu kukadiria madhara ya causal bila majaribio.
Kwa upande wa pili wa R ("ufanisi"), kuna biashara za kisayansi na vifaa wakati wa kuzingatia kubadilisha muundo wa Msaada wa Kihisia kutoka kuzuia machapisho ya kuongeza machapisho. Kwa mfano, inaweza kuwa hivyo kwamba utekelezaji wa kiufundi wa News Feed hufanya iwe rahisi sana kufanya majaribio ambayo posts ni blocked badala ya moja ambayo wao ni kuongeza (kumbuka kwamba jaribio la kuzuia kuzuia wa posts inaweza kutekelezwa kama safu juu ya mfumo wa Habari za Feed bila haja yoyote ya mabadiliko ya mfumo wa msingi). Kwa kisayansi, hata hivyo, nadharia inayoelezewa na jaribio haikuonyesha wazi mpango mmoja juu ya nyingine. Kwa bahati mbaya, sijui uchunguzi mkubwa wa awali juu ya uhalali wa jamaa wa kuzuia na kuongeza maudhui katika News Feed. Pia, sijaona uchunguzi mingi juu ya kusafisha matibabu ili kuwafanya kuwa wadhuru; ubaguzi mmoja ni B. Jones and Feamster (2015) , ambayo inazingatia kesi ya kipimo cha udhibiti wa mtandao (mada ambayo mimi kujadili katika sura ya 6 katika uhusiano na Utafiti wa Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Kwa suala la tatu R ("kupunguza"), utangulizi mzuri kwa uchambuzi wa nguvu za jadi hutolewa na Cohen (1988) (kitabu) na Cohen (1992) (makala), wakati Gelman and Carlin (2014) wanatoa mtazamo tofauti. Covariates kabla ya matibabu inaweza kuingizwa katika hatua ya kubuni na uchambuzi wa majaribio; sura ya 4 ya Gerber and Green (2012) hutoa utangulizi mzuri kwa njia zote mbili, na Casella (2008) hutoa matibabu zaidi. Mbinu ambazo hutumia habari hii ya kabla ya matibabu katika randomization hujulikana kama mipango ya majaribio ya kuzuia majaribio au miundo ya majaribio yaliyotengwa (nenosiri haitumiwi mara kwa mara katika jumuiya); mbinu hizi zinahusiana kwa karibu na mbinu za sampuli za stratified kujadiliwa katika sura ya 3. Ona Higgins, Sävje, and Sekhon (2016) kwa zaidi juu ya kutumia miundo hii katika majaribio makubwa. Covariates kabla ya matibabu pia inaweza kuingizwa katika hatua ya uchambuzi. McKenzie (2012) hutafuta mbinu tofauti-tofauti-tofauti ya kuchambua majaribio ya shamba kwa undani zaidi. Angalia Carneiro, Lee, and Wilhelm (2016) kwa zaidi juu ya biashara-offs kati ya mbinu mbalimbali za kuongeza usahihi katika makadirio ya madhara ya matibabu. Hatimaye, wakati wa kuamua ikiwa ni kujaribu kujumuisha covariates kabla ya matibabu katika hatua ya kubuni au uchambuzi (au wote wawili), kuna mambo kadhaa ya kuzingatia. Katika mazingira ambapo watafiti wanataka kuonyesha kwamba hawana "uvuvi" (Humphreys, Sierra, and Windt 2013) , kutumia covariates kabla ya matibabu katika hatua ya kubuni inaweza kuwa na manufaa (Higgins, Sävje, and Sekhon 2016) . Katika hali ambapo washiriki wanawasili kwa usawa, hasa majaribio ya uwanja wa mtandaoni, kutumia maelezo ya matibabu kabla ya hatua ya kubuni inaweza kuwa vigumu logistically; tazama, kwa mfano, Xie and Aurisset (2016) .
Ni thamani ya kuongeza kidogo ya intuition kuhusu kwa nini njia tofauti-tofauti-inaweza kuwa na ufanisi zaidi kuliko tofauti-in-maana moja. Matokeo mengi ya mtandaoni yana tofauti sana (tazama, RA Lewis and Rao (2015) na Lamb et al. (2015) ) na ni sawa kwa muda. Katika kesi hiyo, alama ya mabadiliko itakuwa na tofauti ndogo ndogo, kuongeza nguvu ya mtihani wa takwimu. Moja ya sababu njia hii haitumiwi mara nyingi ni kwamba kabla ya umri wa digital, haikuwa kawaida kuwa na matokeo ya matibabu ya kabla. Njia thabiti zaidi ya kufikiri juu ya hili ni kufikiria jaribio la kupima kama mazoezi ya zoezi maalum husababisha kupoteza uzito. Ukitumia mbinu tofauti-in-means, makadirio yako yatakuwa na tofauti kati ya kutofautiana kwa uzito katika idadi ya watu. Ikiwa unafanya njia tofauti-tofauti-tofauti, hata hivyo, kutofautiana kwa kawaida kwa uzito huondolewa, na unaweza kuona kwa urahisi tofauti zinazosababishwa na matibabu.
Hatimaye, nilifikiri kuongeza R nne: "repurpose". Hiyo ni, kama watafiti wanajikuta na data zaidi ya majaribio kuliko wanayohitaji kushughulikia swali lao la awali la utafiti, wanapaswa kuweka tena data ili kuuliza maswali mapya. Kwa mfano, fikiria kwamba Kramer na wafanyakazi wenzake walikuwa wametumia mkaguzi wa makadirio tofauti na walijikuta na data zaidi kuliko walihitaji kushughulikia swali lao la utafiti. Badala ya kutumia data kwa kiwango kamili, wangeweza kujifunza ukubwa wa athari kama kazi ya kujieleza kihisia ya kihisia. Kama vile Schultz et al. (2007) iligundua kwamba athari za matibabu zilikuwa tofauti kwa watumiaji wa mwanga na nzito, labda madhara ya Habari Feed yalikuwa tofauti kwa watu ambao tayari walijaribu kutuma ujumbe wa furaha (au huzuni). Kuweka upya kunaweza kusababisha "uvuvi" (Humphreys, Sierra, and Windt 2013) na "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , lakini haya yanaweza kushughulikiwa na mchanganyiko wa taarifa za uaminifu (Simmons, Nelson, and Simonsohn 2011) , kabla ya usajili (Humphreys, Sierra, and Windt 2013) , na mbinu za kujifunza mashine zinazojaribu kuepuka zaidi.