4.4.1 Валидност

Този превод е създаден от компютър. ×

4.4.1 Валидност

Валидност отнася до колко резултатите от експеримент, поддържат по-общ извод.

Никой експеримент не е съвършен и изследователите са разработили обширен речник за описване на възможни проблеми. Валидността се отнася до степента, в която резултатите от конкретен експеримент подкрепят някакво по-общо заключение. Социалните учени са намерили за полезно да разделят валидността си на четири основни типа: валидност на статистическото заключение, вътрешна валидност, конструктивна валидност и външна валидност (Shadish, Cook, and Campbell 2001, chap. 2) . Усвояването на тези понятия ще ви осигури умствен контролен списък за критикуване и подобряване на дизайна и анализа на експеримента и ще ви помогне да общувате с други изследователи.

Валидността на статистическото заключение се фокусира върху това дали статистическият анализ на експеримента е направен правилно. В контекста на Schultz et al. (2007) , въпросът може да се съсредоточи върху това, дали те са изчислили правилно своите $p$ стойности. Статистическите принципи, които трябва да се разработят и анализират, са извън обхвата на тази книга, но те не са се променили съществено в дигиталната ера. Това, което се е променило обаче, е, че средата за данни в цифровите експерименти създаде нови възможности като използването на методи за машинно обучение, за да се оцени хетерогенността на ефектите от лечението (Imai and Ratkovic 2013) .

Вътрешната валидност е свързана с това дали експерименталните процедури са били извършени правилно. Връщайки се към експеримента на Schultz et al. (2007) , въпросите за вътрешната валидност могат да се фокусират върху рандомизирането, предоставянето на лечение и измерването на резултатите. Например може да сте загрижени, че изследователите не са чели надеждно електромерите. Всъщност, Шулц и колегите се притесняваха за този проблем и те имаха проба от два метра, прочетени два пъти; за щастие резултатите бяха по същество идентични. Изпитът на Шулц и колеги като цяло изглежда е с висока вътрешна валидност, но това не винаги е така: сложните полеви и онлайн експерименти често се сблъскват с проблеми, всъщност дават правилното лечение на точните хора и измерват резултатите за всеки. За щастие дигиталната епоха може да помогне да се намалят опасенията относно вътрешната валидност, тъй като сега е по-лесно да се гарантира, че лечението се предоставя на онези, които трябва да я получат, и да измери резултатите за всички участници.

Конструирайте центровете за валидност около мача между данните и теоретичните конструкции. Както е разгледано в глава 2, конструктите са абстрактни понятия, за които разсъждават социолозите. За съжаление, тези абстрактни понятия не винаги имат ясни дефиниции и измервания. Връщайки се към Schultz et al. (2007) , твърдението, че прекалените социални норми могат да намалят употребата на електроенергия, изисква изследователите да разработят лечение, което да манипулира "прекалените социални норми" (напр. Емотикон) и да измерва "използването на електроенергия". В аналогични експерименти много изследователи са проектирали свое собствено лечение и са измерили собствените си резултати. Този подход гарантира, че колкото е възможно, експериментите съвпадат с изучаваните абстрактни конструкции. В цифровите експерименти, където изследователите си партнират с компании или правителства, за да доставят лечение и използват винаги системите за данни за измерване на резултатите, мачът между експеримента и теоретичните конструкции може да е по-малко стегнат. По този начин очаквам, че валидността на конструкцията ще е по-голяма загриженост в цифровите експерименти, отколкото в аналоговите експерименти.

Накрая, външната валидност се фокусира върху това дали резултатите от този експеримент могат да бъдат обобщени в други ситуации. Връщайки се към Schultz et al. (2007) , би могло да се попита дали тази същата идея, предоставяща на хората информация за тяхното използване на енергия във връзка с техните връстници и сигнал за прекалени норми (напр. Емотикон), би намалил потреблението на енергия, ако е било направено по различен начин в различна настройка. За най-добре проектираните и добре изпълнявани експерименти е най-трудно да се обърне внимание на външната валидност. В миналото тези дебати относно външната валидност често не включваха нищо повече от група хора, седнали в една стая, опитвайки се да си представят какво би станало, ако процедурите бяха извършени по различен начин или на различно място или с различни участници , За щастие, цифровата епоха позволява на изследователите да се движат извън тези спекулации без данни и да оценят емпирично външната валидност.

Тъй като резултатите от Schultz et al. (2007) бяха толкова вълнуващи, че компанията, наречена Opower, си партнира с комунални услуги в Съединените щати, за да разгърне терапията по-широко. Въз основа на дизайна на Schultz et al. (2007) , Opower създаде персонализирани Домашни Енергийни доклади, които имат два основни модула: единият показва електричеството на домакинството по отношение на неговите съседи с емотикон и едното дава съвети за понижаване на потреблението на енергия (фигура 4.6). След това, в партньорство с изследователите, Opower проведе рандомизирани контролирани експерименти, за да оцени въздействието на тези Доклади за вътрешната енергия. Въпреки че леченията в тези експерименти обикновено се извършват физически - обикновено чрез старомодна пощенска поща - резултатът се измерва с помощта на цифрови устройства във физическия свят (напр. Електромери). По-нататък, вместо да се събира ръчно тази информация с изследователи, които посещават всяка къща, експериментите на Opower се извършват в партньорство с енергийни компании, които дават възможност на изследователите да получат достъп до мощните показания. По този начин, тези частично цифрови полеви експерименти се провеждаха в мащабен мащаб при ниски променливи разходи.

Фигура 4.6: Докладите за домашната енергия имат модул за социално сравнение и модул за стъпки на действие. Възпроизведено с разрешение от Allcott (2011) , фигури 1 и 2.

В първия набор от експерименти, включващи 600 000 домакинства от 10 различни сайта, Allcott (2011) констатира, че Докладът за енергийната ефективност на дома е намалил потреблението на електроенергия. С други думи, резултатите от много по-голямото географски разнообразно изследване са били качествено подобни на резултатите от Schultz et al. (2007) . Освен това, в следващите изследвания, включващи осем милиона допълнителни домакинства от 101 различни места, Allcott (2015) отново констатира, че Докладът за енергийната ефективност постоянно намалява консумацията на електроенергия. Този много по-голям набор от експерименти също разкри интересен нов модел, който не би бил видим в нито един експеримент: размерът на ефекта е намалял в по-късните експерименти (фигура 4.7). Allcott (2015) спекулира, че този спад се е случил, защото с течение на времето лечението се прилагаше за различни видове участници. По-конкретно, комуналните услуги с по-екологосъобразни клиенти по-скоро приемаха програмата по-рано, а клиентите им реагираха по-добре на лечението. Тъй като комуналните услуги с по-малко екологосъобразни клиенти приеха програмата, нейната ефективност изглежда намалява. По този начин, както и рандомизирането в експериментите гарантира, че групата за лечение и контрол са сходни, рандомизацията в изследователските обекти гарантира, че оценките могат да бъдат обобщени от една група участници до по-обща популация (помислете отново за глава 3 относно вземането на проби). Ако изследователските обекти не се вземат под формата на случайни извадки, генерализацията - дори и от идеално проектиран и проведен експеримент - може да бъде проблематична.

Фигура 4.7: Резултати от 111 експеримента, които тестват ефекта от Доклада за домашната енергия върху консумацията на електроенергия. На места, където програмата е приета по-късно, тенденцията е да има по-малки ефекти. Allcott (2015) твърди, че основен източник на този модел е, че сайтовете с по-екологично ориентирани клиенти са по-склонни да приемат програмата по-рано. Адаптиран от Allcott (2015) , фигура 3.

Заедно тези 111 експеримента - 10 в Allcott (2011) и 101 в Allcott (2015) - Allcott (2015) около 8,5 милиона домакинства от цяла САЩ. Те постоянно показват, че Home Energy Reports намаляват средното потребление на електроенергия, което подкрепя оригиналните констатации на Schultz и колеги от 300 домове в Калифорния. Отвъд само възпроизвеждането на тези оригинални резултати, последващите експерименти също показват, че размерът на ефекта варира според местоположението. Този набор от експерименти илюстрира още две общи точки за частично цифрови полеви експерименти. Първо, изследователите ще могат емпирично да се занимават със загриженост относно външната валидност, когато разходите за провеждане на експерименти са ниски и това може да се случи, ако резултатът вече се измерва с постоянна система за данни. Поради това тя предлага изследователите да търсят други интересни и важни поведения, които вече се записват, а след това да проектират експерименти върху тази съществуваща измервателна инфраструктура. Второ, този набор от експерименти ни напомня, че експериментите с цифрови полета не са само онлайн; все повече очаквам, че те ще бъдат навсякъде с много резултати, измерени от сензори в изградената среда.

Четирите типа валидност - валидност на статистическото заключение, вътрешна валидност, конструктивна валидност и външна валидност - предоставят умствен контролен списък, който помага на изследователите да преценят дали резултатите от конкретен експеримент подкрепят по-общо заключение. В сравнение с опитите с аналогова възраст, при експериментите в дигиталната ера е по-лесно да се адресира външната валидност емпирично и трябва също така да бъде по-лесно да се гарантира вътрешната валидност. От друга страна, въпросите за валидността на конструкцията вероятно ще бъдат по-предизвикателни в експериментите в дигиталната ера, особено при експериментите с цифрови полета, които включват партньорства с фирми.