Valabilitate se referă la cât de mult rezultatele unui experiment susțin o concluzie mai generală.
Niciun experiment nu este perfect și cercetătorii au dezvoltat un vocabular extins pentru a descrie posibile probleme. Valabilitatea se referă la măsura în care rezultatele unui anumit experiment susțin o concluzie mai generală. Cercetătorii sociali au considerat că este util să se împartă valabilitatea în patru tipuri principale: validitatea încheierii statistice, valabilitatea internă, validitatea construirii și validitatea externă (Shadish, Cook, and Campbell 2001, chap. 2) . Mastering aceste concepte vă va oferi o listă de verificare mentală pentru a critica și a îmbunătăți proiectarea și analiza unui experiment și vă va ajuta să comunicați cu alți cercetători.
Valoarea concluziei statistice se axează pe analiza statistică a experimentului în mod corect. În contextul lui Schultz et al. (2007) , o astfel de întrebare s-ar putea concentra asupra corectitudinii calculelor lor \(p\) . Principiile statistice necesare pentru a proiecta și a analiza experimentele depășesc sfera acestei cărți, dar ele nu s-au schimbat fundamental în era digitală. Ceea ce sa schimbat însă este faptul că mediul de date în experimentele digitale a creat noi oportunități, cum ar fi utilizarea metodelor de învățare mecanică pentru a estima eterogenitatea efectelor tratamentului (Imai and Ratkovic 2013) .
Valoarea internă se axează pe verificarea corectă a procedurilor experimentale. Revenind la experimentul lui Schultz et al. (2007) , întrebările privind validitatea internă s-ar putea concentra în jurul randomizării, furnizării tratamentului și măsurării rezultatelor. De exemplu, ați putea fi îngrijorat de faptul că asistenții de cercetare nu au citit contoarele electrice în mod fiabil. De fapt, Schultz și colegii erau îngrijorați de această problemă și au avut un eșantion de metri citiți de două ori; din fericire, rezultatele au fost în esență identice. În general, experimentul lui Schultz și al colegilor pare să aibă o valabilitate internă ridicată, dar acest lucru nu este întotdeauna cazul: experimentele pe teren complexe și on-line se confruntă adesea cu probleme care oferă, de fapt, tratamentul potrivit oamenilor potriviți și măsurarea rezultatelor pentru toată lumea. Din fericire, vârsta digitală poate contribui la reducerea preocupărilor legate de validitatea internă, deoarece este mai ușor să se asigure că tratamentul este oferit celor care ar trebui să îl primească și să măsoare rezultatele pentru toți participanții.
Construiți valabilitatea centrilor în jurul potrivirii între datele și construcțiile teoretice. Așa cum am discutat în capitolul 2, constructele sunt concepte abstracte pe care oamenii de știință sociali o gândesc. Din păcate, aceste concepte abstracte nu au întotdeauna definiții și măsurători clare. Revenind la Schultz et al. (2007) , afirmația că normele sociale injuncte pot reduce consumul de energie electrică necesită cercetătorii să proiecteze un tratament care să manipuleze "normele sociale injuncte" (de exemplu, un emoticon) și să măsoare "utilizarea energiei electrice". În experimentele analoge, mulți cercetători și-au proiectat propriile tratamente și și-au măsurat propriile rezultate. Această abordare asigură că, pe cât posibil, experimentele se potrivesc cu construcțiile abstracte studiate. În experimentele digitale în care cercetătorii colaborează cu companii sau cu guvernele pentru a furniza tratamente și pentru a utiliza întotdeauna sisteme de date pentru măsurarea rezultatelor, concordanța dintre experiment și conceptele teoretice poate fi mai puțin strictă. Astfel, mă aștept ca validitatea construcției să tindă să fie o preocupare mai mare în experimentele digitale decât în experimentele analoge.
În cele din urmă, valabilitatea externă se axează pe faptul că rezultatele acestui experiment pot fi generalizate în alte situații. Revenind la Schultz et al. (2007) , s-ar putea întreba dacă aceeași idee care furnizează oamenilor informații despre consumul de energie în raport cu colegii lor și un semnal de norme injunctive (de exemplu, un emoticon) - ar putea reduce consumul de energie dacă s-ar fi făcut într-un mod diferit într-un cadru diferit. Pentru cele mai bine concepute și bine conduse experimente, preocupările legate de validitatea externă sunt cele mai grele de rezolvat. În trecut, aceste dezbateri despre valabilitatea externă nu implicau mai mult decât un grup de oameni care se aflau într-o cameră încercând să-și imagineze ce s-ar fi întâmplat dacă procedurile ar fi fost făcute într-un mod diferit sau într-un alt loc sau cu diferiți participanți . Din fericire, vârsta digitală permite cercetătorilor să depășească aceste speculații fără date și să evalueze empiric valabilitatea externă.
Deoarece rezultatele de la Schultz et al. (2007) au fost atat de incitante, o companie numita Opower in parteneriat cu utilitatile din Statele Unite pentru a implementa tratamentul pe scara larga. Bazându-se pe designul lui Schultz et al. (2007) , Opower a creat rapoarte personalizate de energie la domiciliu, care au avut două module principale: una care arată consumul de energie al gospodăriei în raport cu vecinii săi cu un emoticon și unul oferind sfaturi pentru reducerea consumului de energie (figura 4.6). Apoi, în parteneriat cu cercetătorii, Opower a desfășurat experimente controlate în mod randomizat pentru a evalua impactul acestor rapoarte de energie la domiciliu. Chiar dacă tratamentele din aceste experimente au fost livrate de obicei fizic - de obicei, prin posta de melci de modă veche - rezultatul a fost măsurat utilizând dispozitivele digitale din lumea fizică (de exemplu, contoarele de energie). Mai mult, mai degrabă decât colectarea manuală a acestor informații cu asistenții de cercetare care vizitează fiecare casă, experimentele Opower s-au realizat în parteneriat cu companiile din domeniul energetic, permițând cercetătorilor să acceseze citirile de putere. Astfel, aceste experimente de câmp parțial digital s-au desfășurat la o scară masivă la un cost variabil scăzut.
Într-un prim set de experimente care implică 600.000 de gospodării din 10 site-uri diferite, Allcott (2011) constatat că Raportul privind energia la domiciliu a redus consumul de energie electrică. Cu alte cuvinte, rezultatele din studiul mult mai amplu, mai divers din punct de vedere geografic au fost calitativ similare cu rezultatele obținute de Schultz et al. (2007) . Mai mult, în cercetările ulterioare care au implicat opt milioane de gospodării suplimentare din 101 site-uri diferite, Allcott (2015) a constatat din nou că raportul Energie la domiciliu a redus în mod consecvent consumul de energie electrică. Acest set mult mai mare de experimente a dezvăluit, de asemenea, un nou model interesant care nu ar fi vizibil în nici un experiment: mărimea efectului a scăzut în experimentele ulterioare (figura 4.7). Allcott (2015) speculat că acest declin sa întâmplat deoarece, în timp, tratamentul a fost aplicat diferitelor tipuri de participanți. Mai precis, utilitatile cu clienti mai ecologici au fost mult mai probabil sa adopte programul mai devreme, iar clientii lor au fost mai receptivi la tratament. Dat fiind faptul că utilitățile cu clienți mai puțin ecologici au adoptat programul, eficacitatea acestuia pare să scadă. Astfel, la fel cum randomizarea în experimente asigură faptul că grupul de tratament și grupul de control este similar, randomizarea în site-urile de cercetare asigură faptul că estimările pot fi generalizate de la un grup de participanți la o populație mai generală (gândiți-vă la capitolul 3 despre eșantionare). Dacă site-urile de cercetare nu sunt eșantionate aleatoriu, generalizarea - chiar și dintr-un experiment perfect conceput și realizat - poate fi problematică.
Împreună, aceste 111 experimente - 10 în Allcott (2011) și 101 în Allcott (2015) implicat aproximativ 8,5 milioane de gospodării din toate Statele Unite. Acestea arată în mod constant că Rapoartele privind energia la domiciliu reduc consumul mediu de energie electrică, un rezultat care susține constatările originale ale lui Schultz și colegilor săi din 300 de case din California. Dincolo de repetarea acestor rezultate inițiale, experimentele de urmărire arată, de asemenea, că mărimea efectului variază în funcție de locație. Acest set de experimente ilustrează, de asemenea, două aspecte generale despre experimentele pe câmpul parțial digital. În primul rând, cercetătorii vor putea să abordeze empiric preocupările legate de valabilitatea externă atunci când costul experimentelor de rulare este scăzut și acest lucru poate apărea dacă rezultatul este deja măsurat printr-un sistem de date întotdeauna. Prin urmare, sugerează că cercetătorii ar trebui să fie în căutarea altor comportamente interesante și importante care sunt deja înregistrate și apoi să proiecteze experimente pe lângă această infrastructură de măsurare existentă. În al doilea rând, acest set de experimente ne amintește că experimentele pe câmpuri digitale nu sunt doar online; din ce în ce mai mult, mă aștept ca acestea să fie peste tot cu multe rezultate măsurate de senzori în mediul construit.
Cele patru tipuri de valabilitate - valabilitatea concluziilor statistice, valabilitatea internă, validitatea construirii și valabilitatea externă - furnizează o listă de verificare mentală pentru a ajuta cercetătorii să evalueze dacă rezultatele unui anumit experiment susțin o concluzie mai generală. În comparație cu experimentele de vârstă analogică, în experimentele de vârstă digitală, ar trebui să fie mai ușor să se abordeze empiric validitatea externă și ar trebui, de asemenea, să fie mai ușor să se asigure validitatea internă. Pe de altă parte, problemele de valabilitate a constructului vor fi probabil mai dificile în experimentele de vârstă digitală, în special în experimentele pe terenuri digitale care implică parteneriate cu companii.