Valabilitate se referă la cât de mult rezultatele unui experiment susțin o concluzie mai generală.
Nici un experiment este perfect, iar cercetătorii au dezvoltat un vocabular extins pentru a descrie posibilele probleme. Valabilitatea se referă la măsura în care rezultatele unui anumit experiment susține unele concluzii mai generale. Sociologii au considerat că este util să se împartă valabilitatea în patru tipuri principale: valabilitate concluzie statistică, validitate internă, validitatea de construct și validitatea externă (Shadish, Cook, and Campbell 2001, Ch 2) . Stăpânirea acestor concepte vă va oferi o listă de verificare mentală pentru îmbunătățirea și criticînd proiectarea și analiza unui experiment, și-l va ajuta să comunice cu alți cercetători.
Centre statistice valabilitate concluzie în jurul valorii dacă analiza statistică a experimentului a fost făcut în mod corect. În cadrul Schultz et al. (2007) , o asemenea chestiune s - ar putea concentra asupra dacă au calculat corect p-valorile lor. Analiza statistică este dincolo de domeniul de aplicare al acestei cărți, dar pot spune că principiile statistice necesare pentru a proiecta și de a analiza experimente care nu s-au schimbat în era digitală. Cu toate acestea, mediul de date diferite în experimente digitale creează noi oportunități statistice ( de exemplu, folosind metode de învățare automată pentru a estima eterogenității efectelor tratamentului (Imai and Ratkovic 2013) ) și noile provocări de calcul ( de exemplu, blocarea în experimente masive (Higgins, Sävje, and Sekhon 2016) ).
Centre de valabilitate internă în jurul dacă procedurile experimentale au fost efectuate corect. Revenind la experimentul lui Schultz et al. (2007) , întrebări cu privire la validitatea internă ar putea centra în jurul randomizare, livrarea tratamentului, și măsurarea rezultatelor. De exemplu, ați putea fi îngrijorat de faptul că asistenții de cercetare nu au citit contoarele electrice în mod fiabil. De fapt, Schultz si colegii sai au fost ingrijorati cu privire la această problemă și au avut un eșantion de metri citit de două ori; Din fericire, rezultatele au fost, în esență, identice. În general, Schultz și experiment colegii pare să aibă validitate internă ridicată, dar acest lucru nu este întotdeauna cazul; domeniu complex și experimente on-line de multe ori o problemă cu livrare, de fapt, dreptul de tratament la oamenii potriviți și măsurarea rezultatelor pentru toată lumea. Din fericire, vârsta digitală poate contribui la reducerea preocupările legate de validitatea internă, deoarece este mai ușor să se asigure că tratamentul este livrat ca conceput pentru cei care ar trebui să-l primească și să măsoare rezultatele pentru toți participanții.
Amenajarea unor centre de validitate în jurul meciului dintre datele și constructele teoretice. Așa cum sa discutat în Capitolul 2, constructele sunt concepte abstracte, care oamenii de știință socială motiv cu privire la. Din păcate, aceste concepte abstracte nu au întotdeauna definiții și măsurători clare. Revenind la Schultz et al. (2007) , afirmația conform căreia normele sociale injunctive pot reduce consumul de energie electrică impune cercetătorilor pentru a proiecta un tratament care ar manipula "normele sociale în încetare" ( de exemplu, un emoticon) și pentru a măsura "consumul de energie electrică". In experimentele de analogice, multi cercetatori proiectat propriile lor tratamente si a masurat propriile rezultate. Această abordare garantează că, pe cât posibil, experimentele se potrivesc cu constructe abstracte studiate. În experimentele digitale, în cazul în care partenerul cercetători cu companii sau guverne pentru a oferi tratamente si de a folosi întotdeauna pe sistemele de date pentru a măsura rezultatele, meciul dintre experiment și construcțiile teoretice pot fi mai puțin strânse. Astfel, mă aștept ca validitatea de construct va tinde să fie o preocupare mai mare în experimentele digitale decât experimentele analogice.
În cele din urmă, validitatea externă în jurul valorii de centre dacă rezultatele acestui experiment s- ar generaliza la alte situații. Revenind la Schultz et al. (2007) , s -ar putea întreba, va prezenta aceeași idee, oferind oamenilor informații despre utilizarea lor de energie în relație cu semenii lor și un semnal de norme penalizările ( de exemplu, un emoticon) în cazul în care consumul de energie -Reducerea a fost făcută într - un mod diferit în o altă setare? Pentru cele mai bine concepute și experimente bine conduse, preocupările legate de validitatea externă sunt cel mai greu de abordat. In trecut, aceste dezbateri cu privire la validitatea externă au fost în mod frecvent doar o grămadă de oameni care stau într-o cameră încercând să-și imagineze ce s-ar fi întâmplat dacă procedurile au fost efectuate într-un mod diferit, sau într-un alt loc, sau cu diferite persoane. Din fericire, vârsta digitală permite cercetătorilor să se deplaseze dincolo de aceste speculații-date libere și să evalueze validitatea externă empiric.
Deoarece rezultatele de la Schultz et al. (2007) au fost atât de interesant, o companie numita Opower parteneriat cu utilitati in Statele Unite pentru a implementa un tratament mai larg. Pe baza proiectarea Schultz et al. (2007) , Opower creat personalizate pentru casa Rapoarte de energie care au avut două module principale, una care arată utilizarea de energie electrică relativă a gospodăriei vecinilor săi , cu un emoticon și unul oferind sfaturi pentru reducerea nivelului de utilizare a energiei (Figura 4.6). Apoi, în parteneriat cu cercetători, Opower experimente controlate randomizate alergau pentru a evalua impactul rapoartelor energetice interne. Chiar dacă tratamentele în aceste experimente au fost de obicei livrate fizic-de obicei, prin vechiul melc de modă prin corespondență rezultatul a fost măsurat cu ajutorul dispozitivelor digitale din lumea fizică (de exemplu, contoare de energie electrică). Mai degrabă decât colectarea manual aceste informații cu asistenți de cercetare care vizitează fiecare casă, experimentele Opower au fost toate realizate în parteneriat cu companiile de electricitate care sa permita cercetatorilor pentru a avea acces la citirile de putere. Astfel, aceste experimente de teren parțial digitale au fost efectuate la o scară masivă la costuri variabile reduse.
Într - un prim set de experimente care implică 600.000 de gospodării deservite de 10 companii de utilități din Statele Unite ale Americii, Allcott (2011) a găsit Raportul de energie Acasă a redus consumul de energie electrică cu 1,7%. Cu alte cuvinte, rezultatele din studiul mult mai mare, mai diversificate geografic calitativ similar cu rezultatele de la Schultz et al. (2007) . Dar, mărimea efectului a fost mai mică: în Schultz et al. (2007) , gospodăriile din condiția normelor descriptive și injectivă (cea cu emoticonul) a redus utilizarea lor de energie electrică cu 5%. Motivul precis pentru această diferență nu este cunoscută, dar Allcott (2011) a speculat că a primit o emoticon scrisă de mână , ca parte a unui studiu sponsorizat de o universitate ar putea avea un efect mai mare asupra comportamentului decât primirea unui emoticon imprimat , ca parte a unui raport de masă produsă dintr - un companie de putere.
În plus, în cercetarea ulterioară, Allcott (2015) a raportat pe încă 101 de experimente care implică o perioadă suplimentară de 8 milioane de gospodării. În următoarele 101 de experimente Raportul de energie Acasă au continuat să determine oamenii să reducă consumul de energie electrică, dar efectele au fost chiar mai mici. Exact motivul pentru care acest declin nu este cunoscut, dar Allcott (2015) a speculat că eficacitatea raportului pare a fi în scădere în timp , pentru că a fost de fapt fiind aplicate diferitelor tipuri de participanți. Mai precis, utilități în mai multe zone ecologiste au fost mult mai probabil să adopte programul anterior și clienții lor au fost mai receptivi la tratament. Utilități cu clienții mai puțin de mediu a adoptat programul, eficacitatea sa pare să scadă. Astfel, la fel ca randomizare în experimente asigură că grupul de tratament și de control sunt similare, randomizare în siturile de cercetare asigură că estimările pot fi generalizate dintr-un singur grup de participanți la o populație mai generală (gândesc la capitolul 3 cu privire la prelevarea de probe). În cazul în care site-urile de cercetare nu sunt incluși în eșantion aleatoriu, apoi generalizare-chiar și dintr-un perfect proiectat și realizat experiment poate fi problematică.
Împreună, aceste 111 experimente-10 în Allcott (2011) și 101 în Allcott (2015) -involved circa 8,5 milioane de gospodării din peste tot în Statele Unite ale Americii. Ei au în mod constant arată că rapoartele Pagina principală de energie reduce consumul mediu de energie electrică, un rezultat care susține constatările inițiale ale Schultz si colegii de la 300 de case in California. Dincolo de replicarea doar aceste rezultate originale, experimentele follow-up, de asemenea, arată că mărimea efectului variază în funcție de locație. Acest set de experimente, ilustrează, de asemenea, două mai multe puncte generale despre experimente de teren parțial digitale. In primul rand, cercetatorii vor fi capabili să abordeze preocupările cu privire la empirice a validității externe atunci când costul de funcționare experimente este scăzut, iar acest lucru poate avea loc în cazul în care rezultatul este deja măsurat printr-un sistem permanent la date. Prin urmare, se sugerează că cercetarea ar trebui să fie pe look-out pentru alte comportamente interesante și importante care sunt deja înregistrate, iar apoi de design experimente pe partea de sus a acestei infrastructuri de măsurare existente. În al doilea rând, acest set de experimente ne amintește că experiențele de câmp digitale nu sunt doar on-line; din ce în ce mă aștept ca ei vor fi peste tot cu multe rezultate măsurate de senzori în mediul construit.
Cele patru tipuri de-valabilitate statistică de valabilitate concluzie, validitatea internă, validitatea de construct, validitate-externă furnizează o listă de verificare mentală pentru a ajuta cercetatorii evalua daca rezultatele dintr-un anumit experiment susțin o concluzie mai generală. În comparație cu experimentele de vârstă analogice, în experimentele digitale de vârstă ar trebui să fie mai ușor de a aborda validitatea externă empiric și ar trebui să fie mai ușor pentru a asigura validitatea internă. Pe de altă parte, problemele de validitate de construct va fi, probabil, mai provocator în experimente de vârstă digitale (deși aceasta nu a fost cazul cu experimentele Opower).