Ważność dotyczy ile wyniki eksperymentu wspierać bardziej ogólne wnioski.
Żaden eksperyment nie jest doskonały, a naukowcy opracowali obszerne słownictwo opisujące możliwe problemy. Ważność odnosi się do stopnia, w jakim wyniki konkretnego eksperymentu potwierdzają nieco bardziej ogólny wniosek. Naukowcy społeczni uznali, że pomocne jest podzielenie ważności na cztery główne typy: trafność wniosków statystycznych, trafność wewnętrzna, trafność konstrukcji i trafność zewnętrzna (Shadish, Cook, and Campbell 2001, chap. 2) . Opanowanie tych koncepcji zapewni ci mentalną listę kontrolną do krytyki i ulepszenia projektu i analizy eksperymentu, a także pomoże ci komunikować się z innymi badaczami.
Ważność wniosków statystycznych koncentruje się wokół tego, czy analiza statystyczna eksperymentu została przeprowadzona poprawnie. W kontekście Schultz et al. (2007) , takie pytanie może skupić się na tym, czy poprawnie obliczyły swoje \(p\) wartości. Zasady statystyczne potrzebne do projektowania i analizy eksperymentów wykraczają poza zakres tej książki, ale nie zmieniły się zasadniczo w erze cyfrowej. Zmieniło się jednak to, że środowisko danych w cyfrowych eksperymentach stworzyło nowe możliwości, takie jak wykorzystanie metod uczenia maszynowego do oszacowania heterogeniczności efektów leczenia (Imai and Ratkovic 2013) .
Ważność wewnętrzna koncentruje się wokół tego, czy procedury eksperymentalne zostały wykonane poprawnie. Wracając do eksperymentu Schultz et al. (2007) , pytania dotyczące wewnętrznej trafności mogą koncentrować się wokół randomizacji, dostarczania leczenia i pomiaru wyników. Na przykład możesz być zaniepokojony tym, że asystenci naukowcy nie odczytali mierników elektrycznych w niezawodny sposób. W rzeczywistości Schultz i jego współpracownicy martwili się tym problemem i mieli próbkę liczników odczytaną dwukrotnie; na szczęście wyniki były zasadniczo identyczne. Ogólnie rzecz biorąc, eksperyment Schultza i jego współpracowników wydaje się mieć wysoką wewnętrzną ważność, ale nie zawsze tak jest: złożone eksperymenty w terenie i online często napotykają na problemy, które w rzeczywistości zapewniają odpowiednie leczenie właściwym ludziom i mierzą wyniki dla wszystkich. Na szczęście erze cyfrowej może pomóc zmniejszyć obawy o wewnętrzną ważność, ponieważ teraz łatwiej jest zapewnić, że leczenie jest dostarczane do tych, którzy mają je otrzymać i mierzyć wyniki dla wszystkich uczestników.
Twórz centra ważności wokół zgodności między danymi a teoretycznymi konstrukcjami. Jak zostało to omówione w rozdziale 2, konstrukcje są abstrakcyjnymi pojęciami, o których mówią naukowcy społeczni. Niestety, te abstrakcyjne pojęcia nie zawsze mają jasne definicje i pomiary. Wracając do Schultz et al. (2007) , twierdzenie, że powściągliwe normy społeczne mogą obniżyć zużycie energii elektrycznej, wymaga od naukowców zaprojektowania leczenia, które będzie manipulować "nakazowymi normami społecznymi" (np. Emotikony) i zmierzyć "zużycie energii elektrycznej". W eksperymentach analogowych wielu badaczy opracowało własne metody leczenia i mierzyło własne wyniki. Takie podejście zapewnia, że eksperymenty są w miarę możliwości dopasowane do badanych abstrakcyjnych konstrukcji. W eksperymentach cyfrowych, w których naukowcy współpracują z firmami lub rządami w celu dostarczania terapii i używają zawsze systemów danych do mierzenia wyników, dopasowanie eksperymentu do teoretycznych konstrukcji może być mniej ścisłe. Tak więc, oczekuję, że ważność konstruktu będzie większym problemem w cyfrowych eksperymentach niż w eksperymentach analogowych.
Wreszcie ważność zewnętrzna koncentruje się wokół tego, czy wyniki tego eksperymentu można uogólnić na inne sytuacje. Wracając do Schultz et al. (2007) , można by zapytać, czy ten sam pomysł - dostarczanie ludziom informacji o ich zużyciu energii w stosunku do ich rówieśników i sygnał nakazujących norm (np. Emotikon) - zmniejszyłby zużycie energii, gdyby zostało to zrobione w inny sposób w innym ustawieniu. W przypadku większości dobrze zaprojektowanych i dobrze przeprowadzonych eksperymentów najtrudniej jest rozwiązać obawy dotyczące zewnętrznej trafności. W przeszłości debaty na temat zewnętrznej wiarygodności często obejmowały jedynie grupę osób siedzących w pokoju, próbujących wyobrazić sobie, co by się stało, gdyby procedury zostały wykonane w inny sposób, w innym miejscu lub z innymi uczestnikami. . Na szczęście era cyfrowa umożliwia badaczom wyjście poza te spekulacje bez danych i empirycznie oceniają zewnętrzną wiarygodność.
Ponieważ wyniki z Schultz et al. (2007) były tak ekscytujące, że firma o nazwie Opower współpracowała z narzędziami w Stanach Zjednoczonych w celu szerszego zastosowania tego leczenia. Na podstawie projektu Schultz et al. (2007) , Opower opracował dostosowane raporty zużycia energii w domu, które miały dwa główne moduły: jeden pokazujący zużycie energii elektrycznej w gospodarstwie domowym w stosunku do swoich sąsiadów za pomocą emotikonu i jeden zawierający wskazówki dotyczące obniżenia zużycia energii (rysunek 4.6). Następnie, we współpracy z badaczami, Opower przeprowadził randomizowane, kontrolowane eksperymenty, aby ocenić wpływ tych Raportów Energetyki Domowej. Mimo że terapie w tych eksperymentach były zwykle dostarczane fizycznie - zwykle za pośrednictwem staromodnej poczty ślimakowej - wynik mierzono za pomocą urządzeń cyfrowych w świecie fizycznym (np. Mierniki mocy). Co więcej, zamiast ręcznie zbierać te informacje z asystentami naukowymi odwiedzającymi każdy dom, eksperymenty Opower zostały przeprowadzone we współpracy z firmami energetycznymi, umożliwiając naukowcom dostęp do odczytów mocy. Tak więc, te częściowo cyfrowe eksperymenty polowe przeprowadzono na masową skalę przy niskich zmiennych kosztach.
W pierwszym zestawie eksperymentów z udziałem 600 000 gospodarstw domowych z 10 różnych stron, Allcott (2011) stwierdził, że raport o energii zużywa Allcott (2011) energii. Innymi słowy, wyniki znacznie większego, bardziej zróżnicowanego geograficznie badania były jakościowo podobne do wyników Schultz et al. (2007) . Ponadto, w kolejnych badaniach z udziałem ośmiu milionów dodatkowych gospodarstw domowych ze 101 różnych stron, Allcott (2015) ponownie stwierdził, że Home Energy Report konsekwentnie obniża zużycie energii elektrycznej. Ten znacznie większy zestaw eksperymentów ujawnił również interesujący nowy wzór, który nie byłby widoczny w żadnym pojedynczym eksperymencie: rozmiar efektu zmniejszył się w późniejszych eksperymentach (rysunek 4.7). Allcott (2015) spekulował, że ten spadek nastąpił, ponieważ z biegiem czasu leczenie było stosowane do różnych typów uczestników. Mówiąc dokładniej, przedsiębiorstwa użyteczności publicznej z bardziej skoncentrowanymi na środowisku klientami częściej przyjmowały program wcześniej, a ich klienci bardziej reagowali na leczenie. Ponieważ programy korzystające z mniej przyjaznych środowisku klientów przyjęły program, jego skuteczność zdawała się maleć. Tak więc, tak jak randomizacja w eksperymentach zapewnia, że grupa leczenia i grupa kontrolna są podobne, randomizacja w miejscach badań zapewnia, że szacunki mogą zostać uogólnione z jednej grupy uczestników do bardziej ogólnej populacji (wróćmy do rozdziału 3 dotyczącego próbkowania). Jeśli miejsca badań nie są losowane losowo, generalizacja - nawet z doskonale zaprojektowanego i przeprowadzonego eksperymentu - może być problematyczna.
Łącznie te 111 eksperymentów - 10 w Allcott (2011) i 101 w Allcott (2015) obejmowało około 8,5 miliona gospodarstw domowych z całych Stanów Zjednoczonych. Konsekwentnie pokazują, że Home Energy Reports zmniejszają średnie zużycie energii elektrycznej, co potwierdza pierwotne wyniki badań Schultza i współpracowników z 300 domów w Kalifornii. Poza powtórzeniem tych oryginalnych wyników eksperymenty kontrolne pokazują również, że rozmiar efektu zależy od lokalizacji. Ten zestaw eksperymentów ilustruje również dwa bardziej ogólne punkty dotyczące częściowo cyfrowych eksperymentów polowych. Po pierwsze, badacze będą w stanie empirycznie rozwiązać obawy dotyczące zewnętrznej trafności, gdy koszt przeprowadzania eksperymentów jest niski i może się to zdarzyć, jeśli wynik jest już mierzony przez zawsze aktywny system danych. Sugeruje to, że naukowcy powinni zwracać uwagę na inne interesujące i ważne zachowania, które już są rejestrowane, a następnie projektować eksperymenty na bazie istniejącej infrastruktury pomiarowej. Po drugie, ten zestaw eksperymentów przypomina nam, że cyfrowe eksperymenty terenowe nie są tylko online; Coraz częściej spodziewam się, że będą one wszędzie, z wieloma wynikami mierzonymi przez czujniki w środowisku zbudowanym.
Cztery typy ważności ważności - ważność wniosków statystycznych, trafność wewnętrzna, trafność konstrukcji i trafność zewnętrzna - stanowią mentalną listę kontrolną, która pomaga badaczom ocenić, czy wyniki konkretnego eksperymentu potwierdzają bardziej ogólny wniosek. W porównaniu z eksperymentami w wieku analogowym, w eksperymentach z cyfrowymi epokami, powinno być łatwiejsze empiryczne odniesienie do zewnętrznej trafności, a także powinno być łatwiejsze zapewnienie wewnętrznej trafności. Z drugiej strony kwestie ważności konstruktywnej będą prawdopodobnie trudniejsze w eksperymentach związanych z wiekiem cyfrowym, zwłaszcza w cyfrowych eksperymentach terenowych, które obejmują partnerstwo z firmami.