Ważność dotyczy ile wyniki eksperymentu wspierać bardziej ogólne wnioski.
Brak doświadczenia nie jest doskonały, a naukowcy opracowali obszerny słownictwa opisać ewentualne problemy. Ważność odnosi się do stopnia, w jakim wyniki konkretnego eksperymentu obsługuje niektórych bardziej ogólne wnioski. Socjologowie stwierdzili, że warto podzielić ważność na cztery główne rodzaje: Ważność zawarcie statystycznych, wewnętrzna ważności, trafności i zewnętrznej ważności (Shadish, Cook, and Campbell 2001, Ch 2) . Opanowanie tych pojęć zapewni Ci listę kontrolną psychicznego dla krytyki i poprawy projektowania i analizy eksperymentu, a to pomoże Ci komunikować się z innymi badaczami.
Centra statystyczne ważności zawarcia wokół czy analiza statystyczna eksperymentu została wykonana poprawnie. W kontekście Schultz et al. (2007) , takie pytanie może koncentrować się na ich czy są obliczane wartości p poprawnie. Analiza statystyczna wykracza poza zakres tej książki, ale mogę powiedzieć, że zasady statystyczne potrzebne do projektowania i analizowania doświadczeń nie zmieniły się w epoce cyfrowej. Jednak różne środowiska danych w doświadczeniach cyfrowych stwarza nowe możliwości statystycznych (np stosując metody uczenia maszynowego w celu oszacowania heterogeniczność efektów leczenia (Imai and Ratkovic 2013) ) i nowych wyzwań obliczeniowych (np blokowania w masowych eksperymentów (Higgins, Sävje, and Sekhon 2016) ).
Centra ważności Wewnętrzne wokół czy procedury doświadczalne przeprowadzono poprawnie. Wracając do eksperymentu Schultz et al. (2007) , pytania o wewnętrznej ważności może skupiać się na randomizacji dostawę leczenia i pomiar wyników. Na przykład, można obawiać się, że asystenci nie przeczytałem liczników energii elektrycznej w sposób wiarygodny. W rzeczywistości, Schultz i jego współpracownicy byli zaniepokojeni tym problemem i mieli próbkę metrów czytać dwa razy; Na szczęście, wyniki były zasadniczo takie same. W ogóle, Schultz i eksperymentować kolegów wydaje się mieć wysoką ważność wewnętrzną, ale nie zawsze tak jest; Kompleks pola i eksperymenty internetowych często napotkasz problemy rzeczywiście dostarczających odpowiednie leczenie do właściwych ludzi i pomiar efektów dla każdego. Na szczęście, wiek cyfrowy może zmniejszyć obawy wewnętrznej ważności, ponieważ sprawia, że łatwiej jest zapewnić, że leczenie jest dostarczany jako przeznaczony dla tych, którzy mają otrzymywać je i mierzyć wyniki dla wszystkich uczestników.
Construct centra ważności całego meczu pomiędzy danymi i konstruktów teoretycznych. Jak wspomniano w rozdziale 2, konstrukty są abstrakcyjne pojęcia, że socjologowie powodem temat. Niestety, te abstrakcyjne pojęcia nie zawsze mają jasne definicje i pomiarów. Wracając do Schultz et al. (2007) , twierdzenie, że nakazy sądowe normy społeczne może obniżyć zużycie energii elektrycznej wymaga od naukowców do opracowania terapii, które manipulować "sądowe normy społeczne" (np emotikon) i na miarę "zużycie energii elektrycznej". W eksperymentach analogowych, wielu badaczy zaprojektowane własne zabiegi i zmierzyć swoje wyniki. Takie podejście zapewnia, że w miarę możliwości, eksperymenty dopasować badane abstrakcyjne konstrukty. W doświadczeniach cyfrowych, gdzie naukowcy partnerem firm lub rządów, by dostarczać zabiegi i używać zawsze w systemach danych służących do pomiaru rezultatów, mecz pomiędzy eksperymentem a konstruktów teoretycznych może być mniej napięty. Tak więc spodziewam się, że ważność konstrukt będzie wydają się być większe zaniepokojenie w doświadczeniach cyfrowych niż analogowych eksperymentów.
Wreszcie, koncentruje się wokół zewnętrznego ważności, czy wyniki tego eksperymentu nie można uogólnić do innych sytuacjach. Wracając do Schultz et al. (2007) , można by zapytać, to sama idea osoby dostarczającej informacje na temat ich zużycia energii w stosunku do swoich rówieśników i sygnałem norm wydanie nakazu (np emotikon) -reduce zużycia energii, jeśli została sporządzona w inny sposób inne ustawienie? Dla większości dobrze zaprojektowane i dobrze prowadzony eksperymenty obawy o zewnętrznej ważności są najtrudniejsze do rozwiązania. W przeszłości, te debaty o zewnętrznej ważności były często tylko kilka osób siedzących w pomieszczeniu, próbując sobie wyobrazić, co by się stało, gdyby procedury były wykonywane w inny sposób, lub w innym miejscu, albo z różnymi ludźmi. Na szczęście era cyfrowa umożliwia naukowcom wyjść poza tymi spekulacjami danych wolna i oceny zewnętrznej ważności empirycznie.
Ponieważ wyników Schultz et al. (2007) były tak ekscytujące, firma o nazwie Opower współpracuje z mediów w Stanach Zjednoczonych w celu wdrożenia leczenia w szerszym zakresie. Na podstawie konstrukcji Schultz et al. (2007) , Opower stworzone dostosowane Strona główna Raporty energia, która miała dwa główne moduły, jeden pokazujący względem zużycia energii elektrycznej w gospodarstwie domowym do swoich sąsiadów z emotikon i jeden dostarczając wskazówek na obniżenie zużycia energii (rysunek 4.6). Następnie, we współpracy z naukowcami, Opower prowadził randomizacją eksperymenty, aby ocenić wpływ rodzimego Reports Energii. Pomimo tego, że zabiegi w tych eksperymentach były zazwyczaj dostarczane fizycznie zwykle poprzez staromodnego pocztą tradycyjną, wynik był mierzony za pomocą urządzeń cyfrowych w świecie fizycznym (np liczników energii elektrycznej). Zamiast ręcznie zbierając te informacje z asystentów badawczych odwiedzają każdy dom, eksperymenty Opower były wykonywane we współpracy z firm energetycznych umożliwiających naukowcom dostęp do odczytów mocy. Tak więc, te częściowo cyfrowe doświadczenia polowe przeprowadzono na masową skalę przy niskich kosztach zmiennych.
W pierwszym zestawie eksperymentów z udziałem 600.000 gospodarstw domowych obsługiwanych przez 10 przedsiębiorstw użyteczności publicznej w całych Stanach Zjednoczonych, Allcott (2011) okazało się, że raport Home Energy obniżone zużycie energii elektrycznej o 1,7%. Innymi słowy, wyniki znacznie większej, bardziej zróżnicowanej geograficznie badania były jakościowo podobne do wyników z Schultz et al. (2007) . Jednak wielkość wpływ był mniejszy W Schultz et al. (2007) gospodarstw domowych w opisowej i wtryskowe stan norm (jednego z emotikon) ograniczyli zużycie energii elektrycznej o 5%. Dokładna przyczyna tej różnicy nie jest znana, ale Allcott (2011) przypuszczają, że odbiera odręcznie emotikon w ramach badań sponsorowanych przez uniwersytet może mieć większy wpływ na zachowanie niż otrzymywanie drukowany emotikon jako część wyprodukowanej raport z Przedsiębiorstwo energetyczne.
Ponadto w kolejnych badaniach, Allcott (2015) poinformował o dodatkowe 101 eksperymentów obejmujących dodatkowe 8 mln gospodarstw domowych. W tych najbliższych 101 eksperymentów raport Home Energy nadal powodować, że ludzie obniżyć zużycie energii elektrycznej, ale efekty były jeszcze mniejsze. Dokładna przyczyna tego zjawiska nie jest znana, ale Allcott (2015) spekulowali, że skuteczność raporcie pojawiła się maleć z upływem czasu, ponieważ faktycznie stosowane do różnych rodzajów uczestników. Dokładniej, media w kilku obszarach ekologiem częściej przyjmuje program wcześniej, a ich klienci byli bardziej reaguje na leczenie. Jako narzędzia z mniej klientów środowiskowych przyjęto program, jego skuteczność wydaje się spadać. Tak więc, podobnie jak w doświadczeniach randomizacji zapewnia, że w grupie leczonej i kontroli są podobne, randomizacji w miejscach badawczych gwarantuje, że szacunki mogą być uogólnione z jednej grupy uczestników do bardziej ogólnej populacji (zespoły z powrotem do rozdziału 3 o próbkowania). Jeśli strony nie są próbą badania losowo, to uogólnienie, nawet z doskonale zaprojektowany i przeprowadzony eksperyment, może być problematyczne.
Wszystkie te eksperymenty 111-10 w Allcott (2011) i 101 w Allcott (2015) -involved około 8,5 mln gospodarstw domowych z całego USA. Oni konsekwentnie pokazują, że raporty Home Energy obniżyć średnie zużycie energii elektrycznej, wynik, który obsługuje oryginalne wyniki Schultz i kolegom z 300 domów w Kalifornii. Poza prostu replikacji tych oryginalnych wyników, follow-up eksperymenty pokazują również, że wielkość efektu zależy od lokalizacji. Ten zestaw doświadczeń ilustruje także dwie bardziej ogólne punkty dotyczące częściowo cyfrowych eksperymentów polowych. Po pierwsze, badacze będą w stanie empirycznie zagrożeniom związanym zewnętrznej ważność, gdy koszt eksperymentowanie jest niska, może się zdarzyć, jeżeli wynik jest już mierzone zawsze o danych systemu. Dlatego też sugeruje, że badania powinny być na wypatrywać innych ciekawych i ważnych zachowań, które są już zarejestrowane, a następnie zaprojektować eksperymenty na początku tej istniejącej infrastruktury pomiarowej. Po drugie, ten zestaw eksperymentów przypomina nam, że cyfrowe doświadczenia polowe są nie tylko w Internecie; Spodziewam się, że w coraz większym stopniu będą wszędzie z wielu efektów mierzonych przez czujniki w środowisku zbudowanym.
Cztery typy ważności zawarcia ważności statystyczne, wewnętrznej ważności, trafności, zewnętrzne Ważność zapewnić psychiczną kontrolną, aby pomóc badaczom ocenić, czy wyniki z konkretnego eksperymentu wspierać bardziej ogólne wnioski. W porównaniu do analogowych eksperymentów wiekowych w cyfrowych eksperymentów wieku powinno być łatwiejsze do rozwiązania zewnętrznego ważność empirycznie i powinno być łatwiej zapewnić wewnętrzną ważność. Z drugiej strony, kwestie ważności konstruktu będzie prawdopodobnie trudniejsze w cyfrowych eksperymentów wieku (chociaż to nie było w przypadku eksperymentów Opower).