Możemy przybliżać eksperymenty, których nie zrobiliśmy lub nie możemy. Dwa podejścia, które szczególnie korzystają z dużych źródeł danych, to naturalne eksperymenty i dopasowanie.
Niektóre ważne pytania naukowe i polityczne są przyczynowe. Na przykład, jaki jest wpływ programu szkolenia zawodowego na płace? Badacz, który spróbuje odpowiedzieć na to pytanie, może porównać zarobki osób, które zgłosiły się na szkolenie, do tych, które go nie otrzymały. Ale jak duża różnica w zarobkach między tymi grupami wynika ze szkolenia, a ile z powodu wcześniejszych różnic między osobami, które się zapisały, a tymi, które tego nie robią? Jest to trudne pytanie, które nie usuwa automatycznie więcej danych. Innymi słowy, troska o możliwe wcześniej istniejące różnice powstaje bez względu na to, ilu pracowników znajduje się w Twoich danych.
W wielu sytuacjach najsilniejszym sposobem oszacowania przyczynowego wpływu niektórych metod leczenia, takich jak szkolenie zawodowe, jest przeprowadzenie randomizowanego kontrolowanego eksperymentu, w którym badacz losowo dostarcza leczenie niektórym ludziom, a nie innym. Przekażę cały rozdział 4 eksperymentom, więc tutaj skupię się na dwóch strategiach, które można wykorzystać w przypadku danych nieeksperymentalnych. Pierwsza strategia polega na szukaniu czegoś, co dzieje się w świecie, który losowo (lub prawie losowo) przypisuje leczenie niektórym ludziom, a nie innym. Druga strategia zależy od statystycznego dostosowywania danych nieeksperymentalnych, próbując wyjaśnić istniejące wcześniej różnice między tymi, którzy zrobili i nie otrzymali leczenia.
Sceptyk może twierdzić, że należy unikać obu tych strategii, ponieważ wymagają one mocnych założeń, trudnych do oszacowania założeń, które w praktyce są często łamane. Chociaż jestem sympatyczny z tym twierdzeniem, myślę, że idzie o krok za daleko. Z pewnością prawdą jest, że trudno jest wiarygodnie dokonać szacunków przyczynowych na podstawie danych nieeksperymentalnych, ale nie sądzę, że oznacza to, że nigdy nie powinniśmy próbować. W szczególności podejście nieeksperymentalne może być pomocne, jeśli ograniczenia logistyczne uniemożliwiają przeprowadzenie eksperymentu lub etyczne ograniczenia oznaczają, że nie chcesz przeprowadzać eksperymentu. Ponadto, nieeksperymentalne podejścia mogą być pomocne, jeśli chcesz wykorzystać dane, które już istnieją, aby zaprojektować randomizowany kontrolowany eksperyment.
Zanim przejdziemy dalej, warto również zauważyć, że dokonywanie szacunków przyczynowych jest jednym z najbardziej złożonych tematów w badaniach społecznych i może prowadzić do intensywnej i emocjonalnej debaty. W dalszej części przedstawię optymistyczny opis każdego podejścia w celu zbudowania intuicji na jego temat, a następnie opiszę niektóre z wyzwań pojawiających się podczas stosowania tego podejścia. Dalsze szczegóły dotyczące każdego podejścia są dostępne w materiałach na końcu tego rozdziału. Jeśli zamierzasz zastosować jedno z tych podejść w swoich własnych badaniach, bardzo polecam lekturę jednej z wielu doskonałych książek na temat wnioskowania przyczynowego (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Jednym ze sposobów dokonywania oceny przyczynowej z danych nieeksperymentalnych jest poszukiwanie zdarzenia, które losowo przypisało leczenie niektórym ludziom, a nie innym. Te sytuacje nazywane są naturalnymi eksperymentami . Jeden z najjaśniejszych przykładów naturalnego eksperymentu pochodzi z badań Joshua Angrist (1990) mierzącego wpływ służby wojskowej na zarobki. Podczas wojny w Wietnamie Stany Zjednoczone zwiększyły rozmiar swoich sił zbrojnych poprzez projekt. Aby zdecydować, którzy obywatele zostaną powołani do służby, rząd USA zorganizował loterię. Każda data urodzenia została zapisana na kartce papieru i, jak pokazano na rysunku 2.7, te kartki zostały wybrane pojedynczo, aby określić kolejność, w której młodzi mężczyźni mieliby zostać wezwani do służby (młode kobiety nie były poddane do projektu). Na podstawie wyników, mężczyźni urodzeni 14 września zostali nazwani pierwszymi, mężczyźni urodzeni 24 kwietnia zostali nazwani drugimi, i tak dalej. Ostatecznie w tej loterii przygotowywano mężczyzn urodzonych w 195 różnych dniach, podczas gdy mężczyźni urodzeni w 171 dni nie byli.
Chociaż może nie być od razu widoczne, loteria losowa ma krytyczne podobieństwo do losowego kontrolowanego eksperymentu: w obu sytuacjach uczestnicy są losowo przydzielani do leczenia. Aby zbadać wpływ tego zrandomizowanego leczenia, Angrist wykorzystał cały czas system big data: amerykańską administrację zabezpieczenia społecznego, która zbiera informacje na temat praktycznie każdego amerykańskiego zarobku z zatrudnienia. Łącząc informacje o tym, kto został losowo wybrany w loterii losowej z danymi o zarobkach zebranymi w rządowych rejestrach administracyjnych, Angrist stwierdził, że zarobki weteranów były o około 15% niższe niż zarobki porównywalnych nie weteranów.
Jak ilustruje to przykład, czasami siły społeczne, polityczne lub naturalne przypisują terapie w sposób, który może być wykorzystany przez naukowców, a czasem efekty tych zabiegów przechwytywane są zawsze w dużych źródłach danych. Tę strategię badawczą można podsumować w następujący sposób: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Aby zilustrować tę strategię w erze cyfrowej, rozważmy badanie Alexandre Masa i Enrico Morettiego (2009) którzy próbowali oszacować wpływ pracy z produktywnymi kolegami na produktywność pracownika. Zanim obejrzysz wyniki, warto zauważyć, że mogą istnieć sprzeczne oczekiwania. Z jednej strony można się spodziewać, że praca z produktywnymi kolegami poprowadzi pracownika do zwiększenia jej wydajności z powodu presji rówieśników. Albo, z drugiej strony, możesz oczekiwać, że ciężko pracujący rówieśnicy mogą spowodować, że pracownik straci pracę, ponieważ praca zostanie wykonana przez jej rówieśników. Najlepszym sposobem badania wpływu rówieśników na produktywność byłby losowy kontrolowany eksperyment, w którym pracownicy są losowo przydzielani do zmian z pracownikami o różnych poziomach produktywności, a następnie mierzona jest wydajność dla wszystkich. Badacze jednak nie kontrolują harmonogramu pracowników w prawdziwym biznesie, więc Mas i Moretti musieli polegać na naturalnym eksperymencie z udziałem kasjerów w supermarkecie.
W tym konkretnym supermarkecie, ze względu na sposób, w jaki odbywało się planowanie i sposób, w jaki się zmieniały, każdy z kasjerów miał różnych współpracowników o różnych porach dnia. Co więcej, w tym konkretnym supermarkecie przypisanie kasjerów nie miało związku z produktywnością ich rówieśników ani z tym, jak zajęty był sklep. Innymi słowy, nawet jeśli planowanie kasjerów nie było ustalone przez loterię, to było tak, jakby pracownicy byli czasami losowo przydzielani do pracy z wysokimi (lub niskimi) rówieśnikami wydajności. Na szczęście w tym supermarkecie istniał system kas fiskalny, który śledził przedmioty, które każda kasjerka cały czas skanowała. Na podstawie danych z tego rejestru transakcji Mas i Moretti byli w stanie stworzyć dokładną, indywidualną i zawsze aktualną miarę wydajności: liczbę przedmiotów skanowanych na sekundę. Łącząc te dwie rzeczy - naturalnie występującą zmienność produktywności rówieśników i stale mierzalną wydajność - Mas i Moretti oszacowali, że gdyby kasjerowi przydzielono współpracowników, którzy byliby o 10% bardziej wydajni niż przeciętnie, jej produktywność wzrósłaby o 1,5% . Co więcej, wykorzystali wielkość i bogactwo swoich danych, aby zbadać dwie ważne kwestie: heterogeniczność tego efektu (dla których rodzajów pracowników jest większy efekt?) Oraz mechanizmy stojące za efektem (dlaczego posiadanie wysokiej wydajności rówieśników prowadzi do wyższa produktywność?). Powrócimy do tych dwóch ważnych kwestii - niejednorodności efektów i mechanizmów leczenia - w rozdziale 4, kiedy omawiamy eksperymenty bardziej szczegółowo.
Uogólniając na tych dwóch badaniach, tabela 2.3 podsumowuje inne badania, które mają tę samą strukturę: wykorzystanie stałego źródła danych do mierzenia wpływu niektórych losowych zmian. W praktyce badacze stosują dwie różne strategie wyszukiwania naturalnych eksperymentów, które mogą być owocne. Niektórzy badacze zaczynają od stałego źródła danych i szukają losowych wydarzeń na świecie; inni rozpoczynają losowe wydarzenie na świecie i szukają źródeł danych, które odzwierciedlają jego wpływ.
Merytoryczne skupienie | Źródło naturalnego eksperymentu | Zawsze włączone źródło danych | Odniesienie |
---|---|---|---|
Wpływ rówieśników na produktywność | Proces planowania | Dane do kasy | Mas and Moretti (2009) |
Tworzenie przyjaźni | Huragany | Phan and Airoldi (2015) | |
Rozprzestrzenianie emocji | Deszcz | Lorenzo Coviello et al. (2014) | |
Transakcje ekonomiczne typu peer-to-peer | Trzęsienie ziemi | Mobilne dane pieniężne | Blumenstock, Fafchamps, and Eagle (2011) |
Prywatne zachowania konsumpcyjne | 2013 Zamknięcie rządu USA | Dane dotyczące finansów osobistych | Baker and Yannelis (2015) |
Wpływ ekonomiczny systemów rekomendujących | Różnorodny | Przeglądanie danych w Amazon | Sharma, Hofman, and Watts (2015) |
Wpływ stresu na nienarodzone dzieci | 2006 Wojna Izrael-Hezbollah | Akta urodzenia | Torche and Shwed (2015) |
Odczytywanie zachowania w Wikipedii | Objawienia Snowdena | Dzienniki Wikipedii | Penney (2016) |
Efekty rówieśnicze na ćwiczeniach | Pogoda | Fitness trackery | Aral and Nicolaides (2017) |
W dotychczasowej dyskusji na temat naturalnych eksperymentów pominąłem ważną kwestię: przejście od tego, co natura zapewniła do tego, czego chcesz, czasami może być trudne. Wróćmy do przykładu z Wietnamu. W tym przypadku Angrist był zainteresowany oszacowaniem wpływu służby wojskowej na zarobki. Niestety służby wojskowe nie były losowo przydzielane; zamiast tego był on losowany. Jednak nie każdy, kto był powołany do służby, służył (było wiele wyjątków), a nie wszyscy, którzy służyli zostali powołani (ludzie mogli zgłaszać się do służby). Ponieważ losowanie zostało losowo przydzielone, badacz może oszacować wpływ bycia przygotowanym dla wszystkich mężczyzn w projekcie. Ale Angrist nie chciał poznać efektu bycia powołanym; chciał poznać efekt służby w wojsku. Aby to oszacować, wymagane są jednak dodatkowe założenia i komplikacje. Po pierwsze, naukowcy muszą założyć, że jedynym sposobem, w jaki projektowany jest wpływ, jest służba wojskowa, założenie zwane wykluczeniem . Założenie to mogłoby być błędne, gdyby na przykład mężczyźni, którzy zostali wykształceni, pozostawali dłużej w szkole, aby uniknąć służby lub gdyby pracodawcy rzadziej zatrudniali mężczyzn, którzy zostali powołani. Zasadniczo ograniczenie wykluczenia jest krytycznym założeniem i zazwyczaj trudno je zweryfikować. Nawet jeśli ograniczenie wykluczenia jest prawidłowe, nadal nie można oszacować wpływu usługi na wszystkich mężczyzn. Zamiast tego okazuje się, że badacze mogą jedynie oszacować wpływ na konkretny podzbiór mężczyzn zwanych kompilatorami (mężczyźni, którzy mieliby służyć w czasie (Angrist, Imbens, and Rubin 1996) ale nie będą służyć, gdy nie zostaną zredagowani) (Angrist, Imbens, and Rubin 1996) . Jednak uzurpatorzy nie byli pierwotną populacją. Zauważ, że problemy te pojawiają się nawet w stosunkowo czystym przypadku loterii losowej. Kolejny zestaw powikłań pojawia się, gdy leczenie nie jest przypisane loterii fizycznej. Na przykład w badaniu kas kasjerskim Masa i Morettiego pojawiają się dodatkowe pytania dotyczące założenia, że przydział rówieśników jest zasadniczo losowy. Gdyby to założenie zostało mocno naruszone, mogłoby to zniechęcić do ich szacunków. Podsumowując, naturalne eksperymenty mogą być potężną strategią dokonywania szacunków przyczynowych na podstawie nieeksperymentalnych danych, a duże źródła danych zwiększają naszą zdolność do wykorzystywania naturalnych eksperymentów, kiedy się pojawią. Jednak prawdopodobnie będzie to wymagało wielkiej troski - a czasem mocnych założeń - aby przejść od tego, co natura zapewniła do szacunku, którego chcesz.
Druga strategia, o której chciałbym opowiedzieć, aby dokonać szacunków przyczynowych z danych nieeksperymentalnych, zależy od statystycznego dopasowania danych nieeksperymentalnych, próbując wyjaśnić istniejące wcześniej różnice między tymi, którzy zrobili i nie otrzymali leczenia. Istnieje wiele takich podejść dostosowawczych, ale skupię się na jednej nazwie dopasowania . W dopasowaniu, badacz przegląda nieeksperymentalne dane, aby stworzyć pary ludzi podobnych, z wyjątkiem tego, że ktoś otrzymał leczenie, a jeden nie. W procesie dopasowywania naukowcy faktycznie przycinają ; to znaczy odrzucanie przypadków, w których nie ma oczywistego dopasowania. Tak więc metoda ta byłaby dokładniej nazywana dopasowywaniem i przycinaniem, ale pozostanę przy tradycyjnym określeniu: dopasowanie.
Jednym z przykładów siły pasujących strategii do ogromnych nieeksperymentalnych źródeł danych są badania zachowań konsumenckich Lirana Einava i jego współpracowników (2015) . Byli zainteresowani aukcjami odbywającymi się w serwisie eBay, a przy opisywaniu ich pracy skupię się na wpływie ceny wywoławczej aukcji na wyniki aukcji, takie jak cena sprzedaży lub prawdopodobieństwo sprzedaży.
Najbardziej naiwnym sposobem oszacowania wpływu ceny wyjściowej na cenę sprzedaży byłoby po prostu obliczenie ostatecznej ceny na aukcje o różnych cenach początkowych. Takie podejście byłoby w porządku, gdybyś chciał przewidzieć cenę sprzedaży, biorąc pod uwagę cenę początkową. Ale jeśli twoje pytanie dotyczy efektu ceny wyjściowej, to takie podejście nie zadziała, ponieważ nie opiera się na sprawiedliwych porównaniach; aukcje o niższych cenach początkowych mogą się znacznie różnić od aukcji z wyższymi cenami początkowymi (np. mogą dotyczyć różnych rodzajów towarów lub obejmować różne typy sprzedawców).
Jeśli zdajesz sobie sprawę z problemów, które mogą powstać podczas dokonywania szacunków przyczynowych na podstawie danych niezwiązanych z eksperymentami, możesz pominąć naiwne podejście i rozważyć przeprowadzenie eksperymentu terenowego, w którym można by sprzedać konkretny przedmiot - np. Klub golfowy - z ustalonym zestaw parametrów aukcji - powiedzmy, darmowa wysyłka i aukcja otwarta przez dwa tygodnie - ale z losowo przypisanymi cenami początkowymi. Porównując uzyskane wyniki rynkowe, ten eksperyment polowy dałby bardzo jasny pomiar wpływu ceny wyjściowej na cenę sprzedaży. Ale ten pomiar dotyczyłby tylko jednego konkretnego produktu i zestawu parametrów aukcji. Wyniki mogą się różnić, na przykład dla różnych typów produktów. Bez silnej teorii trudno jest ekstrapolować z tego pojedynczego eksperymentu do pełnego zakresu możliwych eksperymentów, które można było przeprowadzić. Co więcej, eksperymenty terenowe są wystarczająco kosztowne, aby nie można było uruchomić każdej odmiany, którą możesz chcieć wypróbować.
W przeciwieństwie do podejść naiwnych i eksperymentalnych, Einav i współpracownicy przyjęli trzecie podejście: dopasowywanie. Główną sztuczką w ich strategii jest odkrycie rzeczy podobnych do eksperymentów terenowych, które już miały miejsce w serwisie eBay. Na przykład, rysunek 2.8 pokazuje niektóre z 31 aukcji dla dokładnie tego samego klubu golfowego - Sterownik Taylormade Burner 09, sprzedawany przez dokładnie tego samego sprzedawcę - "budgetgolfer". Jednak te 31 aukcji mają nieco inne cechy, takie jak różne początki cena, daty zakończenia i opłaty za wysyłkę. Innymi słowy, jest tak, jakby "budgetgolfer" przeprowadzał eksperymenty dla badaczy.
Te aukcje sterownika Taylormade Burner 09, sprzedawane przez "budgetgolfer", są jednym z przykładów dopasowanego zestawu aukcji, gdzie dokładnie ten sam produkt jest sprzedawany przez tego samego sprzedawcę, ale za każdym razem z nieco odmiennymi cechami. W ogromnych dziennikach serwisu eBay znajdują się dosłownie setki tysięcy dopasowanych zestawów zawierających miliony aukcji. Dlatego zamiast porównywania ostatecznej ceny wszystkich aukcji z daną ceną początkową, Einav i współpracownicy porównali w ramach dopasowanych zestawów. Aby połączyć wyniki z porównań w ramach setek tysięcy dopasowanych zestawów, Einav i współpracownicy ponownie wyrazili cenę wyjściową i cenę końcową pod względem wartości referencyjnej każdego produktu (np. Jego średniej ceny sprzedaży). Na przykład, jeśli Taylormade Burner 09 Driver miał wartość referencyjną 100 USD (w oparciu o jego sprzedaż), wówczas cena wywoławcza 10 USD byłaby wyrażana jako 0,1, a ostateczna cena 120 USD jako 1,2.
Przypomnijmy, że Einav i współpracownicy byli zainteresowani wpływem ceny początkowej na wyniki aukcji. Najpierw wykorzystali regresję liniową do oszacowania, że wyższe ceny początkowe zmniejszają prawdopodobieństwo sprzedaży, a wyższe ceny początkowe zwiększają ostateczną cenę sprzedaży (w zależności od sprzedaży). Same te szacunki, które opisują liniową relację i są uśrednione dla wszystkich produktów, nie są aż tak interesujące. Następnie Einav i współpracownicy wykorzystali olbrzymią wielkość swoich danych, aby stworzyć szereg subtelniejszych szacunków. Na przykład, oceniając efekt oddzielnie dla różnych różnych cen początkowych, ustalono, że związek między ceną wywoławczą a ceną sprzedaży jest nieliniowy (rysunek 2.9). W szczególności w przypadku cen początkowych od 0,05 do 0,85 cena wywoławcza ma bardzo niewielki wpływ na cenę sprzedaży, co zostało całkowicie pominięte przy ich pierwszej analizie. Ponadto, zamiast uśredniania wszystkich pozycji, Einav i współpracownicy oszacowali wpływ ceny wyjściowej na 23 różne kategorie przedmiotów (np. Artykuły dla zwierząt, elektronika i pamiątki sportowe) (rysunek 2.10). Szacunki te pokazują, że w przypadku bardziej charakterystycznych przedmiotów - takich jak cena wywoławcza pamiątek, ma on mniejszy wpływ na prawdopodobieństwo sprzedaży i większy wpływ na końcową cenę sprzedaży. Co więcej, w przypadku bardziej skostniałych przedmiotów - takich jak płyty DVD - cena początkowa nie ma prawie żadnego wpływu na ostateczną cenę. Innymi słowy, średnia, która łączy wyniki z 23 różnych kategorii przedmiotów, ukrywa istotne różnice między tymi elementami.
Nawet jeśli nie jesteś szczególnie zainteresowany aukcjami w serwisie eBay, musisz podziwiać sposób, w jaki rysunek 2.9 i rysunek 2.10 oferują lepsze zrozumienie serwisu eBay, niż proste szacunki opisujące liniową relację i łączące wiele różnych kategorii przedmiotów. Co więcej, chociaż byłoby naukowo możliwe wygenerowanie tych bardziej subtelnych szacunków za pomocą eksperymentów polowych, koszt spowodowałby, że takie eksperymenty byłyby zasadniczo niemożliwe.
Podobnie jak w przypadku naturalnych eksperymentów, istnieje wiele sposobów na to, że dopasowanie może prowadzić do złych szacunków. Myślę, że największym problemem przy dopasowywaniu szacunków jest to, że mogą być stronnicze przez rzeczy, które nie były używane w dopasowywaniu. Na przykład, w swoich głównych wynikach, Einav i współpracownicy dopasowali dokładnie cztery cechy: numer identyfikacyjny sprzedawcy, kategorię produktu, tytuł produktu i podtytuł. Jeśli elementy były różne w sposób, który nie był używany do dopasowywania, może to spowodować nieuczciwe porównanie. Na przykład, jeśli "budgetgolfer" obniży ceny dla kierowcy Taylormade Burner 09 w zimie (gdy kluby golfowe są mniej popularne), może się wydawać, że niższe ceny początkowe prowadzą do niższych cen końcowych, podczas gdy w rzeczywistości jest to artefakt sezonowa zmienność popytu. Jednym ze sposobów rozwiązania tego problemu jest próbowanie wielu różnych rodzajów dopasowywania. Na przykład Einav i współpracownicy powtórzyli analizę, zmieniając okno czasowe używane do dopasowania (dopasowane zestawy zawierały przedmioty sprzedawane w ciągu jednego roku, w ciągu jednego miesiąca i jednocześnie). Na szczęście znaleźli podobne wyniki dla wszystkich okien czasowych. Dalsza troska o dopasowanie wynika z interpretacji. Szacunki z dopasowywania odnoszą się tylko do dopasowanych danych; nie mają zastosowania do spraw, których nie można dopasować. Na przykład, ograniczając swoje badania do pozycji, które miały wiele ofert, Einav i współpracownicy koncentrują się na profesjonalnych i półprofesjonalnych sprzedawcach. Dlatego interpretując te porównania, musimy pamiętać, że dotyczą one tylko tego podzbioru serwisu eBay.
Dopasowanie to potężna strategia wyszukiwania trafnych porównań w danych nieeksperymentalnych. Dla wielu badaczy zajmujących się naukami społecznymi dopasowanie pasuje do drugich do eksperymentów, ale jest to przekonanie, które można nieco zmienić. Dopasowanie do masywnych danych może być lepsze niż niewielka liczba eksperymentów terenowych, gdy (1) niejednorodność efektów jest ważna i (2) zostały zmierzone ważne zmienne potrzebne do dopasowania. Tabela 2.4 zawiera kilka innych przykładów dopasowania z dużymi źródłami danych.
Merytoryczne skupienie | Duże źródło danych | Odniesienie |
---|---|---|
Wpływ strzelanin na przemoc ze strony policji | Rekordy stop-and-frisk | Legewie (2016) |
Wpływ 11 września 2001 r. Na rodziny i sąsiadów | Rekordy głosowania i rekordy darowizn | Hersh (2013) |
Zanieczyszczenie społeczne | Dane dotyczące komunikacji i przyjęcia produktów | Aral, Muchnik, and Sundararajan (2009) |
Podsumowując, oszacowanie skutków przyczynowych z danych nieeksperymentalnych jest trudne, ale można zastosować takie podejścia, jak naturalne eksperymenty i dostosowania statystyczne (np. Dopasowanie). W niektórych sytuacjach podejścia te mogą pójść nie tak, ale gdy zostaną starannie rozmieszczone, podejścia te mogą być przydatnym uzupełnieniem podejścia eksperymentalnego, które opisuję w rozdziale 4. Co więcej, wydaje się, że te dwa podejścia mogą odnieść korzyść ze wzrostu na dużych systemach danych.