Природни експерименти да се възползват от случайни събития в света. произволно събитие + винаги-на система за данни = естествен експеримент
Ключът към рандомизирани контролирани експерименти, позволяващи справедливо сравнение е рандомизацията. Въпреки това, от време на време нещо се случва в света, която по същество възлага хора на случаен принцип или почти на случаен принцип на различни лечения. Един от ярките примери за стратегията за използване на природни експерименти идва от изследването на Angrist (1990) , който измерва ефекта на военни услуги на печалба.
По време на войната във Виетнам, САЩ увеличи размера на своите въоръжени сили чрез проект. За да се реши кои граждани ще се нарича в експлоатация, правителството на САЩ проведе лотария. Всеки рождената дата бе представена на лист хартия, и тези документи са били поставени в голям стъклен буркан. Както е показано на Фигура 2.5, тези листчета са изготвени от буркана един по един, за да се определи реда, в който младите хора ще бъдат призовани да служат (млади жени не са били обект на проекта). Въз основа на резултатите, мъжете, родени на 14 септември за първи път са наречени, мъже, родени на 24 април са били наричани втората, и така нататък. В крайна сметка, в тази лотария, мъжете, родени от 195 различни дни са били наричани с услуга, докато мъжете, родени на 171 дни не са били наричани.
Въпреки че не може да е непосредствено очевидна, проект на лотария има критична сходство с рандомизирано контролирано експеримент: и в двете ситуации, участниците са рандомизирани да получават лечение. В случай на проекта на лотарията, ако ние сме заинтересовани в изучаването на въздействието на проекта за допустимост и военна служба при следващите приходите на пазара на труда, можем да сравним резултатите за хора, чиито рождени дати са били под изключване на лотария (например, 14 септември април 24, и т.н.) с резултатите за хора, чиито рождени дни са след изключване (например, 20 февруари 2 декември, и т.н.).
Като се има предвид, че това лечение на процес на изготвяне е на случаен принцип, а след това можем да се измери ефекта на това лечение за всеки резултат, който е измерен. Например, Angrist (1990) комбинира информацията за това кой е бил избран случайно в проекта с данни за печалбите, които се събират от Администрация за социално осигуряване, за да се заключи, че доходите на белите ветерани са около 15% по-малко от доходите на сравними не-ветерани , Други изследователи са използвали подобен трик, както добре. Например, Conley and Heerwig (2011) комбинира информацията за това кой е бил избран случайно в проекта с битови данни, събрани от наблюдението на 2000 Преброяване и 2005 американски Общността и е установено, че толкова дълго време, след като проектът, имаше малко дългосрочен ефект на военна служба на различни резултати, като например жилища мандат (притежаване срещу отдаване под наем) и жилищна стабилност (вероятност, че са преместени в предишните пет години).
Тъй като този пример показва, понякога социални, политически, или природни сили създават експерименти или почти експерименти, които могат да бъдат възприети от изследователи. Често природни експерименти са най-добрият начин да се оцени причинно-следствените връзки в настройките, когато не е етично или практически да тече рандомизирани контролирани експерименти. Те са важна стратегия за откриване на справедливи сравнения в не-експериментални данни. Тази Стратегия за изследване могат да бъдат обобщени от това уравнение:
\ [\ текст {случаен (или както ако случайно) събитие} + \ текст {винаги-на потока от данни} = \ текст {естествен експеримент} \ qquad (2.1) \]
Въпреки това, анализът на естествен експеримент може да бъде доста трудно. Например, в случай на проекта на Виетнам, не всеки, който е проект на избираеми стигна до сервиране (имаше различни изключения). И в същото време, някои хора, които не са били Draft-допустими доброволно за услуга. Като че ли в клинично изпитване на ново лекарство, някои хора в групата на лечение не са взели своето лекарство и някои от хората в контролната група някак си получи лекарството. Този проблем, наречен двустранен несъответствие, както и много други проблеми са описани по-подробно в някои от препоръчаните стойности в края на тази глава.
Стратегията на възползвайки се от естествено срещащи се случайното разпределение предхожда дигиталната ера, но разпространението на големи данни прави тази стратегия много по-лесно за използване. Щом веднъж осъзнаете някои лечението е определен на случаен принцип, големите източници на данни могат да предоставят данните, резултат от което имате нужда, за да се сравнят резултатите за хората в условията на лечение и контрол. Например, в своето изследване на въздействието на проекта за и военната служба, Angrist използвала за приходите от Администрация за социално осигуряване; без този резултат данни, неговото проучване не би било възможно. В този случай, Администрация за социално осигуряване е голям източник на данни винаги-на. Както съществуват все повече и повече автоматично събира източници на данни, ние ще имаме по-изход на данни, които могат да се измерят ефектите от промените, създадени от екзогенен вариация.
За да илюстрираме тази стратегия в дигиталната епоха, нека разгледаме Mas и Морети (2009) елегантна изследвания върху ефекта на връстниците върху производителността. Въпреки че на пръв поглед може да изглежда различно от проучване Angrist е за влиянието на проекта на Виетнам, по структура и двамата следват модела в ур. 2.1.
Mas и Морети измерва как връстниците оказват влияние върху производителността на работниците. От една страна, е трудно да работи връстници може да доведе работниците да увеличат производителността си, защото на партньорски натиск. Или, от друга страна, по-работливи връстници може да доведе други работници да отпускате дори повече. Най-ясният начин да учат връстници ефекти върху производителността би било рандомизирано контролирано експеримент, където работниците са разпределени на случаен принцип, за да смени с работници на различни нива на производителност и след това в резултат на производителността се измерва за всеки. Изследователите, обаче, не контролират графика на работниците в реален бизнес, и така Mas и Морети трябваше да разчита на естествен експеримент, който се проведе в един супермаркет.
Точно като екв. 2.1, тяхното проучване имаше две части. Първо, те са използвали трупите от системата на супермаркет касата да има точна, индивидуално, и винаги-на мярка за производителност: броя на елементите, сканирани в секунда. И, второ, заради начина, по който график е направено в този супермаркет, те имат близо случаен състав на връстници. С други думи, въпреки че графика на касиери не се определя чрез лотария, е по същество случаен принцип. На практика, доверието, което имаме в естествени експерименти често зависи от достоверността на тази "като-ако" случайно иск. Възползвайки се от тази случайна вариация, Mas и Морети установено, че работят с по-високи връстници производителността се увеличава производителността. Освен това, Mas и Морети използва размера и богатството на тяхната набор от данни, за да се премине от оценка на причинно-следствената връзка, за да проучи две по-важни и деликатни въпроси: хетерогенност на този ефект (за което видове работници е ефектът по-големи) и механизъм зад ефекта (защо се налага високи връстници производителността да доведат до по-висока производителност). Ще се върнем към тези два важни въпроса-хетерогенност на лечебни ефекти и механизми-в глава 5, когато обсъждаме експерименти по-подробно.
Обобщаване от проучвания за ефекта от проекта за Виетнам за приходите и изследването на влиянието на връстниците върху производителността, Таблица 2.3 обобщава други проучвания, които имат този точно същата структура: с помощта на винаги-на източник на данни за измерване на въздействието на някакво събитие , Както Таблица 2.3 става ясно, природни експерименти са навсякъде, ако просто знаят как да ги търси.
Материален фокус | Източник на естествен експеримент | Винаги включена данни източник | цитат |
---|---|---|---|
Пеер ефекти върху производителността | процес график | касата на данни | Mas and Moretti (2009) |
формация Приятелство | урагани | Phan and Airoldi (2015) | |
Разпространение на емоциите | дъжд | Coviello et al. (2014) | |
Пеер да надникне икономически трансфери | земетресение | данни мобилен пари | Blumenstock, Fafchamps, and Eagle (2011) |
поведение лична консумация | 2013 US правителството изключване | лични финанси данни | Baker and Yannelis (2015) |
Икономическо въздействие на препоръчване системи | различни | данните за сърфирането в Amazon | Sharma, Hofman, and Watts (2015) |
Влияние на стреса върху неродените бебета | 2006 Израел-Хизбула война | раждане записи | Torche and Shwed (2015) |
поведение четене на Wikipedia | Сноудън откровения | Уикипедия трупи | Penney (2016) |
На практика, изследователите използват две различни стратегии за намиране на природни експерименти, и двете от които могат да бъдат плодотворно. Някои изследователи започват с източника на винаги-на данни и за случайни събития в света изглеждат; други започват със случайни събития в света и за източниците на данни, които да улавят отражението им изглеждат. И накрая, забележете, че силата на природните експерименти не идва от сложността на статистическия анализ, но от грижите в откриването на справедливо сравнение, създадена от един щастлив инцидент на историята.