Цей розділ призначений для використання в якості еталону, замість того , щоб бути прочитаний як розповідь.
Питання про причинності в соціальних дослідженнях часто є складними і заплутаними. Для основного підходу до причинності на основі причинно - слідчих графіків, см Pearl (2009) , а також для основоположний підхід , заснованого на потенційних результатів, см Imbens and Rubin (2015) (і технічне додаток в цій главі). Для порівняння між цими двома підходами см Morgan and Winship (2014) . Для формального підходу до визначення confounder см VanderWeele and Shpitser (2013) .
В цьому розділі, я створив те, що, здавалося, як яскрава лінія між нашою здатністю зробити причинні оцінки з експериментальних і не експериментальних даних. Насправді, я думаю, що ця різниця розмита. Наприклад, кожен визнає, що куріння викликає рак, навіть якщо ми ніколи не робили рандомізоване контрольоване експеримент, який змушує людей палити. Для отримання чудових обробок довжини книги з підготовки оцінок причинні з неексперіментальних даних см Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) і Dunning (2012) .
Глави 1 і 2 Freedman, Pisani, and Purves (2007) пропонують чітке введення в розбіжностях між експериментами, контрольованих експериментів, і рандомізованих контрольованих експериментів.
Manzi (2012) забезпечує захоплююче і читається введення в філософських і статистичних основ рандомізованих контрольованих експериментів. Він також надає цікаві приклади сили експериментів в бізнесі в реальному світі.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) забезпечують хороші введень до статистичних аспектів експериментального проектування та аналізу. Крім того, є відмінні методи лікування з використанням експериментів у багатьох різних областях: економіка (Bardsley et al. 2009) і (Willer and Walker 2007; Jackson and Cox 2013) (Aronson et al. 1989) (Morton and Williams 2010) (Bardsley et al. 2009) , Соціологія (Willer and Walker 2007; Jackson and Cox 2013) , психології (Aronson et al. 1989) і (Aronson et al. 1989) , (Aronson et al. 1989) , політологія (Morton and Williams 2010) , і соціальна політика (Glennerster and Takavarasha 2013) .
Важливість набору учасників (наприклад, вибірки) часто недооцінюють в експериментальних дослідженнях. Однак, якщо ефект лікування неоднорідний в популяції, то вибірка має вирішальне значення. Longford (1999) робить цю точку ясно , коли він виступає для дослідників , які думають експериментів як обстеження населення з безсистемною вибірки.
Дихотомії, що я представив між лабораторних і польових експериментів трохи спрощується. Насправді, інші дослідники запропонували більш детальні типологій, зокрема ті , які відокремлюють різні форми польових експериментів (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) р (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Крім того, існують два інших типи експериментів , проведених соціологами , які не вписуються в лабораторії і польових дихотомії :. Експерименти і дослідження соціальних експериментів Експерименти на опитування експерименти з використанням інфраструктури існуючих обстежень і порівняти відповіді на альтернативні версіях ті ж питання (деякі експерименти опитування представлені в розділі 3); Більш детальну інформацію про експериментах опитування см Mutz (2011) . Соціальні експерименти експерименти , де лікування є деяка соціальна політика , яка може бути реалізована тільки з допомогою уряду. Соціальні експерименти тісно пов'язані з оцінкою програм. Більш детальну інформацію про експериментах політики см Orr (1998) , Glennerster and Takavarasha (2013) і Heckman and Smith (1995) .
Ряд робіт порівняли лабораторні і польові експерименти в абстрактному (Falk and Heckman 2009; Cialdini 2009) і з точки зору результатів конкретних експериментів в області політології (Coppock and Green 2015) , економіки (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) і психології (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) пропонує хороший дизайн дослідження для порівняння результатів лабораторних і польових експериментів.
Побоювання з приводу учасників змінити свою поведінку , тому що вони знають , що вони пильно спостерігають іноді називають ефекти попиту, і вони були вивчені в психології (Orne 1962) і економіка (Zizzo 2009) . Хоча в основному пов'язані з лабораторними експериментами, ці ж питання можуть викликати проблеми для польових експериментів, а також. Насправді, ефекти попиту також іноді називають Hawthorne ефекти, термін, похідний від польового експерименту, в зокрема , знамениті експерименти освітлення , які почалися в 1924 році в Hawthorne Works Західної Electric Company (Adair 1984; Levitt and List 2011) , (Adair 1984; Levitt and List 2011) . Обидва ефекти попиту і ефекти Глід тісно пов'язані з ідеєю вимірювання реактивної йшлося у третьому розділі 2 (див також Webb et al. (1966) і Webb et al. (1966) ).
Історія польових експериментів була описана в економіці (Levitt and List 2009) , політології (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) і (Shadish 2002) (Shadish and Cook 2009) (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психології (Shadish 2002) , і державна політика (Shadish and Cook 2009) . Однією з областей соціальних наук, де польові експерименти швидко стала відомою з них є міжнародний розвиток. Для позитивного розгляду цієї роботи в економіці см Banerjee and Duflo (2009) , а також для критичної оцінки см Deaton (2010) . Для огляду цієї роботи в політичній науці см Humphreys and Weinstein (2009) . І, нарешті, етичні проблеми , пов'язані з експериментами на місцях, були досліджені в політичній науці (Humphreys 2015; Desposato 2016b) і економіки розвитку (Baele 2013) .
В цьому розділі, я припустив , що інформація для попередньої обробки можуть бути використані для підвищення точності оцінених ефектів лікування, але є деякі дебати по приводу такого підходу: Freedman (2008) , Lin (2013) , і Berk et al. (2013) і Berk et al. (2013) р Berk et al. (2013) ; см Bloniarz et al. (2016) і Bloniarz et al. (2016) для отримання додаткової інформації.
Я вирішив зосередитися на трьох поняттях: насправді, неоднорідність ефектів лікування, а також механізмів. Ці поняття мають різні назви в різних областях. Наприклад, психологи прагнуть вийти за рамки простих експериментів, зосередивши увагу на посередників і модераторів (Baron and Kenny 1986) . Ідея медіаторів захоплюється, що я називаю механізми, й ідея модераторів захоплюється, що я називаю зовнішня валідність (наприклад, будуть результати експерименту інакше, якби він був запущений в різних ситуаціях) і гетерогенність ефектів лікування ( наприклад, є ефекти більше для деяких людей, ніж інші люди).
Експеримент Schultz et al. (2007) і Schultz et al. (2007) показує , як соціальні теорії можуть бути використані для розробки ефективних заходів. Для більш загального аргументу про роль теорії в розробці ефективних заходів, см Walton (2014) .
Поняття внутрішнього та зовнішнього дії були вперше введені в Campbell (1957) . Див Shadish, Cook, and Campbell (2001) для більш докладної історії і ретельної розробки статистичного виведення дійсності, внутрішньої дійсності, побудувати дійсність, і зовнішню дійсність.
Для огляду питань , пов'язаних з виведенням статистичної достовірності в експериментах см Gerber and Green (2012) (для точки зору соціальної науки) і Imbens and Rubin (2015) (для точки зору статистики). Деякі питання статистичного виведення дійсності , які виникають саме в експериментах онлайн - польових включають в себе такі питання, як обчислювально ефективних методів для створення довірчих інтервалів з залежними даними (Bakshy and Eckles 2013) р (Bakshy and Eckles 2013) .
Внутрішня достовірність може бути важко забезпечити в складних польових експериментів. Дивіться, наприклад, Gerber and Green (2000) , Imai (2005) , і Gerber and Green (2005) для дискусії про реалізацію комплексного польового експерименту щодо голосування. Kohavi et al. (2012) і Kohavi et al. (2012) і Kohavi et al. (2013) і Kohavi et al. (2013) забезпечити введення в виклики інтервалу дії в експериментах онлайн на місцях.
Одна з основних проблем з внутрішньої дійсності є проблеми з рандомізації. Один із способів виявити потенційно проблеми з рандомізації є порівняння лікування і контрольні групи спостережуваних ознак. Такого роду порівняння називається перевірка балансу. Див Hansen and Bowers (2008) для статистичного підходу , щоб збалансувати перевірки, і побачити Mutz and Pemantle (2015) для побоювань за приводу перевірки балансу. Наприклад, з допомогою балансу перевірити Allcott (2011) виявили , що є деякі докази того, що рандомизация реалізовано не було правильно в трьох експериментах , в деяких експериментах Оповер (дивись таблицю 2; сайти , 2, 6 і 8). Що стосується інших підходів см Imbens and Rubin (2015) , глава 21.
Інші основні проблеми, пов'язані з внутрішньою дійсності є: 1) односторонній недотриманням, де не все в групі лікування насправді отримували лікування, 2) Утеплювачі недотримання, де не все в групі лікування отримує лікування і деякі люди в контрольній групі отримують лікування, 3) виснаження, де результати не вимірюються для деяких учасників, і 4) інтерференція, де лікування розливається протягом від людей в стані лікування людям в стані управління. Див Gerber and Green (2012) Глави 5, 6, 7 і 8 більше за кожним з цих питань.
Більш детальну інформацію про валідності см Westen and Rosenthal (2003) , і більше на валідності в великих джерелах даних, Lazer (2015) і в розділі 2 цієї книги.
Одним з аспектів зовнішньої дійсності є установка , де перевіряється втручання. Allcott (2015) забезпечує ретельну теоретичну і емпіричну лікування зміщення вибору майданчика. Це питання також обговорюється в Deaton (2010) . На додаток до тиражується в багатьох місцях, втручання Home Energy Report також був вивчений незалежно один від одного кількома дослідницькими групами (наприклад, Ayres, Raseman, and Shih (2013) ).
Ґрунтовний огляд гетерогенності ефектів лікування в польових експериментах, дивіться главу 12 Gerber and Green (2012) . Для введень гетерогенності ефектів лікування в медичних дослідженнях, см Kent and Hayward (2007) , Longford (1999) , і Kravitz, Duan, and Braslow (2004) . Неоднорідність ефектів лікування як правило, зосереджені на відмінностях, заснованих на характеристиках попередньої обробки. Якщо ви зацікавлені в гетерогенності , засновані на результатах після лікування, а потім більш складні approachs потрібні такі , як головна розшаровування (Frangakis and Rubin 2002) , (Frangakis and Rubin 2002) ; см Page et al. (2015) і Page et al. (2015) для огляду.
Багато дослідників оцінюють гетерогенність ефектів лікування з використанням лінійної регресії, але більш нові методи засновані на машинному навчанні, наприклад , Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) і Taddy et al. (2016) , і Athey and Imbens (2016a) .
Існує певний скептицизм по приводу висновків гетерогенності ефектів з - за численних проблем порівняння і "рибалка." Є цілий ряд статистичних підходів , які можуть допомогти в рішенні проблем з приводу множинного порівняння (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Один з підходів до заклопотаності по приводу "промислу" є попередня реєстрація, яка стає все більш поширеним явищем в психології (Nosek and Lakens 2014) , політологія (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) і економіка (Olken 2015) .
У дослідженні Costa and Kahn (2013) лише близько половини домогосподарств в експерименті могли бути пов'язані з демографічної інформації. Читачі, зацікавлені в деталях і можливі проблеми з цим аналізом слід звернутися до оригінальної роботі.
Механізми неймовірно важливі, але вони виявляються дуже важко вчитися. Дослідження про механізми тісно пов'язане з вивченням медіаторів в психології (але дивись також VanderWeele (2009) для точного порівняння між цими двома ідеями). Статистичні підходи до пошуку механізмів, таких , як підхід , розроблений в Baron and Kenny (1986) , є досить поширеним явищем. На жаль, виходить, що ці процедури залежать від деяких сильних припущень (Bullock, Green, and Ha 2010) і страждати , коли існує кілька механізмів, як можна було б очікувати , у багатьох ситуаціях (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) і Imai and Yamamoto (2013) пропонують деякі поліпшені статистичні методи. Крім того, VanderWeele (2015) пропонує лікування книжкової довжини з цілим рядом важливих результатів, в тому числі комплексний підхід до аналізу чутливості.
Окремий підхід орієнтований на експерименти, які намагаються маніпулювати механізмом безпосередньо (наприклад, даючи матроси вітамін С). На жаль, у багатьох ситуаціях соціальних наук часто є кілька механізмів, і це важко розробити процедури, які змінюють один, не змінюючи інших. Деякі підходи до експериментально змінюють механізми описані в Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , і Pirlott and MacKinnon (2016) .
І, нарешті, механізми також мають давню історію в філософії науки , як описано Hedström and Ylikoski (2010) .
Більш детальну інформацію про використання заочного навчання і досліджень аудиту для вимірювання дискримінації см Pager (2007) .
Найпоширеніший спосіб набрати учасників експериментів, які ви будуєте є Amazon Mechanical Turk (MTurk). Оскільки MTurk наслідує аспекти традиційних лабораторних експериментів високооплачувану людей для виконання завдань, які вони не могли б зробити для вільно багатьох дослідників вже почали використовувати Turkers (робочі на MTurk) в якості учасників в людських суб'єктів експериментів призводить до більш швидкої і дешевої збору даних, ніж традиційні на кампусі лабораторні експерименти (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Найбільша сила експериментів з учасниками, набраних з MTurk є матеріально-технічне: вони дозволяють дослідникам набирати учасників швидко і в міру необхідності. У той час як лабораторні експерименти можуть зайняти кілька тижнів, щоб запустити і польові експерименти можуть зайняти кілька місяців, щоб установка, експерименти з учасниками, набраних з MTurk може бути запущений в днях. Наприклад, Berinsky, Huber, and Lenz (2012) змогли набрати 400 предметів в один день , щоб прийняти участь в 8 - ій хвилині експерименту. Крім того, ці учасники можуть бути залучені практично для будь-яких цілей (в тому числі обстежень і масового співробітництва, як це обговорюється в розділах 3 і 5). Ця простота набору означає, що дослідники можуть проводити послідовності взаємопов'язаних експериментів у швидкій послідовності.
Перед тим як набір учасників з MTurk для власних експериментів, є чотири важливі речі, які необхідно знати. По-перше, багато дослідників мають неспецифічну скепсис експериментів за участю Turkers. Оскільки цей скептицизм не є специфічним, важко протистояти з доказами. Проте, після кількох років досліджень з використанням Turkers, тепер ми можемо зробити висновок, що цей скепсис не дуже потрібна. Там було багато досліджень, які порівнюють демографію Turkers на інші групи населення і багатьох досліджень, які порівнюють результати експериментів з Turkers з результатами інших груп населення. З огляду на всю цю роботу, я думаю , що найкращий спосіб для вас , щоб думати про це є те , що Turkers є розумними зразок зручності, так само, як студентів , але трохи більш різноманітним (Berinsky, Huber, and Lenz 2012) . Таким чином, так само, як студенти розумне населення для деяких, але не всі експериментальні дослідження, Turkers є розумне населення для деяких, але не всі дослідження. Якщо ви збираєтеся працювати з Turkers, то має сенс прочитати багато з цих порівняльних досліджень і зрозуміти свої нюанси.
По- друге, дослідники розробили передової практики для підвищення внутрішньої валідності експериментів турків, і ви повинні вивчити і дотримуватися цих передової практики (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Наприклад, дослідники , що використовують Turkers рекомендується використовувати грохоти для видалення неуважних учасників (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (Дивись також DJ Hauser and Schwarz (2015b) і DJ Hauser and Schwarz (2015a) ). Якщо ви не видалити неуважних учасників, то будь-який ефект лікування може бути вимиваються шуму, що надходить з неуважних учасників, так і на практиці кількість неуважних учасників може бути суттєвим. В експерименті Хубер і його колеги (2012) близько 30% учасників не вдалося основна увага грохотов. Ще одна загальна проблема з Turkers не є наївних учасників (Chandler et al. 2015) і (Chandler et al. 2015) .
В- третіх, по порівнянні з деякими іншими формами цифрових експериментів, MTurk експерименти не можуть масштабироваться, Stewart et al. (2015) і Stewart et al. (2015) вважає , що в будь-який момент часу існує всього близько 7000 чоловік на MTurk.
І, нарешті, ви повинні знати , що MTurk це спільнота зі своїми власними правилами і нормами (Mason and Suri 2012) . Таким же чином , що ви намагаєтеся дізнатися про культуру країни , в якій ви збираєтеся запускати ваші експерименти, ви повинні спробувати , щоб дізнатися більше про культуру і нормах Turkers (Salehi et al. 2015) і (Salehi et al. 2015) . І, ви повинні знати , що Turkers буде говорити про ваш досвід , якщо ви робите що - щось недоречне або неетичної (Gray et al. 2016) і (Gray et al. 2016) .
MTurk є неймовірно зручний спосіб набору учасників для ваших експериментів, чи є вони лабораторного типу, такі як Huber, Hill, and Lenz (2012) , або більш в польових умовах, як, наприклад , як Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) і Goldstein et al. (2014) , Horton and Zeckhauser (2016) , і Mao et al. (2016) і Mao et al. (2016) .
Якщо ви думаєте про спробу створити свій власний продукт, я рекомендую вам прочитати поради , пропоновані групою MovieLens в Harper and Konstan (2015) . Ключовим осяянням з їх досвіду в тому, що для кожного успішного проекту є багато, багато невдач. Наприклад, група MovieLens запустила інші продукти , такі , як GopherAnswers , які були повні провали (Harper and Konstan 2015) . Інший приклад дослідника несправного при спробі створити продукт є спроба Едварда Кастронова, щоб створити інтернет-гру під назвою Arden. Незважаючи на $ 250. 000 на фінансуванні, проект був провал (Baker 2008) . Такі проекти, як GopherAnswers і Ардена, на жаль, набагато частіше, ніж такі проекти, як MovieLens. І, нарешті, коли я сказав, що я не знав про яких-небудь інших дослідників, які успішно побудували продукти для повторних експериментів тут мої критерії: 1) учасники використовують продукт через те, що він дає їм (наприклад, вони не платять, і вони не є добровольці допомагають науці) і 2) продукт був використаний для більш ніж одного окремого експерименту (тобто не той же самий експеримент кілька разів з різними пулами учасником). Якщо ви знаєте інші приклади, будь ласка, дайте мені знати.
Я чув ідею Quadrant Пастера часто обговорюється в технологічних компаній, і це допомагає організувати науково - дослідницьку роботу в Google (Spector, Norvig, and Petrov 2012) .
Бонд і дослідження колег (2012) також намагається виявити вплив цих обробок на друзів тих , хто отримав їх. Через конструкції експерименту, ці вторинні ефекти важко виявити чисто; Зацікавлені читачі повинні побачити Bond et al. (2012) і Bond et al. (2012) для більш докладного обговорення. Цей експеримент є частиною давньої традиції експериментів в області політичної науки про зусилля щодо заохочення голосування (Green and Gerber 2015) . Ці експерименти Get-поза-The-голосування є загальними почасти тому, що вони знаходяться в квадраті Пастера. Тобто, є багато людей, які мотивовані, щоб збільшити голосування і голосування може бути цікавим поведінкою, щоб перевірити більш загальні теорії про зміну поведінки і соціального впливу.
Інші дослідники надали консультації про проведення експериментів на місцях з партнерськими організаціями , такими , як політичні партії, НУО та бізнесу (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Інші пропонували поради про те , як партнерські відносини з організаціями , можуть вплинути на дослідницькі проекти (Green, Calfano, and Aronow 2014; King et al. 2007) і (Green, Calfano, and Aronow 2014; King et al. 2007) . Партнерство може також привести до етичних питань (Humphreys 2015; Nickerson and Hyde 2016) .
Якщо ви збираєтеся створити план аналізу перед запуском експерименту, я пропоную вам почати з читання керівних принципів подання доповідей. Консорт (зведений стандарт звітність випробувань) керівних принципів були розроблені в медицині (Schulz et al. 2010) і (Mayo-Wilson et al. 2013) (Schulz et al. 2010) і модифіковані для соціальних досліджень (Mayo-Wilson et al. 2013) і (Mayo-Wilson et al. 2013) . Пов'язаний набір керівних принципів була розроблена редакторами журналу експериментальної політології (Gerber et al. 2014) і Mutz and Pemantle (2015) Gerber et al. (2015) (Gerber et al. 2014) (див також Mutz and Pemantle (2015) і Gerber et al. (2015) і Gerber et al. (2015) ). І, нарешті, керівні принципи звітності були розроблені в психології (Group 2008) , а також побачити Simmons, Nelson, and Simonsohn (2011) .
Якщо ви створюєте план аналізу ви повинні розглянути перед його реєстрацією, так як попередня реєстрація збільшить впевненість, що інші мають в своїх результатах. Крім того, якщо ви працюєте з партнером, він буде обмежувати здатність вашого партнера, щоб змінити аналіз після перегляду результатів. Попередня реєстрація стає все більш поширеним явищем в психології (Nosek and Lakens 2014) , політологія (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , і економіка (Olken 2015) .
Створюючи свій план попереднього аналізу ви повинні знати , що деякі дослідники також використовують регресію і пов'язані з ним підходи для підвищення точності оціненого ефекту лікування, і є деякі дебати по приводу такого підходу: Freedman (2008) , Lin (2013) , і Berk et al. (2013) і Berk et al. (2013) р Berk et al. (2013) ; см Bloniarz et al. (2016) і Bloniarz et al. (2016) для отримання додаткової інформації.
Дизайн поради спеціально для експериментів онлайн на місцях також представлені в Konstan and Chen (2007) і Chen and Konstan (2015) .
Більш детальну інформацію про експериментах MusicLab см Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) і Salganik (2007) . Більш детальну інформацію про переможець отримує все ринки, см Frank and Cook (1996) . Більш детальну інформацію про розплутування удачі і майстерності в більш загальному плані , см Mauboussin (2012) , Watts (2012) і Frank (2016) .
Існує інший підхід до усунення виплат учаснику, дослідники повинні використовувати з обережністю: призов на військову службу. У багатьох експериментах онлайн польових учасники не в основному розроблені в експерименти і ніколи не компенсуються. Приклади цього підходу включають Restivo і ван де Rijt в (2012) експеримент на нагороди в Вікіпедії і Бонд і колеги (2012) експеримент по спонукаючи людей голосувати. Ці експерименти дійсно не мають нульовий змінні витрати, вони мають нульовий змінні витрати для дослідників. Незважаючи на те, вартість багатьох з цих дослідів вкрай мала кожному учаснику, невеликі витрати на накладено величезна кількість учасників може скласти швидко. Дослідники, що працюють онлайн-масові експерименти часто виправдовують важливість невеликих розрахунковими ефектів лікування, кажучи, що ці малі ефекти можуть стати важливим при застосуванні до багатьох людей. Точно така ж мислення відноситься до витрат, які дослідники накладають на учасників. Якщо ваші експерименти викликає один мільйон людей витрачати одну хвилину, експеримент не дуже шкідливо для будь-якого конкретного людини, але в сукупності він витратив майже два роки часу.
Інший підхід до створення нульовий оплати змінних витрат для учасників використовувати лотерею, підхід , який також був використаний в дослідженнях обстеження (Halpern et al. 2011) і (Halpern et al. 2011) . Нарешті, для більш про розробку приємних призначені для користувача враження см Toomim et al. (2011) і Toomim et al. (2011) .
Ось вихідні визначення трьох R, від Russell and Burch (1959) :
"Заміна означає заміщення свідомих живих вищих тварин неживі матеріалу. Скорочення означає зменшення кількості тварин, що використовуються для отримання інформації про заданій кількості і точності. Доопрацювання означає будь-яке зниження частоти або тяжкості нелюдських процедур, що застосовуються до тих тварин, які ще повинні бути використані ".
Три важливі речі, які я пропоную, не переважають етичні принципи, описані в главі 6. Швидше, вони є більш ускладнений варіант один з цих принципів-доброчинність-спеціально для установки людських експериментів.
При розгляді питання про Емоційна Інфекція, є зо три не-етичні питання, які слід мати на увазі при інтерпретації цього експерименту. По-перше, не ясно, яким чином фактичні деталі експерименту підключити до теоретичним вимогам; Іншими словами, є питання про валідності. Не ясно, що позитивні і негативні кількість слів насправді є хорошим індикатором емоційного стану учасників, тому що 1) не ясно, що слова, які люди відправляють є хорошим індикатором їх емоцій і 2) не ясно, що конкретний метод аналізу настроїв , які використовували дослідники в змозі надійно вивести емоції (Beasley and Mason 2015; Panger 2016) . Іншими словами, може бути поганий мірою необ'єктивною сигналу. По-друге, розробка та аналіз експерименту нічого не говорить нам про те, хто був самим вплив (тобто, немає ніякого аналізу гетерогенності ефектів лікування) і що може бути механізмом. У цьому випадку дослідники мали багато інформації про учасників, але вони були в основному розглядаються як віджети в аналізі. По-третє, величина ефекту в цьому експерименті, був дуже малий; різниця між лікувальною і контрольною умовах становить близько 1 в 1000 слів. У своїй роботі, Крамер і його колеги роблять справу, що ефект такого розміру має важливе значення, тому що сотні мільйонів людей отримати доступ до їх News Feed кожен день. Іншими словами, вони стверджують, що навіть ефекти, які малі для кожної людини вони великі в сукупності. Навіть якщо ви повинні були прийняти цей аргумент, він до цих пір не ясно, якщо ефект такого розміру має важливе значення в плані більш загального наукового питання про емоційний зарази. Більш детальну інформацію про ситуації , коли малі ефекти є важливими см Prentice and Miller (1992) .
З точки зору першого R (відновна), порівнюючи емоційний зарази експеримент (Kramer, Guillory, and Hancock 2014) і емоційний доміно природний експеримент (Coviello et al. 2014) і (Coviello et al. 2014) пропонує деякі загальні уроки про компроміси , пов'язаних з переходом від експерименти на природних експериментів (і інші підходи, такі як відповідність, що спроба апроксимувати експерименти в неексперіментальних даних, зверніться до розділу 2). Крім етичних переваг, перехід від експериментальної до не-експериментальних досліджень дає підстави дослідникам вивчати методи лікування, що вони не в змозі матеріально-технічного забезпечення для розгортання. Ці етичні та матеріально-технічні переваги доводиться платити, однак. З природних експериментів дослідники мають менше контролю над речами, як набір учасників, рандомізації і характер лікування. Наприклад, одне обмеження опадів в якості лікування є те, що воно одночасно збільшує позитивність і негативність зменшується. В експериментальному дослідженні, проте, Крамер і його колеги змогли відрегулювати позитивність і негативність незалежно один від одного.
Конкретний підхід , який використовується Coviello et al. (2014) і Coviello et al. (2014) отримала подальший розвиток в Coviello, Fowler, and Franceschetti (2014) . Для введення в інструментальних змінних см Angrist and Pischke (2009) (менш формальний) або Angrist, Imbens, and Rubin (1996) (більш формальний характер ). Для скептичною оцінки інструментальних змінних см Deaton (2010) , а також для введення в інструментальних змінних зі слабкими інструментами (дощ є слабким інструментом), см Murray (2006) .
У більш загальному плані , гарне введення в природних експериментів Dunning (2012) , і Rosenbaum (2002) , Rosenbaum (2009) , і Shadish, Cook, and Campbell (2001) пропонують хороші ідеї по приводу оцінки причинно - слідчих ефектів без експериментів.
З точки зору другого R (Refinement), є наукові та матеріально-технічні компроміси при розгляді зміни конструкції емоційного Contagion від блокування повідомлення для підвищення повідомлення. Наприклад, це може бути так, що технічна реалізація Стрічці новин робить його значно легше зробити експеримент з блокуванням повідомлення, а не експерименту з підвищення повідомлення (зверніть увагу, що експеримент з блокуванням повідомлення може бути реалізований у вигляді шару на верхня частина системи канал новин без необхідності зміни базової системи). З наукової точки зору, проте, теорія розглянуті експерименту не ясно вказують одну конструкцію над іншим.
На жаль, я не в курсі істотного попереднього дослідження про відносні переваги блокування і підвищення вмісту в Стрічці новин. Крім того, я не бачив багато досліджень про вдосконалення методів лікування, щоб зробити їх менш шкідливими; Єдиним винятком є Jones and Feamster (2015) , яка розглядає випадок вимірювання інтернет - цензури (тему я обговорюю в главі 6 , в ставленні до вивчення Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
З точки зору третього R (скорочення), гарне введення в традиційний аналіз харчування є Cohen (1988) . коваріати попередньої обробки можуть бути включені в стадії проектування і стадії аналізу експериментів; Глава 4 Gerber and Green (2012) забезпечує гарне введення в обох підходів, і Casella (2008) забезпечує обробку більш глибокий. Методи, які використовують цю інформацію для попередньої обробки в рандомізації, як правило, називаються або блокували експериментальні конструкції або шаруваті експериментальних зразків (термінологія не використовується послідовно у всіх громадах); ці методи глибоко пов'язані з стратифікована методів відбору проб , розглянутих в розділі 3. Див Higgins, Sävje, and Sekhon (2016) для додаткової інформації про використання цих конструкцій в масивних експериментах. Коваріати попередньої обробки також можуть бути включені в стадії аналізу. McKenzie (2012) досліджує відмінності-в-відмінностях підхід до аналізу польових експериментів , більш докладно. Див Carneiro, Lee, and Wilhelm (2016) Більш детальну інформацію про компроміси між різними підходами до підвищення точності в оцінках ефектів лікування. І, нарешті, при вирішенні питання, щоб спробувати включити коваріатамі попередньої обробки на стадії проектування або аналізу етапу (або обидва), є кілька факторів, які необхідно враховувати. В умовах , коли дослідники хочуть показати , що вони не є "рибалка" (Humphreys, Sierra, and Windt 2013) , з використанням коваріатамі попередньої обробки на стадії проектування може бути корисним (Higgins, Sävje, and Sekhon 2016) . У ситуаціях , коли учасники прибувають послідовно, особливо онлайн польових експериментів з використанням інформації для попередньої обробки в стадії проектування може бути важким логістично, дивись, наприклад , Xie and Aurisset (2016) .
Варто додати трохи інтуїції про те, чому різниця у різниць може бути набагато більш ефективним, ніж різниця-в-засобів. Багато онлайн результати мають дуже високу дисперсію (дивись , наприклад, Lewis and Rao (2015) і Lamb et al. (2015) і Lamb et al. (2015) ) та є відносно стабільними в протягом довгого часу. В цьому випадку оцінка зміни матимуть значно меншу дисперсію, збільшуючи потужність статистичного тесту. Однією з причин цього підійшов не використовується частіше, є те, що до цифрового століття не було поширене мати результати попередньої обробки. Більш конкретний спосіб думати про це, щоб уявити собі експеримент з вимірювання, викликає конкретна процедура вправи втрата ваги. Якщо ви робите підхід різниця-в-засобів, ваша оцінка буде мати мінливість, яка виходить від мінливості ваги в популяції. Якщо ви робите підхід різниця-в-різниці, однак, що в природі зміна ваги отримує видалені, і ви можете легко визначити різницю, викликану лікуванням.
Одним з важливих способів , щоб зменшити число учасників , що беруть участь в експерименті , є проведення аналізу потужності, що Крамер і його колеги могли б зробити на підставі розмірів ефекту , спостережуваного з природного експерименту по Coviello et al. (2014) або більш ранніх версій не-експериментальне дослідження Крамера (2012) (насправді ці заходи в кінці цієї глави). Зверніть увагу на те, що таке використання аналізу потужності трохи відрізняється від типової. В аналоговому віці, як правило, дослідники зробили аналіз потужності, щоб переконатися, що їх дослідження не було занадто маленьким (тобто під харчуванням). Тепер, однак, дослідники повинні зробити аналіз потужності, щоб переконатися, що їх дослідження не є занадто великим (тобто над харчуванням).
Нарешті, я розглянув додавання четвертого R: перепрофілювати. Тобто, якщо дослідники знаходять себе з більш досвідченими даними, ніж вони повинні звернутися до їх первісний питання дослідження, вони повинні переорієнтувати дані задавати нові питання. Наприклад, уявіть, що Крамер і його колеги використовували Різницево-в-відмінностях оцінювач і виявилися з великою кількістю даних, ніж це необхідно для вирішення їх питання дослідження. Замість того, щоб не використовувати ці дані в повній мірі, вони могли б вивчали розмір ефекту як функція попередньої обробки емоційного вираження. Так само , як Schultz et al. (2007) і Schultz et al. (2007) виявили , що ефект лікування була різною для легких і важких користувачів, можливо , наслідки Стрічка новин відрізнялися для людей , які вже мали тенденцію залишати щасливі (або сумні) повідомлення. Repurposing може привести до "рибалка" (Humphreys, Sierra, and Windt 2013) і "р-злом" (Simmons, Nelson, and Simonsohn 2011) , але вони в значній мірі адресний з комбінацією чесної звітності (Simmons, Nelson, and Simonsohn 2011) , попередня реєстрація (Humphreys, Sierra, and Windt 2013) , а також методи машинного навчання , які намагаються уникнути надмірної підгонки.