Питання про причинність у соціальних дослідженнях часто складні та складні. Для фундаментального підходу до причинності на основі каузальних графів див. Pearl (2009) , а для фундаментального підходу, що базується на потенційних результатах, див. Imbens and Rubin (2015) . Для порівняння цих двох підходів див. Morgan and Winship (2014) . Щоб отримати формальний підхід до визначення конфлікту, див. VanderWeele and Shpitser (2013) .
У цьому розділі я створив те, що здавалося б яскравою лінією між нашою здатністю робити причинні оцінки за експериментальними та не експериментальними даними. Однак я думаю, що насправді ця різниця є більш розмитою. Наприклад, кожен вважає, що куріння викликає рак, хоча ніколи не проводився рандомізований контрольований експеримент, який змушує людей палити. Для відмінної обробки книжкової довжини з причинно-наслідкових оцінок з Shadish, Cook, and Campbell (2001) даних див. Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) і Dunning (2012) .
Глави 1 і 2 Freedman, Pisani, and Purves (2007) дають чітке уявлення про відмінності між експериментами, контрольованими експериментами та рандомізованими контрольованими експериментами.
Manzi (2012) забезпечує захоплююче та читабельне введення в філософсько-статистичні основи рандомізованих контрольованих експериментів. Він також надає цікаві реальні приклади сили експериментів у бізнесі. Issenberg (2012) дає захоплююче введення в експлуатацію в політичних кампаніях.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, а також Athey and Imbens (2016b) дають хороші введення статистичних аспектів експериментального проектування та аналізу. Крім того, існують чудові методики експериментів у різних сферах: економіка (Bardsley et al. 2009) , соціологія (Willer and Walker 2007; Jackson and Cox 2013) , психологія (Aronson et al. 1989) , політологія (Morton and Williams 2010) та соціальної політики (Glennerster and Takavarasha 2013) .
Важливість рекрутингу учасників (наприклад, вибірка) часто недооцінюється в експериментальних дослідженнях. Однак, якщо ефект лікування є неоднорідним у популяції, то відбір проб є критичним. Longford (1999) чітко висуває цю точку, коли він виступає за дослідження дослідників, які думають про експерименти як опитування населення з випадковою вибіркою.
Я запропонував існувати континуум між лабораторними та польовими експериментами, а інші дослідники запропонували більш детальні типології, зокрема ті, що відокремлюють різноманітні форми польових експериментів (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
У кількох роботах порівняно лабораторні та польові експерименти в рефераті (Falk and Heckman 2009; Cialdini 2009) та в контексті результатів конкретних експериментів з політології (Coppock and Green 2015) , економіки (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , а також психологія (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) пропонують хороший дизайн для порівняння результатів лабораторних та польових експериментів. Parigi, Santana, and Cook (2017) описують, як онлайн-польові експерименти можуть поєднувати деякі характеристики лабораторних та польових експериментів.
Занепокоєння щодо учасників, що змінюють свою поведінку, оскільки вони знають, що вони уважно спостерігаються, іноді називають ефектом попиту , і вони вивчаються в психології (Orne 1962) та економіці (Zizzo 2010) . Хоча в основному це пов'язано з лабораторними експериментами, ці самі проблеми можуть викликати проблеми і для польових експериментів. Насправді ефекти попиту також іноді називають ефектами Готорна , термін, що породжує відомі освітлювальні експерименти, що почалися в 1924 році на роботах Hawthorne Western Electric Company (Adair 1984; Levitt and List 2011) . Обидва ефекти попиту та ефекти Готорна є тісно пов'язані з ідеєю реактивного вимірювання, про яку йшлося в главі 2 (див. Також Webb et al. (1966) ).
Польові експерименти мають давню історію в економіці (Levitt and List 2009) , політологія (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологія (Shadish 2002) та публічна політика (Shadish and Cook 2009) . Одним із напрямків суспільної науки, де швидко стали помітними польові експерименти, є міжнародний розвиток. Для позитивного перегляду цієї роботи в рамках економіки див. Banerjee and Duflo (2009) , а для критичної оцінки див. Deaton (2010) . Для перегляду цієї роботи з політології див. Humphreys and Weinstein (2009) . Нарешті, етичні проблеми, що виникають в результаті польових експериментів, вивчаються в контексті політичної науки (Humphreys 2015; Desposato 2016b) та економіки розвитку (Baele 2013) .
У цьому розділі я запропонував, що інформація для попереднього лікування може бути використана для покращення точності оціночних ефектів лікування, однак існує певна дискусія щодо такого підходу; див. Freedman (2008) , W. Lin (2013) , Berk et al. (2013) та Bloniarz et al. (2016) для отримання додаткової інформації.
Нарешті, існують ще два типи експериментів, виконаних соціологами, які не підходять акуратно за розмірами лабораторної сфери: дослідницькі експерименти та соціальні експерименти. Експерименти з опитуваннями - експерименти з використанням інфраструктури існуючих опитувань та порівняння відповідей до альтернативних варіантів тих самих запитань (деякі опитувальні експерименти представлені в розділі 3); Для отримання додаткової інформації про дослідницькі експерименти див. Mutz (2011) . Соціальні експерименти - це експерименти, де лікування - це якась соціальна політика, яку може реалізувати лише уряд. Соціальні експерименти тісно пов'язані з оцінкою програми. Докладніше про експерименти з політикою див. Heckman and Smith (1995) , Orr (1998) та @ glennerster_running_2013.
Я вирішив зосередитися на трьох концепціях: дійсності, неоднорідності ефектів лікування та механізмів. Ці поняття мають різні назви в різних областях. Наприклад, психологи схильні виходити за межі простих експериментів, концентруючись на посередниках та модераторах (Baron and Kenny 1986) . Ідея посередників зафіксована тим, що я називаю механізмами, а ідея модераторів зафіксована тим, що я називаю зовнішньою дійсністю (наприклад, чи результати експерименту будуть різними, якщо вони будуть працювати в різних ситуаціях) та неоднорідності ефектів лікування ( наприклад, чи є ефекти більшими для деяких людей, ніж для інших).
Експеримент Schultz et al. (2007) показує, як соціальні теорії можуть бути використані для розробки ефективних втручань. Для більш загальних аргументів про роль теорії в розробці ефективних втручань див. Walton (2014) .
Поняття внутрішньої та зовнішньої дійсності були вперше представлені Campbell (1957) . Див. Shadish, Cook, and Campbell (2001) щоб отримати докладнішу історію та ретельну розробку статистичної вигоди, внутрішньої дійсності, конструктивної дійсності та зовнішньої дійсності.
Для огляду питань, пов'язаних з дійсністю статистичних висновків в експериментах, див. Gerber and Green (2012) (з точки зору соціальної науки) та Imbens and Rubin (2015) (з статистичної точки зору). Деякі питання статистичної вигоди, які виникають саме в онлайн-експериментах, включають такі питання, як обчислювальні ефективні методи створення довірчих інтервалів із залежними даними (Bakshy and Eckles 2013) .
Внутрішню дієвість може бути складно забезпечити в складних польових експериментах. Див., Наприклад, Gerber and Green (2000) , Imai (2005) та Gerber and Green (2005) для обговорення питання про здійснення складного польового експерименту щодо голосування. Kohavi et al. (2012) і Kohavi et al. (2013) дають уявлення про виклики проміжної дійсності в онлайнових польових експериментах.
Одна з основних загроз для внутрішньої дієвості - це можливість невдалої рандомізації. Одним з потенційних способів виявлення проблем з рандомізацією є порівняння лікувальних та контрольних груп із спостережуваними рисами. Цей вид порівняння називається перевіркою балансу . Див. Hansen and Bowers (2008) щодо статистичного підходу до балансування перевірок і Mutz and Pemantle (2015) для побоювань щодо перевірки балансу. Наприклад, за допомогою перевірки балансу Allcott (2011) знайшов деякі докази того, що рандомізація була неправильно виконана у трьох експериментах Opower (див. Таблицю 2; сайти 2, 6 та 8). Для інших підходів див. Главу 21 " Imbens and Rubin (2015) .
Інші основні проблеми, пов'язані з внутрішньою дієвістю, є: (1) одностороннє невідповідність, де не всі в лікувальній групі фактично отримали лікування; (2) двостороння невідповідність, де не всі в лікувальній групі отримують лікування, а деякі люди в контрольна група отримує лікування, (3) виснаження, де результати для деяких учасників не вимірюються, і (4) втручання, коли лікування переливає людей, які знаходяться в стані лікування, до людей, що знаходяться в стані контролю. Див. Розділи 5, 6, 7 та 8 Gerber and Green (2012) щоб дізнатися більше про кожне з цих питань.
Більш детальну інформацію про конструктивну дієвість див. Westen and Rosenthal (2003) , а також докладніше про конструювання дійсності у великих джерелах даних, Lazer (2015) та главі 2 цієї книги.
Одним з аспектів зовнішньої обґрунтованості є ситуація, в якій проводиться інтервенція. Allcott (2015) забезпечує ретельне теоретичне та емпіричне лікування відхилення вибору місця. Це питання також обговорюється Deaton (2010) . Інший аспект зовнішньої дійсності полягає в тому, чи альтернативні операціоналізація одного і того ж втручання матимуть подібні наслідки. У цьому випадку порівняння між Schultz et al. (2007) та Allcott (2011) показують, що експерименти Opower мали менше оціночного ефекту лікування, ніж початкові експерименти Шульца та його колег (1,7% проти 5%). Allcott (2011) припустив, що подальші експерименти мали менший ефект через те, як лікування різнилось: рукописний смайлик як частина дослідження, спонсорованого університетом, у порівнянні з друкованим смайликом як частиною масової продукції звіт від енергетичної компанії.
Для відмінного огляду неоднорідності ефектів лікування в польових експериментах, див. Главу 12 Gerber and Green (2012) . Для ознайомлення з неоднорідністю ефектів лікування в медичних дослідженнях див. Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) . Врахування неоднорідності ефектів лікування в основному зосереджується на відмінностях, що ґрунтуються на характеристиках до лікування. Якщо ви зацікавлені в неоднорідності, виходячи з результатів після лікування, тоді потрібні більш складні підходи, такі як основна стратифікація (Frangakis and Rubin 2002) ; див. Page et al. (2015) Для перегляду.
Багато дослідників оцінюють неоднорідність ефектів лікування за допомогою лінійної регресії, але нові методи покладаються на машинне навчання; див., наприклад, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , а також Athey and Imbens (2016a) .
Існує певний скептицизм щодо виявлення неоднорідності ефектів через кілька проблем порівняння та "риболовлі". Існує безліч статистичних підходів, які можуть допомогти вирішувати стурбованість щодо багаторазового порівняння (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) Одним із підходів до занепокоєння щодо "риболовлі" є попередня реєстрація, яка все частіше (Nosek and Lakens 2014) в психології (Nosek and Lakens 2014) , політології (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , та економіка (Olken 2015) .
У дослідженні Costa and Kahn (2013) лише близько половини домашніх господарств у експерименті можуть бути пов'язані з демографічною інформацією. Читачі, зацікавлені в цих деталях, повинні посилатися на оригінальний документ.
Механізми є неймовірно важливими, але вони виявилися дуже важкими для вивчення. Дослідження механізмів тісно пов'язане з вивченням посередників у психології (але див. Також VanderWeele (2009) для точного порівняння двох ідей). Статистичні підходи до пошуку механізмів, такі як підхід, розроблений в Baron and Kenny (1986) , досить поширені. На жаль, виявляється, що ці процедури залежать від деяких сильних припущень (Bullock, Green, and Ha 2010) і страждають, коли існує безліч механізмів, як це можна очікувати в багатьох ситуаціях (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) Та Imai and Yamamoto (2013) Пропонують деякі вдосконалені статистичні методи. Далі, VanderWeele (2015) пропонує VanderWeele (2015) обробку з рядом важливих результатів, включаючи комплексний підхід до аналізу чутливості.
Окремий підхід зосереджений на експериментах, які намагаються безпосередньо маніпулювати механізмом (наприклад, надаючи морякам вітамін С). На жаль, у багатьох соціальних наукових установ часто існує безліч механізмів, і важко розробляти методи лікування, які змінюють один, не змінюючи інших. Деякі підходи до експериментально змінюючих механізмів описані Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , а також Pirlott and MacKinnon (2016) .
Дослідники, які повністю проводять факториальні експерименти, повинні бути стурбовані перевіркою численних гіпотез; Для отримання додаткової інформації див. Fink, McConnell, and Vollmer (2014) та List, Shaikh, and Xu (2016) .
Нарешті, механізми також мають довгу історію у філософії науки, як описано Hedström and Ylikoski (2010) .
Докладніше про використання заочного навчання та аудиторських досліджень для вимірювання дискримінації див. У Pager (2007) .
Найпоширеніший спосіб привернути учасників до експериментів, які ви будуєте - Amazon Mechanical Turk (MTurk). Оскільки MTurk імітує аспекти традиційних лабораторних експериментів - платять людям для виконання завдань, які вони не будуть робити безкоштовно - багато дослідників вже почали використовувати туркерів (працівників MTurk) як експериментальних учасників, в результаті чого швидше і дешевше збирати дані, ніж можна досягти в традиційних лабораторних експериментах на кампусі (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Як правило, найбільші переваги використання учасників, набраних з MTurk, є логістичними. У той час як лабораторні експерименти можуть тривати кілька тижнів, а польові експерименти можуть зайняти кілька місяців для налаштування, експерименти з учасниками, набраними з MTurk, можуть виконуватися в дні. Наприклад, Berinsky, Huber, and Lenz (2012) мали змогу взяти на роботу 400 суб'єктів за один день, щоб взяти участь у 8-хвилинному експерименті. Крім того, ці учасники можуть бути прийняті на роботу практично для будь-яких цілей (включаючи опитування та масового співробітництва, як обговорюється в главах 3 і 5). Ця легкість підбору персоналу означає, що дослідники можуть швидко виконувати послідовності пов'язаних експериментів.
Перед тим, як залучити учасників з MTurk для власних експериментів, є чотири важливі речі, які потрібно знати. По-перше, багато дослідників мають неспецифічний скептицизм експериментів за участю туркерів. Оскільки цей скептицизм не є специфічним, це важко суперечити докази. Проте після декількох років навчання з використанням туркерів ми можемо зараз зробити висновок, що цей скептицизм особливо не виправдовується. Було проведено багато досліджень, що порівнюють демографічні показники туркерів з іншими групами населення та багато досліджень, що порівнюють результати експериментів з туркерами з іншими групами. Враховуючи всю цю роботу, я думаю, що найкращий спосіб для вас подумати про те, що туркерами є вибір з розумною зручністю, схожий на студентів, але трохи більш різноманітний (Berinsky, Huber, and Lenz 2012) . Таким чином, так само, як студенти є розумним населенням для деяких, але не всіх, досліджень, туркерами є розумне населення для деяких, але не всіх, досліджень. Якщо ви збираєтеся працювати з туркерами, то має сенс читати багато з цих порівняльних досліджень та зрозуміти їх нюанси.
По-друге, дослідники розробили найкращі практики для збільшення внутрішньої обґрунтованості досліджень MTurk, і ви повинні дізнатись та слідувати цим найкращим методам (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Наприклад, дослідники, які використовують туркерам, заохочуються використовувати просіювачів для усунення неуважних учасників (Berinsky, Margolis, and Sances 2014, 2016) (але див. Також DJ Hauser and Schwarz (2015b) та DJ Hauser and Schwarz (2015a) ). Якщо ви не видалите неуважних учасників, то будь-який ефект від лікування може бути змив шумом, який вони вводять, і на практиці кількість неуважних учасників може бути суттєвою. У експерименті, проведеному Губер та його колегами (2012) , близько 30% учасників зазнали невдачі основні увагу проглядачів. Інші проблеми, які часто виникають при використанні туркерів, - це не наївні учасники (Chandler et al. 2015) та стирання (Zhou and Fishbach 2016) .
По-третє, по відношенню до деяких інших форм цифрових експериментів, експерименти MTurk не можуть масштабувати; Stewart et al. (2015) оцінюють, що в будь-який момент у MTurk є лише близько 7000 чоловік.
Нарешті, ви повинні знати, що MTurk - це спільнота з власними правилами та нормами (Mason and Suri 2012) . Точно так само, як ви спробуєте дізнатися про культуру країни, в якій ви збираєтеся проводити свої експерименти, слід спробувати більше дізнатися про культуру та норми турків (Salehi et al. 2015) Salehi (Salehi et al. 2015) . І ви повинні знати, що туркерам буде говорити про ваш експеримент, якщо ви робите щось неприйнятне або неетичне (Gray et al. 2016) .
MTurk - неймовірно зручний спосіб привернути учасників до ваших експериментів, незалежно від того, чи є вони лабораторними, такими як Huber, Hill, and Lenz (2012) , або більше схожими на поле, такі як Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , Mao et al. (2016) . Mao et al. (2016) .
Якщо ви думаєте про спроби створити свій власний продукт, я рекомендую вам ознайомитись з порадами, запропонованими групою MovieLens в Harper and Konstan (2015) . Ключове усвідомлення їхнього досвіду полягає в тому, що для кожного успішного проекту є багато, безліч невдач. Наприклад, група MovieLens запустила інші продукти, такі як GopherAnswers, які були повними збійками (Harper and Konstan 2015) . Іншим прикладом того, що дослідник не спромігся побудувати продукт, це спроба Едвард Кастронова створити онлайн-гру під назвою Arden. Незважаючи на фінансування 250 000 доларів, проект став флопом (Baker 2008) . На жаль, такі проекти, як GopherAnswers та Arden, набагато частіше, ніж проекти MovieLens.
Я чув, що ідея Quadrant Пастера часто обговорюється в технічних компаніях, і це допомагає організувати дослідження в Google (Spector, Norvig, and Petrov 2012) .
Дослідження Бонда та колег (2012) також намагається виявити ефект від цих методів лікування друзям тих, хто їх отримав. Через дизайн експерименту ці поглинання важко виявляти чисто; зацікавлені читачі повинні бачити Bond et al. (2012) для всебічного обговорення. Джонс та його колеги (2017) також провели дуже подібний експеримент під час виборів 2012 року. Ці експерименти є частиною довгої традиції експериментів у політичній науці з метою заохочення голосування (Green and Gerber 2015) . Ці експерименти з виходом на голосування є загальними, почасти тому, що вони знаходяться в квадранті Пастера. Тобто є багато людей, які мотивують збільшити голосування, і голосування може бути цікавою поведінкою для тестування більш загальних теорій про зміну поведінки та соціального впливу.
Для отримання поради щодо проведення польових експериментів із партнерськими організаціями, такими як політичні партії, неурядові організації та підприємства, див. Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) Та Gueron (2002) . Gueron (2002) . Для думок про те, як партнерські відносини з організаціями можуть впливати на проекти досліджень, див. King et al. (2007) та Green, Calfano, and Aronow (2014) . Партнерство також може призвести до етичних питань, як це обговорювали Humphreys (2015) і Nickerson and Hyde (2016) .
Якщо ви збираєтеся створити план аналізу, перш ніж проводити експеримент, радимо почати з читання інструкцій щодо звітування. Керівні принципи CONSORT (Зведені стандартні звіти про дослідження) були розроблені в медицині (Schulz et al. 2010) та модифіковані для соціальних досліджень (Mayo-Wilson et al. 2013) . Відповідні настанови були розроблені редакторами журналу експериментальної політології (Gerber et al. 2014) (див. Також Mutz and Pemantle (2015) та Gerber et al. (2015) ). Нарешті, керівні принципи звітності були розроблені в психології (APA Working Group 2008) , а також див. Simmons, Nelson, and Simonsohn (2011) .
Якщо ви створюєте план аналізу, слід попередньо зареєструвати його, оскільки попередня реєстрація збільшить довіру, яку інші мають до ваших результатів. Крім того, якщо ви працюєте з партнером, це обмежить здатність вашого партнера змінити аналіз після перегляду результатів. Попередня реєстрація стає дедалі популярнішою в психології (Nosek and Lakens 2014) , політології (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ; та економіки (Olken 2015) .
Консультації з дизайну спеціально для онлайнових польових експериментів також представлені в Konstan and Chen (2007) та Chen and Konstan (2015) .
Те, що я назвав стратегією армади, іноді називають програмним дослідженням ; див. Wilson, Aronson, and Carlsmith (2010) .
Докладніше про експерименти з MusicLab див. Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) і Salganik (2007) . Докладніше про ринки з переможець - див. Frank and Cook (1996) . Більш детальну інформацію про відкриття успіху та майстерності можна дізнатись у загальних Mauboussin (2012) , Watts (2012) та Frank (2016) .
Існує ще один підхід до усунення виплат учасникам, які дослідники повинні використовувати з обережністю: призову. У багатьох онлайнових польових експериментах учасники в основному складаються в експерименти і ніколи не компенсуються. Приклади цього підходу включають в себе експеримент з рецензій на винагороду у Вікіпедії "Рестиво" та "Ван де Рієць" (2012) експеримент "Бонд та колега" (2012) щодо заохочення людей до голосування. Ці експерименти насправді не мають нульової змінної вартості, а скоріше, вони мають нульові перемінні витрати для дослідників . У таких експериментах, навіть якщо вартість кожного учасника є надзвичайно мала, загальна вартість може бути досить великою. Дослідники, які проводять масові експерименти в Інтернеті, часто виправдовують важливість невеликих оціночних ефектів лікування, заявивши, що ці невеликі ефекти можуть стати важливими при застосуванні до багатьох людей. Точне таке ж думка стосується витрат, які дослідники накладають на учасників. Якщо ваш експеримент призводить до того, що мільйон людей витрачає одну хвилину, експеримент не дуже шкідливий для будь-якої конкретної людини, але в сукупності він витратив майже два роки.
Іншим підходом до створення нульових платіжних витрат для учасників є використання лотереї, підхід, який також використовувався в опитуванні (Halpern et al. 2011) . Більш детальну інформацію про розробку приємного користувацького досвіду див. Toomim et al. (2011) . Докладніше про використання роботів для створення нульових експериментів із змінною вартістю див. ( ??? ) .
Три Р, як його спочатку запропонували Russell and Burch (1959) є такими:
"Заміна означає заміщення свідомих живих вищих тварин неживі матеріалу. Скорочення означає зменшення кількості тварин, що використовуються для отримання інформації про заданій кількості і точності. Доопрацювання означає будь-яке зниження частоти або тяжкості нелюдських процедур, що застосовуються до тих тварин, які ще повинні бути використані ".
Троє R, які я пропоную, не перевищують етичних принципів, описаних у главі 6. Швидше за все, вони є більш деталізованою версією однієї з цих принципів - благодійності, зокрема, в рамках людських експериментів.
З точки зору першого R ("заміна"), порівняння експерименту з емоційним зараженням (Kramer, Guillory, and Hancock 2014) та природним емоційним експериментом (Lorenzo Coviello et al. 2014) можна знайти загальні уроки щодо участі компромісів переходячи від експериментів до природних експериментів (та інших підходів, таких як відповідність цієї спроби наблизити експерименти в неекспериментальних даних; див. главу 2). Окрім етичних переваг, перехід від експериментальних до неекспериментальних досліджень також дозволяє дослідникам вивчати методи лікування, які вони логістично не можуть розгорнути. Однак ці етичні та матеріально-технічні переваги приносять собівартість. З природними експериментами дослідники мають менший контроль над речами, як набір учасників, рандомізація та характер лікування. Наприклад, одне обмеження кількості опадів як обробки полягає в тому, що воно збільшує позитивність і зменшує негативність. Однак у експериментальному дослідженні Крамер та його колеги мали можливість самостійно коригувати позитивність і негативність. Особливий підхід, використаний Lorenzo Coviello et al. (2014) був розроблений ще L. Coviello, Fowler, and Franceschetti (2014) . Для введення до інструментальних змінних, який є підходом, використаним Lorenzo Coviello et al. (2014) , див. Angrist and Pischke (2009) (менш формальний) або Angrist, Imbens, and Rubin (1996) (більш формальні). Для скептичної оцінки інструментальних змінних див. Deaton (2010) , а для ознайомлення з інструментальними змінними зі слабкими інструментами (дощ слабкий інструмент), див. Murray (2006) . У загальному випадку гарне введення в природні експерименти дає Dunning (2012) , а Rosenbaum (2002) , ( ??? ) і Shadish, Cook, and Campbell (2001) пропонують хороші уявлення про оцінку причинних наслідків без експериментів.
З точки зору другого R ("вишуканість"), існують наукові та матеріально-технічні компроміси, коли розглядаються питання зміни дизайну емоційної інфекції від блокування посад до посилення посад. Наприклад, це може бути так, що технічна реалізація каналу новин дозволяє значно спростити експеримент із блокуванням публікацій, а не тим, в якому їх було посилено (зверніть увагу, що експеримент із блокуванням публікацій може бути здійснений як шар у верхній частині системи подачі новин без необхідності внесення змін до базової системи). Втім, науково обгрунтована теорія, що не передбачає жодного дизайну над іншим. На жаль, я не знаю про істотні попередні дослідження щодо відносних переваг блокування та посилення вмісту в каналі новин. Крім того, я не бачив значних досліджень щодо переробки ліків, щоб зробити їх менш шкідливими; єдиним винятком є B. Jones and Feamster (2015) , який розглядає питання вимірювання цензури в Інтернеті (тема, яку я обговорюю у розділі 6 у зв'язку з дослідженням "Анкор" (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
З точки зору третього R ("скорочення") хороші введення в традиційний аналіз енергії даються Cohen (1988) (книга) і Cohen (1992) (стаття), а Gelman and Carlin (2014) пропонують дещо іншу перспективу. Коваріати попереднього лікування можуть бути включені в етапи проектування та аналізу експериментів; Глава 4 Gerber and Green (2012) дає гарне введення в обох підходах, а Casella (2008) забезпечує більш глибоке лікування. Методи, які використовують цю інформацію про попередню обробку в рандомізації, зазвичай називаються або заблокованими експериментальними конструкціями, або стратифікованими експериментальними конструкціями (термінологія не використовується послідовно в різних спільнотах); ці методи тісно пов'язані з методами стратифікованого відбору зразків, розглянутими в главі 3. Див. Higgins, Sävje, and Sekhon (2016) щоб дізнатися більше про використання цих конструкцій у масивних експериментах. Коваріати попереднього лікування також можуть бути включені в стадію аналізу. McKenzie (2012) досліджує різницю між різними підходами до аналізу польових експериментів більш докладно. Перегляньте Carneiro, Lee, and Wilhelm (2016) щоб дізнатись більше про компроміси між різними підходами для підвищення точності оцінок ефектів лікування. Нарешті, при вирішенні питання про те, чи потрібно включати коваріати попереднього лікування на стадії проектування або аналізу (або обидва), є кілька факторів, які слід враховувати. У середовищі, де дослідники хочуть показати, що вони не "ловлять рибу" (Humphreys, Sierra, and Windt 2013) (Higgins, Sävje, and Sekhon 2016) попереднього лікування на стадії розробки можуть бути корисними (Higgins, Sävje, and Sekhon 2016) . У ситуаціях, коли учасники приходять послідовно, особливо в онлайнових польових експериментах, використання проекту попередньої обробки на етапі проектування може бути складним логістичним способом; див., наприклад, Xie and Aurisset (2016) .
Варто додати трохи інтуїції про те, чому підхід різниці в відмінності може бути набагато більш ефективним, ніж різниця між собою. Багато результатів в Інтернеті мають дуже високу дисперсію (див., Наприклад, RA Lewis and Rao (2015) та Lamb et al. (2015) ), і вони відносно стабільні з часом. У такому випадку оцінка зміни буде істотно меншою дисперсією, збільшивши потужність статистичного тесту. Одна з причин, чому цей підхід не використовується частіше, полягає в тому, що до цифрового віку не було поширеності результатів перед лікуванням. Більш конкретний спосіб думати про це - це уявити собі експеримент, щоб визначити, чи може певна поведінка тренувань спричинити втрату ваги. Якщо ви приймаєте різницю в оцінці підходу, ваша оцінка матиме мінливість, що виникає внаслідок мінливості маси населення. Однак, якщо підходити до різниці між різноманітними показниками, однак, природні зміни в вагах видаляються, і ви можете більш легко виявити різницю, викликану лікуванням.
Нарешті, я розглянув додавання четвертого R: "reuppose". Тобто, якщо дослідники опиняються з більш експериментальними даними, ніж вони потребують вирішення їх оригінального питання дослідження, вони повинні перепрограмувати дані, щоб задавати нові питання. Наприклад, уявіть собі, що Крамер та його колеги використовували оцінювач різниці в відмінності і опинилися з більшою кількістю даних, ніж вони потребували для вирішення своїх дослідницьких питань. Замість того, щоб не використовувати дані в повній мірі, вони могли б вивчити розмір ефекту як функцію попереднього емоційного виразу. Так само, як Schultz et al. (2007) виявив, що ефект лікування був різним для легких та важких користувачів, можливо, ефекти каналу новин відрізнялися для людей, які вже мали публікувати щасливі (або сумні) повідомлення. Репарування може призвести до "риболовлі" (Humphreys, Sierra, and Windt 2013) та "p-хакінг" (Simmons, Nelson, and Simonsohn 2011) , але вони в значній мірі можуть бути пов'язані з поєднанням чесної звітності (Simmons, Nelson, and Simonsohn 2011) , попередня реєстрація (Humphreys, Sierra, and Windt 2013) та методи машинного навчання, які намагаються уникнути переобладнання.