Направи си експеримент по-хуманен, като се замени експерименти с не-експериментални изследвания, рафиниране на обработките, както и намаляване на броя на участниците.
Втората част от съветите, които бих искал да предложа за проектирането на цифрови експерименти, се отнася до етиката. Както показва експериментите на Restivo и van de Rijt за barnstars в Уикипедия, намалената цена означава, че етиката ще стане все по-важна част от изследователския дизайн. В допълнение към етичните рамки, ръководещи изследванията на човешките субекти, които ще опиша в глава 6, изследователите, които разработват дигитални експерименти, могат също така да черпят от етични идеи от различен източник: етичните принципи, разработени да насочват експериментите, включващи животни. По-специално, в книгата си " Принципи на хуманната експериментална техника " Russell and Burch (1959) предлагат три принципа, които трябва да ръководят изследванията на животните: да ги заменят, да пречистват и да намаляват. Бих искал да предложа тези три R да могат да бъдат използвани и в леко модифицирана форма, за да ориентират дизайна на човешките експерименти. В частност,
За да направят тези три R конкретни и да покажат как те могат потенциално да доведат до по-добър и по-хуманен експериментален дизайн, ще опиша онлайн експеримент, който генерира етичен дебат. След това ще опиша как трите R показват, конкретни и практически промени в дизайна на експеримента.
Едно от най-етично дискутираните експерименти с цифрови полета е проведено от Адам Крамер, Джейми Гилорой и Джефри Хенкок (2014) и е наречено "Емоционална поява". Експериментът се проведе във Facebook и беше мотивиран от комбинация от научни и практически въпроси. По това време доминиращият начин, по който потребителите взаимодействаха с Facebook, беше News Feed, алгоритмично подготвен набор от актуализации на състоянието на Facebook от приятели на потребител на Facebook. Някои критици на Facebook са предположили, че тъй като News Feed има предимно позитивни публикации - приятели, показващи последната си партия - това може да накара потребителите да се чувстват тъжни, защото животът им изглеждаше по-малко вълнуващ в сравнение. От друга страна, може би ефектът е точно обратното: може би да видиш приятеля си да се забавлява, ще ви накара да се чувствате щастливи. За да се справим с тези конкуриращи се хипотези - и за да разберем как емоциите на даден човек са повлияни от емоциите на приятелите си - Креймър и колегите му са направили експеримент. Те поставиха около 700 000 потребители в четири групи в продължение на една седмица: група "намалена отрицателност", за която публикации с отрицателни думи (напр. "Тъжни") бяха случайно блокирани да се появят в информационната емисия; група с "понижена позитивност", за която публикации с положителни думи (напр. "щастливи") бяха случайно блокирани; и две контролни групи. В контролната група за групата с "намалена негативност" публикациите бяха случайно блокирани със същата скорост като групата "намалена отрицателност", но без оглед на емоционалното съдържание. Контролната група за групата с "понижена позитивност" беше конструирана паралелно. Дизайнът на този експеримент показва, че подходящата контролна група не винаги е една без промени. По-скоро понякога контролната група получава лечение, за да създаде точното сравнение, което изисква изследователски въпрос. Във всички случаи публикациите, блокирани от информационната емисия, все още са достъпни за потребителите чрез други части на уебсайта на Facebook.
Крамер и колеги открили, че за участниците в състоянието, намаляващо позитивността, процентът на положителните думи в техните актуализации на състоянието намалява и процентът на негативните думи се увеличава. От друга страна, за участниците в състоянието с намалена негативност процентът положителни думи се увеличава, а отрицателните думи намаляват (фигура 4.24). Тези ефекти обаче бяха доста малки: разликата в положителните и отрицателните думи между леченията и контролите беше около 1 на 1000 думи.
Преди да обсъдим етичните въпроси, повдигнати от този експеримент, бих искал да опиша три научни въпроса, използвайки някои от идеите от по-ранната част на тази глава. Първо, не е ясно как действителните данни за експеримента се свързват с теоретичните претенции; с други думи, има въпроси относно валидността на конструкцията. Не е ясно, че положителната и отрицателната брой думи са всъщност добър индикатор за емоционалното състояние на участниците, защото (1) не е ясно, че думите, които хората публикуват, са добър показател за техните емоции и (2) не е Ясно е, че конкретната техника за анализ на настроенията, която изследователите използва, е в състояние надеждно да изведе емоциите (Beasley and Mason 2015; Panger 2016) . С други думи, може да има лоша мярка за предубеден сигнал. Второ, дизайнът и анализът на експеримента не ни разкриват кой е най-силно повлиян (т.е. няма анализ на хетерогенността на ефектите от лечението) и какви механизми биха могли да бъдат. В този случай изследователите са имали много информация за участниците, но те са били разглеждани като widgets в анализа. Трето, размерът на ефекта в този експеримент е много малък; разликата между условията на лечение и контрол е около 1 на 1000 думи. В статията си Креймър и колегите си казват, че ефект от този размер е важен, защото стотици милиони хора имат достъп до своята информационна емисия всеки ден. С други думи, те твърдят, че дори ако ефектите са малки за всеки човек, те са големи. Дори ако приемете този аргумент, все още не е ясно дали ефект от този размер е важен по отношение на по-общия научен въпрос за разпространението на емоциите (Prentice and Miller 1992) .
В допълнение към тези научни въпроси, само дни след публикуването на тази статия в Сборника на Националната академия на науките , имаше огромен протест както от страна на изследователите, така и от пресата (аз ще опиша аргументите в това разискване по-подробно в глава 6 ). Въпросите, повдигнати в това разискване, накараха списанието да публикува рядко "редакционно изражение на загриженост" за етиката и процеса на етичен преглед за изследванията (Verma 2014) .
Като се има предвид, че на фона на емоционалната инфекция, сега бих искал да покажа, че трите R могат да предложат конкретни и практически подобрения за реални изследвания (каквото и да си мислите лично за етиката на този конкретен експеримент). Първият R е заменен : изследователите трябва да се стремят да заменят експериментите с по-малко инвазивни и рискови техники, ако е възможно. Например, вместо да се провежда рандомизиран контролиран експеримент, изследователите биха могли да използват естествен експеримент . Както е описано в глава 2, природни експерименти са ситуации, в които нещо се случва в света, което приближава случайното възлагане на лечения (напр. Лотария, която решава кой ще бъде съставен във военните). Етичното предимство на естествения експеримент е, че изследователят не трябва да доставя лечение: средата прави това за вас. Например, почти едновременно с експеримента Емоционален контакт, Lorenzo Coviello et al. (2014) експлоатират това, което може да се нарече природен експеримент с емоционална зараза. Ковиело и колеги откриха, че хората публикуват повече негативни думи и по-малко положителни думи в дни, когато вали. Следователно, използвайки случаен вариант на времето, те успяха да проучат ефекта от промените в Feed Feed, без да е необходимо да се намесва изобщо. Сякаш времето се бе случило за тях. Подробностите за тяхната процедура са малко сложни, но най-важното за нашите цели тук е, че с помощта на естествен експеримент Ковиело и колеги успяха да научат за разпространението на емоциите, без да е необходимо да провеждат собствен експеримент.
Втората от трите Rs е усъвършенствана : изследователите трябва да се стремят да усъвършенстват лечението си, за да ги направят колкото е възможно по-безобидни. Например, вместо да блокират съдържание, което е било положително или отрицателно, изследователите биха могли да увеличат съдържанието, което е положително или отрицателно. Този стимулиращ дизайн би променил емоционалното съдържание на новинарските емисии на участниците, но би отговорил на една от опасенията, изразени от критиците: че експериментите биха могли да накарат участниците да пропуснат важна информация в своята информационна емисия. С дизайна, използван от Креймър и колегите, важно съобщение е възможно да бъде блокирано като такова, което не е така. Въпреки това, с подобряващ се дизайн, посланията, които ще бъдат изместени, ще бъдат тези, които са по-малко важни.
И накрая, третата R е намалена : изследователите трябва да се стремят да намалят броя на участниците в техния експеримент до минимума, необходим за постигането на тяхната научна цел. При аналогичните експерименти това се случи естествено поради високите променливи разходи на участниците. Но в цифровите експерименти, особено тези с нулеви променливи разходи, изследователите не се сблъскват с ограничения на разходите за размера на своя експеримент и това има потенциал да доведе до ненужно големи експерименти.
Например, Креймър и колегите биха могли да използват информация за лечението преди началото на лечението на техните участници, като например поведението при лечението преди лечението, за да направят анализа си по-ефективен. По-конкретно, вместо да се сравнява делът на положителните думи в условията на лечение и контрол, Крамер и колеги можеха да сравнят промяната в дела на положителните думи между условията; подход, който понякога се нарича смесен дизайн (фигура 4.5) и понякога се нарича оценка на разликата в разликите. Това означава, че за всеки участник изследователите биха могли да създадат резултат за промяна (поведение след по-нататъшното лечение \(-\) ) и след това да сравнят промяната на участниците в условията на лечение и контрол. Този подход с разлика в разликите е по-ефективен статистически, което означава, че изследователите могат да постигнат същото статистическо доверие, използвайки много по-малки проби.
Без да има необработени данни, е трудно да се знае колко по-ефективна би била оценката за разлика в разликите в този случай. Но можем да погледнем и други свързани експерименти за груба идея. Deng et al. (2013) съобщават, че с помощта на формуляр на оценката за разликите в разликите, те са успели да намалят вариацията на своите оценки с около 50% в три различни онлайн експеримента; подобни резултати са докладвани от Xie and Aurisset (2016) . Това намаление на 50% вариация означава, че изследователите с емоционална зараза биха могли да намалят пробата си наполовина, ако са използвали малко по-различен метод за анализ. С други думи, с малка промяна в анализа, 350 000 души може би са спестили участие в експеримента.
На този етап може да се чудите защо изследователите трябва да се грижат за това, ако 350 000 души са били изнемощели в емоционална зараза. Съществуват две особености на Емоционалната повреда, които пораждат загриженост за прекомерния размер, а тези характеристики се споделят от много експерименти с цифрови полета: (1) има несигурност дали експериментът ще причини вреда на поне някои участници и (2) не е доброволно. Изглежда разумно да се опитаме да продължим опитите, които имат тези функции колкото е възможно по-малки.
За да сте ясни, желанието да намалите размера на експеримента не означава, че не трябва да провеждате големи, нулеви експерименти с променливи разходи. Това просто означава, че вашите експерименти не трябва да бъдат по-големи от необходимото, за да постигнете научната си цел. Един важен начин да се уверите, че даден експеримент е правилно оразмерен, е да извършите анализ на силата (Cohen 1988) . В аналоговата епоха изследователите обикновено правеха анализ на мощността, за да се уверят, че тяхното изучаване не е твърде малко (т.е. недостатъчно захранвано). Сега, обаче, изследователите трябва да направят анализ на силата, за да се уверят, че тяхното изучаване не е твърде голямо (т.е. прекалено захранвано).
В заключение, трите R's - заместват, усъвършенстват и намаляват - осигуряват принципи, които могат да помогнат на изследователите да изградят етика в своите експериментални дизайни. Разбира се, всяка от тези възможни промени в "Емоционална зараза" въвежда компромиси. Например, доказателствата от природни експерименти не винаги са толкова чисти, колкото от рандомизирани експерименти, а увеличаването на съдържанието може да е логистично по-трудно да се осъществи, отколкото да се блокира съдържанието. Така че, целта да се предложат тези промени не беше да се допуснат вторични решения на други изследователи. По-скоро трябваше да илюстрира как могат да бъдат приложени трите R в реалистична ситуация. Всъщност проблемът с компромисите се появява през цялото време в изследователския дизайн, а в дигиталната ера тези компромиси все повече ще включват етични съображения. По-късно в глава 6 ще предложа някои принципи и етични рамки, които могат да помогнат на изследователите да разберат и обсъдят тези компромиси.