Udělej si svůj experiment lidštější tím, že nahradí pokusy s non-experimentální studie, rafinace procedury, a snížení počtu účastníků.
Druhá rada, kterou bych vám chtěla nabídnout ohledně navrhování digitálních experimentů, se týká etiky. Jak ukazuje experiment Restivo a van de Rijt na barnstarech na Wikipedii, snížená cena znamená, že etika se stane stále důležitější součástí výzkumu. Vedle etických rámců, které řídí výzkum lidských předmětů, které budu popsat v kapitole 6, mohou výzkumní pracovníci navrhnout digitální experimenty také vycházet z etických nápadů z jiného zdroje: etické principy vyvinuté k vedení experimentů zahrnujících zvířata. Zejména v jejich zásadní knize Principy humánní experimentální techniky Russell and Burch (1959) navrhly tři principy, které by měly řídit výzkum na zvířatech: nahradit, upřesnit a snížit. Rád bych navrhl, aby tyto tři R mohly být použity - v mírně upravené podobě - pro vedení návrhu lidských experimentů. Zejména,
Aby byly tyto tři R konkrétní a ukázaly, jak mohou potenciálně vést k lepšímu a humánnějšímu experimentálnímu návrhu, popíšu on-line experiment v terénu, který vytvořil etickou diskusi. Pak popíšu, jak tři R naznačují konkrétní a praktické změny návrhu experimentu.
Jeden z nejvíce eticky diskutovaných experimentů s digitálním polem byl proveden Adam Kramer, Jamie Guillroy a Jeffrey Hancock (2014) a stal se nazýván "Emotional Contagion". Experiment probíhal na Facebooku a byl motivován kombinací vědeckých a praktické otázky. V té době dominantním způsobem, jakým uživatelé interagovali s Facebookem, byl News Feed, algoritmicky vyčíslený soubor aktualizací stavu Facebooku z přátel Facebooku uživatele. Někteří kritici společnosti Facebook naznačili, že kvůli tomu, že News Feed má převážně pozitivní příspěvky - přátelé, kteří předvádějí svou poslední párty - by to mohlo způsobit, že se uživatelé budou cítit smutně, protože jejich životy se v porovnání s nimi zdálo méně vzrušující. Na druhou stranu, možná efekt je přesně naopak: možná, že se váš přítel bude cítit šťastně. Abychom řešili tyto konkurenční hypotézy - a abychom rozvinuli naše chápání toho, jak emoce člověka ovlivňují emoce svých přátel - Kramer a jeho kolegové udělali experiment. Umístěli asi 700 000 uživatelů do čtyř skupin po dobu jednoho týdne: skupina s negativitou sníženou, u nichž byly náhodně blokovány příspěvky s negativními slovy (např. "Smutné") v News Feed; skupinu s "pozitivitou sníženou", u které byly náhodně blokovány příspěvky s kladnými slovy (např. "šťastné"); a dvě kontrolní skupiny. V kontrolní skupině pro skupinu s "negativitou sníženou" byly příspěvky náhodně blokovány stejnou rychlostí jako skupina "negativity-reduced", ale bez ohledu na emoční obsah. Kontrolní skupina pro skupinu s "pozitivitou sníženou" byla sestavena paralelně. Návrh tohoto experimentu ukazuje, že příslušná kontrolní skupina není vždy jedna bez změn. Někdy kontrolní skupina obdrží léčbu, aby vytvořila přesné srovnání, které vyžaduje výzkumná otázka. Ve všech případech byly příspěvky, které byly zablokovány z News Feed, stále k dispozici uživatelům prostřednictvím jiných částí webových stránek Facebooku.
Kramer a kolegové zjistili, že pro účastníky v podmínkách snižující pozitivitu se procento pozitivních slov v jejich aktualizacích stavu snížilo a procento negativních slov se zvýšilo. Na druhé straně se pro účastníky se sníženou negativitou zvýšil procento kladných slov a negativní slova (obrázek 4.24). Nicméně tyto účinky byly poměrně malé: rozdíl v pozitivních a negativních slovech mezi léčbou a kontrolami byl asi 1 na 1000 slov.
Než budeme diskutovat o etických otázkách vznesených tímto pokusem, rád bych popsal tři vědecké otázky, které používají některé z myšlenek z dřívější kapitoly. Nejprve není jasné, jak se skutečné detaily experimentu připojují k teoretickým požadavkům; jinými slovy, existují otázky týkající se platnosti konstruktu. Není jasné, že počet pozitivních a negativních slov je ve skutečnosti dobrým indikátorem emočního stavu účastníků, protože (1) není jasné, že slova, která lidé posílají, jsou dobrým indikátorem jejich emocí a (2) to není že konkrétní metodika analýzy sentimentu, kterou použili vědci, dokáže spolehlivě odvodit emoce (Beasley and Mason 2015; Panger 2016) . Jinými slovy, může existovat špatná míra zaujatého signálu. Za druhé, návrh a analýza experimentu nám neřekne nic o tom, kdo byl nejvíce ovlivněn (tj. Neexistuje žádná analýza heterogenity účinků léčby) a jaký mechanismus by mohl být. V tomto případě vědci měli mnoho informací o účastnících, ale v analýze se v podstatě považovali za widgety. Za třetí, velikost tohoto efektu v tomto experimentu byla velmi malá; rozdíl mezi léčebnými a kontrolními podmínkami je asi 1 z 1000 slov. Kramer a kolegové ve svém příspěvku tvrdí, že efekt této velikosti je důležitý, protože stovky milionů lidí každý den přistupuje k jejich News Feed. Jinými slovy tvrdí, že i když jsou pro každou osobu malé, jsou velké. Dokonce i kdybyste tento argument přijali, není ještě jasné, zda je účinek této velikosti důležitý, pokud jde o obecnější vědeckou otázku o šíření emocí (Prentice and Miller 1992) .
Vedle těchto vědeckých otázek, jen několik dní poté, co byl tento dokument publikován ve sborníku Národní akademie věd , zaznělo obrovské výčitky jak od vědců, tak od tisku (podrobněji popsám argumenty v této rozpravě v kapitole 6 ). Otázky vznesené v této rozpravě způsobily, že časopis zveřejnil vzácné "ediční vyjádření zájmu" ohledně etiky a procesu etického přezkumu pro výzkum (Verma 2014) .
Vzhledem k tomu, že jsem na pozadí emoční nákazy, chtěl bych nyní ukázat, že tři R mohou navrhnout konkrétní a praktické zlepšení skutečných studií (ať už byste si osobně mohli myslet o etice tohoto konkrétního experimentu). První R je nahrazena : výzkumníci by měli snažit nahradit experimenty méně invazními a riskantními technikami, pokud je to možné. Například spíše než experimentovat s randomizovaným kontrolovaným experimentem, výzkumníci mohli využít přirozený experiment . Jak je popsáno v kapitole 2, přirozené experimenty jsou situace, kdy se ve světě něco děje, které se blíží k náhodnému přiřazení léčby (např. Loterie, která rozhoduje o tom, kdo bude do armády navržen). Etická výhoda přirozeného experimentu spočívá v tom, že výzkumník nemusí dodat léčbu: životní prostředí to dělá pro vás. Například, téměř souběžně s experimentem emoční nákazy, Lorenzo Coviello et al. (2014) využili toho, co by mohlo být nazýváno přírodním experimentem Emocionální nákazy. Coviello a kolegové zjistili, že lidé dávají více negativních slov a méně pozitivních slov v dnech, kdy prší. Proto pomocí náhodných změn v počasí mohli studovat vliv změn ve zpravodajském zdroji bez nutnosti zasahovat vůbec. Bylo to, jako kdyby za nich počasí proběhlo experiment. Podrobnosti o jejich postupu jsou trochu komplikované, ale nejdůležitějším bodem pro naše účely je to, že pomocí přirozeného experimentu se Coviello a kolegové mohli dozvědět o šíření emocí bez nutnosti provozovat vlastní experiment.
Druhá ze tří R je zdokonalena : výzkumníci by se měli snažit upřesnit jejich ošetření tak, aby byly co nejškodlivější. Například místo zablokování obsahu, který byl buď pozitivní nebo negativní, mohli výzkumníci posílit obsah, který byl pozitivní nebo negativní. Tento vzestupný návrh by změnil emocionální obsah webových kanálů účastníků, ale vysvětlil by jednu z obav, které kritici vyjádřili: že experimenty mohly způsobit, že účastníci ve svém zpravodajském kanálu vynechali důležité informace. Při konstrukci, kterou používají Kramer a kolegové, je důležitá zpráva pravděpodobně zablokována jako zpráva, která není. Při posílení návrhu by však zprávy, které by byly vysídleny, by byly méně důležité.
Konečně je třeba snížit třetí R: výzkumníci by se měli snažit snížit počet účastníků experimentu na minimum potřebné k dosažení vědeckého cíle. V analogových experimentech se to stalo přirozeně kvůli vysokým variabilním nákladům účastníků. Ale v digitálních experimentech, zejména v těch s nulovými variabilními náklady, se výzkumníci nestýkají s omezením nákladů na velikost experimentu a to může vést k zbytečně velkým experimentům.
Například Kramer a kolegové mohli využít informace před léčbou o svých účastnících - např. O postupech před zahájením léčby -, aby byla jejich analýza účinnější. Konkrétně spíše než porovnání podílu pozitivních slov v podmínkách léčby a kontroly Kramer a kolegové mohli porovnat změnu v poměru kladných slov mezi jednotlivými podmínkami; přístup, který se někdy nazývá smíšený design (obrázek 4.5) a někdy se nazývá odhad rozdílů v rozdílech. To znamená, že pro každého účastníka by výzkumní pracovníci mohli vytvořit skóre změny (chování po léčbě \(-\) před léčbou) a poté srovnávaly změny skóre účastníků léčby a kontrolních podmínek. Tento přístup rozdílem rozdílů je statisticky účinnější, což znamená, že výzkumníci mohou dosáhnout stejné statistické důvěry za použití mnohem menších vzorků.
Bez surových dat je obtížné přesně zjistit, jaký je v tomto případě mnohem efektivnější odhad rozdílu v rozdílech. Ale můžeme se podívat na další související pokusy o hrubý nápad. Deng et al. (2013) uvedli, že pomocí formuláře odhadu rozdílů v rozdílech byli schopni snížit odchylku svých odhadů o přibližně 50% ve třech různých on-line experimentech; podobné výsledky zaznamenaly Xie and Aurisset (2016) . Toto 50% snížení rozptylu znamená, že výzkumní pracovníci s emocionální nákazou by byli schopni snížit svůj vzorek na polovinu, pokud by používali poněkud odlišnou metodu analýzy. Jinými slovy, s malou změnou v analýze bylo 350 000 lidí ušetřeno účasti na experimentu.
V tomto okamžiku byste se možná zajímali, proč by měli vědci pečovat o to, aby 350 000 lidí bylo zbytečně zraněno. Existují dvě zvláštní rysy Emocionální nákazy, které vyvolávají obavy z nadměrné velikosti a tyto rysy jsou sdíleny mnoha experimenty v oblasti digitálních polí: (1) existuje nejistota ohledně toho, zda experiment způsobí poškození alespoň některých účastníků a (2) účast nebyla dobrovolná. Zdá se být rozumné pokoušet se udržovat experimenty, které mají tyto funkce co nejmenší.
Abyste byli jasní, snaha snížit velikost experimentu neznamená, že byste neměli provádět velké, nulové experimenty s variabilními náklady. To prostě znamená, že vaše experimenty by neměly být větší, než potřebujete k dosažení vašich vědeckých cílů. Jedním z důležitých způsobů, jak se ujistit, že experiment má správnou velikost, je provést analýzu výkonu (Cohen 1988) . V analogickém věku výzkumníci obecně provedli analýzu výkonu, aby se ujistili, že jejich studium není příliš malé (tj. Nedostatečně napájené). Nyní by však výzkumníci měli provést analýzu výkonu, aby se ujistil, že jejich studium není příliš velké (tj. Nadměrně poháněné).
Závěrem, tři R-nahrazují, upřesňují a redukují principy, které mohou pomoci výzkumníkům stavět etiku do svých experimentálních návrhů. Samozřejmě, každá z těchto případných změn v emoční nákazě zavádí kompromisy. Například důkazy z přirozených experimentů nejsou vždy stejně čisté jako u náhodných experimentů a obsah může být logicky obtížnější implementovat než blokovat obsah. Takže účelem těchto změn bylo navrhnout, aby se nepodařilo hádat rozhodnutí jiných výzkumných pracovníků. Spíše by to mělo ukázat, jak by tři R mohly být použity v realistické situaci. Ve skutečnosti se otázka kompromisů stále projevuje ve vývoji výzkumu a v digitálním věku budou tyto kompromisy stále více zahrnovat etické aspekty. Později v kapitole 6 nabídnu některé zásady a etické rámce, které mohou výzkumníkům pomoci pochopit a projednat tyto kompromisy.