4.6.2 Budovať etiku do vášho dizajnu: nahradiť, spresniť a znížiť

Tento preklad bol vytvorený na počítači. ×

4.6.2 Budovať etiku do vášho dizajnu: nahradiť, spresniť a znížiť

Urob si svoj experiment ľudskejší tým, že nahradí pokusy s non-experimentálne štúdie, rafinácie procedúry, a zníženie počtu účastníkov.

Druhá rada, ktorú by som chcela ponúknuť pri navrhovaní digitálnych experimentov, sa týka etiky. Ako ukazuje experiment Restivo a van de Rijt na barnstars na Wikipédii, zníženie nákladov znamená, že etika sa stane čoraz dôležitejšou súčasťou výskumu. Okrem etických rámcov vedúcich výskum ľudských subjektov, ktoré budem popísať v kapitole 6, môžu výskumní pracovníci navrhujúci digitálne experimenty čerpať aj z etických myšlienok z iného zdroja: etické princípy vyvinuté na usmerňovanie pokusov týkajúcich sa zvierat. Najmä v knihe o princípoch humánnej experimentálnej techniky Russell and Burch (1959) navrhli tri princípy, ktoré by mali riadiť výskum na zvieratách: nahradiť, spresniť a znížiť. Rád by som navrhol, aby sa tieto tri triedy R mohli použiť aj v mierne upravenej forme, aby sa usmerňoval návrh ľudských experimentov. Konkrétne,

Nahradiť: Ak je to možné, nahraďte experimenty menej invazívnymi metódami.
Upresniť: Zlepšite liečbu tak, aby bola neškodná.
Znížte: čo najviac znížte počet účastníkov experimentu.

Aby sme tieto tri R boli konkrétne a ukázali, ako môžu potenciálne viesť k lepšiemu a humánnejšiemu experimentálnemu návrhu, popíšem on-line experiment v teréne, ktorý vytvoril etickú diskusiu. Potom opíšem, ako tri R naznačujú konkrétne a praktické zmeny návrhu experimentu.

Jeden z najviac eticky diskutovaných experimentov s digitálnymi poľami vykonali Adam Kramer, Jamie Guillroy a Jeffrey Hancock (2014) a stal sa nazvaný "Emocionálna nákaza". Experiment sa uskutočnil na Facebooku a bol motivovaný zmesou vedeckých a praktické otázky. V tom čase dominantným spôsobom, ako používatelia interagovali s Facebookom, bol News Feed, algoritmicky upravený súbor aktualizácií stavu Facebooku od priateľov používateľa Facebooku. Niektorí kritici Facebooku naznačili, že kvôli tomu, že News Feed má väčšinou pozitívne príspevky - priatelia, ktorí odprezentujú svoju poslednú párty - to môže spôsobiť, že sa užívatelia cítia smutní, pretože ich životy sa v porovnaní s nimi zdajú byť menej zaujímavé. Na druhej strane, možno tento efekt je presne naopak: Možno, že vidíte, že váš priateľ má dobrý čas, by ste sa cítili šťastní. Aby sme sa mohli zaoberať týmito konkurenčnými hypotézami a porozumieť tomu, ako emócie človeka ovplyvňujú emócie svojich priateľov - Kramer a kolegovia prebehli experiment. Do jedného týždňa umiestnili približne 700 000 používateľov do štyroch skupín: skupina s "negatívnou redukciou", pre ktorú boli náhodne zablokované príspevky s negatívnymi slovami (napr. "Smutné") v News Feed; skupina s "zníženou pozitivitou", pre ktorú boli náhodne blokované príspevky s pozitívnymi slovami (napr. "šťastné"); a dve kontrolné skupiny. V kontrolnej skupine pre skupinu so zníženou negatívnosťou boli príspevky náhodne blokované rovnakou rýchlosťou ako skupina s "zníženou negatívnosťou", ale bez ohľadu na emocionálny obsah. Kontrolná skupina pre skupinu s "zníženou pozitivitou" bola vytvorená paralelným spôsobom. Návrh tohto experimentu ilustruje, že vhodná kontrolná skupina nie je vždy jedna bez zmien. Skôr, niekedy, kontrolná skupina dostane ošetrenie, aby vytvorilo presné porovnanie, ktoré vyžaduje výskumná otázka. V každom prípade boli príspevky, ktoré boli zablokované zo spravodajského kanála, stále dostupné pre používateľov prostredníctvom iných častí webovej stránky Facebooku.

Kramer a kolegovia zistili, že pre účastníkov v podmienke so zníženou pozitivitou klesol percentuálny podiel pozitívnych slov v aktualizáciách stavu a percento negatívnych slov sa zvýšilo. Na druhej strane, pre účastníkov v podmienkach so zníženou negatívnosťou sa zvýšil podiel kladných slov a negatívnych slov (obrázok 4.24). Tieto účinky však boli pomerne malé: rozdiel v pozitívnych a negatívnych slovách medzi liečbou a kontrolami bol približne 1 z 1000 slov.

Obrázok 4.24: Dôkazy emocionálnej nákazy (Kramer, Guillory a Hancock 2014). Účastníci stavu so zníženou negatívnosťou používali menej negatívnych slov a pozitívnejších slov a účastníci stavu so zníženou pozitivitou používali viac negatívnych slov a menej pozitívnych slov. Tyče predstavujú odhadované štandardné chyby. Úprava z Kramera, Guilloryho a Hancocka (2014), obrázok 1.

Obrázok 4.24: Dôkazy emocionálnej nákazy (Kramer, Guillory, and Hancock 2014) . Účastníci stavu so zníženou negatívnosťou používali menej negatívnych slov a pozitívnejších slov a účastníci stavu so zníženou pozitivitou používali viac negatívnych slov a menej pozitívnych slov. Tyče predstavujú odhadované štandardné chyby. Úprava z Kramer, Guillory, and Hancock (2014) , obrázok 1.

Pred diskusiou o etických otázkach, ktoré tento experiment prináša, by som chcel popísať tri vedecké otázky s využitím niektorých myšlienok z predchádzajúcej kapitoly. Po prvé, nie je jasné, ako sa skutočné detaily experimentu pripájajú k teoretickým tvrdeniam. inými slovami, existujú otázky o platnosti konštruktu. Nie je jasné, že počet pozitívnych a negatívnych slov je vlastne dobrý ukazovateľ emočného stavu účastníkov, pretože (1) nie je jasné, že slová, ktoré ľudia uverejňujú, sú dobrým ukazovateľom ich emócií a (2) nie je že metóda analýzy sentimentu, ktorú použili vedci, dokáže spoľahlivo odvodiť emócie (Beasley and Mason 2015; Panger 2016) . Inými slovami, mohlo by dôjsť k nesprávnemu meraniu zaujatého signálu. Po druhé, návrh a analýza experimentu nám nehovorí nič o tom, kto bol najviac postihnutý (tj neexistuje žiadna analýza heterogenity účinkov liečby) a aký mechanizmus by mohol byť. V tomto prípade mali vedci veľa informácií o účastníkoch, ale v analýze sa v zásade považovali za widgety. Po tretie, veľkosť efektu v tomto experimente bola veľmi malá; rozdiel medzi liečebnými a kontrolnými podmienkami je približne 1 z 1000 slov. Kramer a kolegovia vo svojom príspevku tvrdia, že efekt tejto veľkosti je dôležitý, pretože stovky miliónov ľudí každý deň pristupuje k spravodajstvu. Inými slovami, tvrdia, že aj keď sú účinky pre každého človeka malé, sú celkom veľké. Aj keby ste tento argument prijali, stále nie je jasné, či je vplyv tejto veľkosti dôležitý vzhľadom na všeobecnejšiu vedeckú otázku o šírení emócií (Prentice and Miller 1992) .

Okrem týchto vedeckých otázok, len niekoľko dní po uverejnení tohto dokumentu v Zbierke národnej akadémie vied , došlo k obrovskému protestu od vedcov i tlače (opíšem argumenty v tejto rozprave podrobnejšie v kapitole 6 ). Otázky nastolené v tejto diskusii spôsobili, že časopis vydal zriedkavé "editoriálne vyjadrenie znepokojenia" o etike a procese etického preskúmania výskumu (Verma 2014) .

Ak vezmeme do úvahy pozadie týkajúce sa emocionálnej nákazy, chcel by som teraz ukázať, že tri R môžu navrhnúť konkrétne a praktické zlepšenia pre skutočné štúdie (čokoľvek si osobne premýšľate o etike tohto konkrétneho experimentu). Prvý R je nahradený : výskumníci by sa mali pokúsiť nahradiť experimenty menej invazívnymi a rizikovými technikami, ak je to možné. Napríklad namiesto spustenia randomizovaného kontrolovaného experimentu mohli výskumníci využívať prirodzený experiment . Ako je popísané v kapitole 2, prirodzené experimenty sú situácie, keď sa niečo stane vo svete, ktoré sa približuje k náhodnému priradeniu liečby (napr. Lória rozhodne, kto bude prepracovaný do armády). Etická výhoda prirodzeného experimentu spočíva v tom, že výskumník nemusí dodávať liečbu: životné prostredie to robí pre vás. Napríklad, takmer súčasne s experimentom emocionálnej nákazy, Lorenzo Coviello et al. (2014) využívali to, čo by sa mohlo nazvať prírodným experimentom s emocionálnym nákazou. Coviello a kolegovia zistili, že ľudia uverejňujú viac negatívnych slov a menej pozitívnych slov v dňoch, keď prší. Preto pomocou náhodných variácií počasia dokázali študovať vplyv zmien v News Feed bez toho, aby bolo potrebné zasiahnuť vôbec. Bolo to, akoby ich počasie experimentovalo. Podrobnosti o ich postupe sú trochu komplikované, ale najdôležitejším bodom pre naše účely je to, že pomocou prirodzeného experimentu sa Coviello a kolegovia dokázali dozvedieť o šírení emócií bez potreby vlastného experimentu.

Druhá z troch R je upresniť : výskumníci by sa mali usilovať o zdokonalenie svojej liečby, aby boli čo najškodlivejšie. Napríklad, skôr ako blokovanie obsahu, ktorý bol buď pozitívny, alebo negatívny, výskumníci mohli zvýšiť obsah, ktorý bol pozitívny alebo negatívny. Tento vzostupný dizajn by zmenil emocionálny obsah stránok pre spravodajstvo, ale vysvetlil by jednu z obáv, ktoré vyjadrili kritici: že experimenty mohli zapríčiniť, že účastníci chýbajú dôležité informácie vo svojom News Feed. S dizajnom, ktorý používajú Kramer a kolegovia, je dôležitá správa pravdepodobne zablokovaná ako jedna, ktorá nie je. Avšak s podporným dizajnom by správy, ktoré by boli vysídlené, by boli tie, ktoré sú menej dôležité.

Napokon tretí R je obmedzený : vedci by sa mali usilovať o zníženie počtu účastníkov experimentu na minimum, ktoré je potrebné na dosiahnutie ich vedeckého cieľa. V analógových experimentoch sa to stalo prirodzene kvôli vysokým variabilným nákladom účastníkov. Avšak v digitálnych experimentoch, najmä v tých, ktoré majú nulové premenlivé náklady, vedci nie sú vystavení obmedzeniu nákladov na veľkosť ich experimentu a to má potenciál viesť k zbytočne veľkým pokusom.

Napríklad Kramer a jeho kolegovia mohli použiť informácie o svojich účastníkoch pred liečbou - napríklad správanie, ktoré predchádza liečbe - aby bola ich analýza efektívnejšia. Konkrétne skôr než porovnanie podielu pozitívnych slov v liečebných a kontrolných podmienkach Kramer a kolegovia mohli porovnať zmenu v pomere pozitívnych slov medzi podmienkami; prístup, ktorý sa niekedy nazýva zmiešaný dizajn (obrázok 4.5) a niekedy nazývaný odhad rozdielov v rozdieloch. To znamená, že pre každého účastníka, výskumníci mohla vytvoriť zmenu skóre (post-ošetrenie správanie $-$ správanie predčistenia), a potom porovnali výsledky zmena účastníkov pri liečbe a kontrolných podmienok. Tento prístup rozdielov v rozdieloch je štatisticky efektívnejší, čo znamená, že výskumníci môžu dosiahnuť rovnakú štatistickú dôveru pomocou oveľa menších vzoriek.

Bez toho, aby sme mali hrubé údaje, je ťažké presne zistiť, aká efektívnejšia by bola v tomto prípade odhady rozdielov v rozdieloch. Ale môžeme sa pozrieť na ďalšie súvisiace experimenty na hrubý nápad. Deng et al. (2013) uviedli, že pomocou formulára odhadu rozdielov v rozdieloch dokázali znížiť odchýlku svojich odhadov o približne 50% v troch rôznych online pokusoch; podobné výsledky uvádzajú Xie and Aurisset (2016) . Toto 50% zníženie rozptylu znamená, že výskumní pracovníci s emočnou nákazou by boli schopní znížiť svoju vzorku na polovicu, ak by použili trochu odlišnú metódu analýzy. Inými slovami, s malou zmenou v analýze bolo 350 000 ľudí ušetrené v účasti na experimente.

V tomto momente by ste sa mohli opýtať, prečo by výskumníci mali starať o to, ak by zbytočne bolo 350 000 ľudí v emočnej nákaze. Existujú dve osobitné črty emocionálnej nákazy, ktoré vyvolávajú obavy z nadmernej veľkosti a tieto vlastnosti sa zdieľajú v mnohých experimentoch s digitálnymi poľami: (1) existuje nejasnosť, či experiment spôsobí poškodenie aspoň niektorých účastníkov a (2) účasť nebol dobrovoľný. Zdá sa rozumné pokúsiť sa pokračovať v experimentoch, ktoré majú tieto funkcie čo najmenšie.

Aby ste boli jasní, túžba znížiť veľkosť vášho experimentu neznamená, že by ste nemali vykonávať veľké, nulové experimenty s variabilnými nákladmi. Znamená to, že vaše experimenty by nemali byť väčšie ako je potrebné na dosiahnutie vedeckého cieľa. Jedným z dôležitých spôsobov, ako zabezpečiť, aby experiment mal primeranú veľkosť, je vykonať analýzu výkonu (Cohen 1988) . V analógovom veku výskumníci vo všeobecnosti robili analýzu výkonu, aby sa uistili, že ich štúdia nie je príliš malá (tj nedostatočne napájaná). Teraz by však výskumníci mali robiť analýzu moci, aby sa uistili, že ich štúdia nie je príliš veľká (tj nadmerne poháňaná).

Na záver, tri Rs - nahrádzajú, zdokonaľujú a znižujú - prinášajú princípy, ktoré môžu pomôcť výskumníkom stavať etiku do svojich experimentálnych návrhov. Samozrejme, každá z týchto možných zmien emočnej nákazy prináša kompromisy. Napríklad dôkazy z prirodzených experimentov nie sú vždy rovnako čisté ako pri náhodných pokusoch a obsah by mohol byť logisticky ťažšie realizovateľný ako blokovanie obsahu. Takže cieľom navrhovania týchto zmien nebolo druhej hádať rozhodnutia iných výskumníkov. Skôr to bolo ilustrovať, ako by tri R mohli byť použité v realistickej situácii. V skutočnosti sa otázka kompromisov stále prejavuje vo výskume a v digitálnom veku tieto kompromisy budú čoraz viac zahŕňať etické úvahy. Neskôr v kapitole 6 ponúknem niekoľko zásad a etických rámcov, ktoré môžu pomôcť výskumným pracovníkom pochopiť a prerokovať tieto kompromisy.