4.6.2 Construeix ètica en el disseny: reemplaça, refina i redueix

Aquesta traducció va ser creat per un ordinador. ×

4.6.2 Construeix ètica en el disseny: reemplaça, refina i redueix

Com fer el experiment més humà mitjançant la substitució dels experiments amb els estudis no experimentals, el perfeccionament dels tractaments, i la reducció del nombre de participants.

El segon consell que m'agradaria oferir sobre el disseny d'experiments digitals es refereix a l'ètica. Com que l'experiment Restivo i van de Rijt mostra a Wikipedia, la disminució del cost significa que l'ètica esdevindrà una part cada vegada més important del disseny de la recerca. A més dels marcs ètics que guien la recerca de temes humans que vaig a descriure al capítol 6, els investigadors que dissenyen experiments digitals també poden basar-se en idees ètiques des d'una font diferent: els principis ètics desenvolupats per guiar experiments relacionats amb animals. En particular, en el seu llibre de referència Principis de Tècnica Experimental Humana , Russell and Burch (1959) proposar tres principis que haurien de guiar la recerca animal: substituir, refinar i reduir. Voldria proposar que aquestes tres R també es puguin utilitzar, en una forma lleugerament modificada, per guiar el disseny d'experiments humans. En particular,

Substitució: reemplaça experiments amb mètodes menys invasius si és possible.
Refineu: refineu el tractament perquè sigui el més inofensiu possible.
Reduïu: redueixi al màxim el nombre de participants a la vostra prova.

Per tal de concretar aquests tres R i mostrar com poden conduir potencialment a un disseny experimental millor i més humà, vaig a descriure una experiència de camp en línia que va generar un debat ètic. A continuació, vaig a descriure com els tres R's suggereixen canvis concrets i pràctics per al disseny de l'experiment.

Un dels experiments de camp digital més discutits èticament va ser realitzat per Adam Kramer, Jamie Guillroy i Jeffrey Hancock (2014) i ha estat anomenat "Contagion Emocional". L'experiment es va realitzar a Facebook i va ser motivat per una barreja de coneixements científics i preguntes pràctiques. En aquella època, la forma dominant en què els usuaris interactuaven amb Facebook era News Feed, un conjunt d'actualitzacions de l'estat de Facebook a partir d'amics de Facebook d'un usuari. Alguns crítics de Facebook han suggerit que, a causa de que el feed de notícies ha estat principalment positiu, els amics mostren el seu últim partit, això podria fer que els usuaris se sentissin tristos perquè les seves vides semblaven menys interessants en comparació. D'altra banda, potser l'efecte és exactament el contrari: potser veure que el vostre amic passeja bé us farà sentir feliç. Per abordar aquestes hipòtesis competidores -i per avançar en la nostra comprensió de com les emocions d'una persona es veuen afectades per les emocions dels seus amics-, Kramer i els seus col·legues van fer un experiment. Van col·locar a prop de 700.000 usuaris en quatre grups durant una setmana: un grup "reduït per negatiu", per als quals es van bloquejar aleatòriament publicacions amb paraules negatives (p. Ex., "Tristes") a aparèixer al feed de notícies; un grup de "reducció de positivitat" per a qui es van bloquejar aleatòriament missatges amb paraules positives (p. ex., "feliços"); i dos grups de control. En el grup de control del grup "negativitat reduïda", les publicacions es van bloquejar aleatòriament al mateix ritme que el grup "negativitat reduïda", però sense tenir en compte el contingut emocional. El grup de control del grup "reducció de positivitat" es va construir de forma paral·lela. El disseny d'aquest experiment il·lustra que el grup de control adequat no sempre és un sense canvis. Més aviat, de vegades, el grup de control rep un tractament per crear la comparació precisa que requereix una pregunta de recerca. En tots els casos, les publicacions bloquejades per News Feed encara estaven disponibles per als usuaris a través d'altres parts del lloc web de Facebook.

Kramer i els seus col · legues van trobar que per als participants en la condició de reducció de positivitat, el percentatge de paraules positives en les seves actualitzacions d'estat disminuïa i el percentatge de paraules negatives augmentava. D'altra banda, per als participants en la condició reduïda per la negativitat, el percentatge de paraules positives va augmentar i el de paraules negatives va disminuir (figura 4.24). No obstant això, aquests efectes eren molt petits: la diferència de paraules positives i negatives entre els tractaments i els controls era d'aproximadament 1 de cada 1.000 paraules.

Figura 4.24: Evidència del contagi emocional (Kramer, Guillory i Hancock 2014). Els participants en la condició reduïda per la negativitat van utilitzar menys paraules negatives i paraules més positives, i els participants en la condició reduïda per positivitat van utilitzar paraules més negatives i menys paraules positives. Les barres representen els errors estàndard estimats. Adaptat de Kramer, Guillory i Hancock (2014), figura 1.

Figura 4.24: Evidència del contagi emocional (Kramer, Guillory, and Hancock 2014) . Els participants en la condició reduïda per la negativitat van utilitzar menys paraules negatives i paraules més positives, i els participants en la condició reduïda per positivitat van utilitzar paraules més negatives i menys paraules positives. Les barres representen els errors estàndard estimats. Adaptat de Kramer, Guillory, and Hancock (2014) , figura 1.

Abans de parlar sobre els problemes ètics plantejats per aquest experiment, voldria descriure tres qüestions científiques utilitzant algunes de les idees anteriors al capítol. En primer lloc, no està clar com es connecten els detalls reals de l'experiment amb les reclamacions teòriques; en altres paraules, hi ha preguntes sobre validesa de constructe. No està clar que el conte de paraules positives i negatives és en realitat un bon indicador de l'estat emocional dels participants perquè (1) no està clar que les paraules que publiquen les persones són un bon indicador de les seves emocions i (2) no és clar que la tècnica d'anàlisi de sentiment particular que els investigadors utilitzen és capaç de deduir emocions de manera fiable (Beasley and Mason 2015; Panger 2016) . En altres paraules, pot ser que hi hagi una mala mesura d'un senyal parcial. En segon lloc, el disseny i l'anàlisi de l'experiment no ens diu res sobre qui va patir més impacte (és a dir, no hi ha anàlisi de l'heterogeneïtat dels efectes del tractament) i el que podria ser el mecanisme. En aquest cas, els investigadors tenien molta informació sobre els participants, però es tractava bàsicament de widgets en l'anàlisi. En tercer lloc, la mida de l'efecte en aquest experiment era molt petita; la diferència entre el tractament i les condicions de control és d'aproximadament 1 de cada 1.000 paraules. En el seu article, Kramer i col·legues afirmen que un efecte d'aquesta mida és important perquè centenars de milions de persones accedeixen al seu feed de notícies cada dia. En altres paraules, argumenten que, fins i tot si els efectes són petits per a cada persona, són grans en general. Fins i tot si acceptés aquest argument, encara no està clar si un efecte d'aquesta mida és important quant a la pregunta científica més general sobre la difusió de l'emoció (Prentice and Miller 1992) .

A més d'aquestes preguntes científiques, tan sols uns dies després d'haver publicat aquest treball en les Actes de l'Acadèmia Nacional de Ciències , hi va haver una gran protesta tant dels investigadors com de la premsa (descriuré els arguments d'aquest debat amb més detall al capítol 6 ). Les qüestions plantejades en aquest debat van fer que la revista publiqui una rara "expressió editorial de preocupació" sobre l'ètica i el procés de revisió ètica de la investigació (Verma 2014) .

Tenint en compte els antecedents sobre contagi emocional, ara voldria mostrar que els tres R's poden suggerir millores concretes i pràctiques per als estudis reals (tot el que penseu personalment sobre l'ètica d'aquest experiment en particular). El primer R és reemplaçat : els investigadors haurien de buscar reemplaçar experiments amb tècniques menys invasives i arriscades, si és possible. Per exemple, en lloc d'executar un experiment controlat aleatori, els investigadors podrien haver explotat un experiment natural . Com es descriu al capítol 2, els experiments naturals són situacions en què succeeix alguna cosa al món que s'aproxima a l'assignació a l'atzar de tractaments (per exemple, una loteria per decidir qui serà el militar). L'avantatge ètic d'un experiment natural és que l'investigador no ha de lliurar tractaments: l'entorn ho fa per vostè. Per exemple, gairebé simultàniament amb l'experiment Emocional Contagion, Lorenzo Coviello et al. (2014) explotaran el que es podria anomenar un experiment natural de contagió emocional. Coviello i els seus col·legues van descobrir que les persones publiquen paraules més negatives i menys paraules positives en dies on plou. Per tant, mitjançant l'ús de variacions aleatòries en el temps, van poder estudiar l'efecte dels canvis en el Feed de notícies sense necessitat d'intervenir en absolut. Era com si el clima funcionés amb ells. Els detalls del seu procediment són una mica complicats, però el punt més important per als nostres propòsits és que, mitjançant l'ús d'un experiment natural, Coviello i els seus col·legues van poder conèixer la difusió d'emocions sense necessitat d'executar el seu propi experiment.

El segon dels tres Rs es perfecciona : els investigadors haurien de buscar refinar els seus tractaments per fer-los tan inofensius com sigui possible. Per exemple, en lloc de bloquejar contingut que sigui positiu o negatiu, els investigadors podrien haver augmentat el contingut que era positiu o negatiu. Aquest augment del disseny hauria canviat el contingut emocional dels News Feeds dels participants, però s'hauria abordat una de les preocupacions que van expressar els crítics: que els experiments podrien haver provocat que els participants perdin informació important a la seva News Feed. Amb el disseny utilitzat per Kramer i els seus companys, un missatge que és important és tan probable que es bloquegi com un que no ho és. No obstant això, amb un disseny dinamitzador, els missatges que serien desplaçats serien els que són menys importants.

Finalment, la tercera R és reduïda : els investigadors haurien de buscar reduir el nombre de participants en la seva experiència al mínim necessari per aconseguir el seu objectiu científic. En experiments analògics, això va passar naturalment a causa dels elevats costos variables dels participants. Però en experiments digitals, especialment aquells que tenen un cost variable de zero, els investigadors no s'enfronten a una restricció de costos en la mida del seu experiment, i això té el potencial de provocar experiments innecessàriament grans.

Per exemple, Kramer i els seus col · legues podrien haver utilitzat informació de pretractament sobre els seus participants, com ara el comportament de publicació prèvia al tractament, per fer que la seva anàlisi sigui més eficient. Més específicament, en comptes de comparar la proporció de paraules positives en les condicions de tractament i control, Kramer i els seus companys podrien haver comparat el canvi en la proporció de paraules positives entre condicions; un enfocament que de vegades s'anomena disseny mixt (figura 4.5) i de vegades s'anomena un estimador de diferència en diferències. És a dir, per a cada participant, els investigadors podrien haver creat una puntuació de canvi (comportament post-tractament $-$ pre-tractament) i comparar les puntuacions de canvis dels participants en les condicions de tractament i control. Aquest enfocament de diferència en diferències és més eficient estadísticament, el que significa que els investigadors poden aconseguir la mateixa confiança estadística utilitzant mostres molt més reduïdes.

Sense tenir les dades en brut, és difícil saber exactament quant més eficient hauria estat un estimador de diferències en diferències en aquest cas. Però podem veure altres experiments relacionats per una idea aproximada. Deng et al. (2013) informar que mitjançant l'ús d'una forma de l'estimador de diferències en diferències, van ser capaços de reduir la variància de les seves estimacions en un 50% en tres experiments en línia diferents; Resultats similars han estat reportats per Xie and Aurisset (2016) . Aquesta reducció de la variància del 50% significa que els investigadors de Contagion Emocional podrien haver estat capaços de tallar la mostra per la meitat si hagués utilitzat un mètode d'anàlisi lleugerament diferent. En altres paraules, amb un petit canvi en l'anàlisi, es podria haver estalviat la participació de 350.000 persones en l'experiment.

En aquest punt, podria estar preguntant-se per què els investigadors haurien d'importar si 350.000 persones estaven en un contagi emocional innecessàriament. Hi ha dues característiques particulars de Contagion Emocional que fan que la pertinença a la mida excessiva sigui apropiada, i aquestes característiques són compartides per molts experiments en camp digital: (1) hi ha incertesa sobre si l'experiment causarà danys almenys a alguns participants i (2) participació no era voluntari. Sembla raonable tractar de mantenir experiments que tinguin aquestes característiques tan petites com sigui possible.

Perquè sigui clar, el desig de reduir la mida de la vostra prova no significa que no creeu experiments de costos variables grans i nuls. Només vol dir que els vostres experiments no siguin més grans del que necessiteu per assolir el vostre objectiu científic. Una manera important d'assegurar-se que una prova sigui de mida adequada és realitzar una anàlisi de potència (Cohen 1988) . A l'edat analògica, els investigadors generalment van fer l'anàlisi de poder per assegurar-se que el seu estudi no era massa petit (és a dir, poc propulsado). Ara bé, però, els investigadors haurien de fer anàlisis de poder per assegurar-se que el seu estudi no és massa gran (és a dir, sobre-alimentat).

En conclusió, els tres R's-reemplaçar, reduir i reduir-proporcionen principis que poden ajudar els investigadors a construir ètica en els seus dissenys experimentals. Per descomptat, cadascun d'aquests possibles canvis en Contagion Emocional introdueix compensacions. Per exemple, les proves provinents d'experiments naturals no sempre són tan nets com els experiments aleatoris, i l'augment del contingut podria haver estat logísticament més difícil d'implementar que bloquejar el contingut. Així doncs, el propòsit de suggerir aquests canvis no consistia a endevinar les decisions d'altres investigadors. Més aviat, era il·lustrar com es podien aplicar les tres R en una situació realista. De fet, la qüestió de les compensacions apareix tot el temps en el disseny de la recerca, i en l'era digital, aquestes compensacions cada vegada més implicaran consideracions ètiques. Més tard, al capítol 6, oferiré uns principis i marcs ètics que ajudin als investigadors a comprendre i discutir aquestes compensacions.