4.6.2 Substituir, Refinar, i reduir

Aquesta traducció va ser creat per un ordinador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

4.6.2 Substituir, Refinar, i reduir

Com fer el experiment més humà mitjançant la substitució dels experiments amb els estudis no experimentals, el perfeccionament dels tractaments, i la reducció del nombre de participants.

El segon consell que m'agradaria oferir sobre el disseny d'experiments digitals fa a l'ètica. A mesura que l'experiment Restivo i van de Rijt en barnstars en espectacles Viquipèdia disminució dels costos vol dir que l'ètica es convertiran en una part cada vegada més important del disseny de la investigació. A més dels marcs ètics que guien els subjectes humans d'investigació que vaig a descriure en el capítol 6, els investigadors dissenyar experiments digitals també poden basar-se en les idees ètiques d'una font diferent: els principis ètics desenvolupats per guiar els experiments amb animals. En particular, en els seus Principis llibre de referència de tècnica experimental Protectora d'Animals, Russell and Burch (1959) proposen tres principis que han de guiar la investigació amb animals: Reemplaçament, refinar i Reduir. M'agradaria proposar que aquests tres R també es pot utilitzar en una forma lleugerament modificada, per guiar el disseny d'experiments humans. En particular,

Substituir: reemplaçar els experiments amb mètodes menys invasius, si és possible
Afinar: perfeccionar el tractament que sigui el més innocu possible
Reduir: Reduir el nombre de participants en l'experiment tant com sigui possible

Per tal de concretar aquests tres R i mostren la forma en que potencialment poden conduir a una millor i més humà disseny experimental, descriuré un experiment de camp en línia que genera debat ètic. A continuació vaig a descriure com les tres R suggerir canvis concrets i pràctics per al disseny de l'experiment.

Un dels experiments de camp digital més debatuts és èticament "contagi emocional", que va ser realitzat per Adam Kramer, Jamie Gillroy, i Jeffrey Hancock (2014) . L'experiment es va dur a terme a Facebook i va ser motivada per una barreja de qüestions científiques i pràctiques. En aquest moment, la forma dominant que els usuaris interactuen amb Facebook era la font de notícies, un conjunt d'algoritmes comissariat d'actualitzacions d'estat de Facebook dels amics de Facebook d'un usuari. Alguns crítics de Facebook havien suggerit que pel fet que el News Feed té llocs d'amics mostrant el seu últim partit majoritàriament positives que podria fer que els usuaris se senten tristos perquè les seves vides semblen menys emocionant en comparació. D'altra banda, potser l'efecte és exactament el contrari; potser veure al seu amic que té un bon temps et faria sentir feliç? Per tal d'abordar aquestes hipòtesis en competència i per avançar en la nostra comprensió de com les emocions d'una persona es veuen afectats per les emocions dels seus amics-Kramer i col·legues van realitzar un experiment. Els investigadors van col·locar al voltant de 700.000 usuaris en quatre grups per una setmana: un grup "negativitat reduïda", per als quals els missatges amb paraules negatives (per exemple, trist) van ser bloquejats a l'atzar apareguin servidor de notícies; un grup "positivitat reduïda" per als que missatges amb paraules positives (per exemple, feliç) van ser bloquejats a l'atzar; i dos grups de control. En el grup de control per al grup "negativitat reduït", publicacions van ser bloquejades a l'atzar a la mateixa velocitat com el grup "negativitat reduït", però sense tenir en compte el contingut emocional. El grup de control per al grup "positivitat reduïda" es va construir d'una manera paral·lela. El disseny d'aquest experiment il·lustra que el grup de control apropiat no és sempre un sense canvis. Més aviat, de vegades, el grup de control rep un tractament per tal de crear la comparació necessita que una pregunta d'investigació requereix. En tots els casos, els missatges que van ser bloquejades des del News Feed encara estaven disponibles per als usuaris a través d'altres parts del lloc web de Facebook.

Kramer i els seus col·legues van trobar que els participants en la positivitat redueixen condició, el percentatge de paraules positives en les seves actualitzacions d'estat va disminuir i el percentatge de paraules negatives augmentar. D'altra banda, per als participants en la condició negativitat reduïda, el percentatge de paraules positius va augmentar i el percentatge de paraules negatives disminuir (Figura 4.23). No obstant això, aquests efectes eren bastant petites: la diferència de paraules positives i negatives entre els tractaments i controls va ser d'aproximadament 1 de cada 1.000 paraules.

Figura 4.23: L'evidència de contagi emocional (Kramer, Guillory, i Hancock 2014). Percentatge de paraules positives i paraules negatives per condició experimental. Les barres representen errors estàndard estimats.

Figura 4.23: L'evidència de contagi emocional (Kramer, Guillory, and Hancock 2014) . Percentatge de paraules positives i paraules negatives per condició experimental. Les barres representen errors estàndard estimats.

He posat una discussió dels aspectes científics d'aquest experiment a la secció de lectura encara més al final del capítol, però, per desgràcia, aquest experiment és més conegut per generar un debat ètic. Tot just uns dies després d'aquest article va ser publicat en Proceedings de l'Acadèmia Nacional de Ciències, hi va haver una enorme protesta dels investigadors i la premsa. Indignació a tot el document es va centrar en dos punts principals: 1) els participants no proporcionen cap consentiment més enllà dels termes de servei de Facebook estàndard per a un tractament que algun pensament podria causar dany als participants i 2) l'estudi no s'havia sotmès a tercers ètica opinió (Grimmelmann 2015) . Les qüestions ètiques plantejades en aquest debat van causar la revista per publicar ràpidament una "expressió de redacció de preocupació" rara sobre l'ètica i el procés de revisió ètica de la investigació (Verma 2014) . En els anys següents, l'experiment no ha deixat de ser una font d'intens debat i desacord, i aquest desacord pot haver tingut l'efecte no desitjat de la conducció en les ombres molts altres experiments que s'estan realitzant per les empreses (Meyer 2014) .

Tenint en compte aquests antecedents sobre el contagi emocional, ara m'agradaria demostrar que el 3 de R pot suggerir millores concretes i pràctiques per als estudis reals (el que podria pensar personalment sobre l'ètica d'aquest experiment en particular). La primera R és reemplaçar: els investigadors han de tractar de substituir els experiments amb tècniques menys invasives i perilloses, si és possible. Per exemple, en lloc de realitzar un experiment, els investigadors podrien haver explotat un experiment natural. Com es descriu en el capítol 2, els experiments naturals són situacions en les que alguna cosa passa al món que s'aproxima a l'assignació aleatòria dels tractaments (per exemple, un sorteig per decidir qui va a ser reclutat per l'exèrcit). L'avantatge d'un experiment natural és que l'investigador no ha d'oferir tractaments; el medi ambient ho fa per vostè. En altres paraules, amb un experiment natural, no haurien necessitat investigadors per manipular experimentalment les persones Notícies externes.

De fet, gairebé al mateix temps que l'experiment contagi emocional, Coviello et al. (2014) estava explotant el que podria anomenar-se un experiment natural emocional contagi. El seu enfocament, que utilitza una tècnica anomenada variables instrumentals, és una mica complicat si mai ho has vist abans. Per tant, per tal d'explicar per què era necessari, construirem a l'altura. La primera idea que alguns investigadors podrien haver d'estudiar el contagi emocional seria comparar els seus missatges en els dies en què el seu Servei de Notícies va ser molt positiva als seus llocs en els dies en què el seu Servei de Notícies va ser molt negativa. Aquest enfocament estaria bé si l'objectiu era només per predir el contingut emocional dels seus missatges, però aquest enfocament és problemàtic si l'objectiu és estudiar l'efecte causal del seu Servei de Notícies en els seus llocs. Per veure el problema amb aquest disseny, consideri Acció de Gràcies. Als EUA, els missatges positius Spike i missatges negatius cauen en picat en Acció de Gràcies. Per tant, en Acció de Gràcies, els investigadors van poder veure que el seu Servei de Notícies va ser molt positiva i que publiquen coses positives també. No obstant això, els seus missatges positius podrien haver estat causats per Acció de Gràcies no pel contingut del seu Servei de Notícies. En lloc d'això, per tal d'estimar l'efecte causal investigadors necessiten alguna cosa que canvia el contingut del seu Servei de Notícies sense canviar directament les seves emocions. Afortunadament, hi ha alguna cosa així passa tot el temps: el temps.

Coviello i els seus col·legues van trobar que un dia plujós a la ciutat d'una persona, de mitjana, disminuir la proporció de llocs que són positius en al voltant d'1 punt percentual i augmentar la proporció de llocs que són negatives al voltant d'1 punt percentual. Llavors, Coviello i els seus col·legues exploten aquest fet per estudiar el contagi emocional sense la necessitat de manipular experimentalment de qualsevol de Notícies. En essència el que van fer és una mesura de com els missatges es van veure afectats pel clima a les ciutats on viuen els seus amics. Per veure per què això té sentit, imagina que viuen a la ciutat de Nova York i té un amic que viu a Seattle. Ara imagina que un dia comença a ploure a Seattle. Aquesta pluja a Seattle no afectarà directament al seu estat d'ànim, sinó que farà que el seu Servei de Notícies a ser menys positiva i més negativa a causa dels missatges dels teus amics. Per tant, la pluja a Seattle manipula l'atzar seu Servei de Notícies. Passant aquesta intuïció en un procediment estadístic fiable és complicat (i l'enfocament exacte utilitzat per Coviello i els seus col·legues és un no-estàndard de bits) pel que he posat una discussió més detallada a la secció de lectura encara més. El més important a recordar sobre Coviello i l'enfocament de col·lega és que els va permetre estudiar el contagi emocional sense la necessitat de realitzar un experiment que podria perjudicar els participants, i es pot donar el cas que en molts altres paràmetres que es poden substituir els experiments amb una altra tècniques.

En segon lloc en les 3 Rs és Refinar: els investigadors han de tractar de perfeccionar els seus tractaments per tal de causar el dany més petit possible. Per exemple, en lloc de bloquejar contingut que era positiu o negatiu, els investigadors podrien haver impulsat contingut que era positiu o negatiu. Aquest disseny impulsar hauria canviat el contingut emocional dels participants Notícies Externes, però hauria abordat un dels crítics van expressar preocupació que: els experiments que podrien haver causat als participants a perdre informació important en el seu Servei de Notícies. Amb el disseny utilitzat per Kramer i col·legues, és tan probable que sigui bloquejada com un que no és un missatge que és important. No obstant això, amb un disseny d'impulsar, els missatges que serien desplaçats serien aquelles que són menys importants.

Finalment, la tercera R és Reduir: investigadors haurien de tractar de reduir el nombre de participants en el seu experiment, si és possible. En el passat, aquesta reducció va ocórrer de forma natural a causa de que el cost variable d'experiments anàlegs era alta, el que va encoratjar la investigació per optimitzar el seu disseny i anàlisi. No obstant això, quan hi ha zero les dades de costos variables, els investigadors no enfrontar-se a una restricció del cost de la mida del seu experiment, i això té el potencial de conduir a innecessàriament grans experiments.

Per exemple, Kramer i els seus col·legues podrien haver utilitzat informació de pretractament dels seus participants, com ara pretractament de comptabilització comportament per fer la seva anàlisi sigui més eficient. Més específicament, en lloc de comparar la proporció de paraules positives en les condicions de tractament i de control, Kramer i els seus col·legues podrien haver comparat el canvi en la proporció de paraules positives entre les condicions; un enfocament sovint es diu la diferència en les diferències i que està estretament relacionat amb el disseny mixt que he descrit anteriorment en el capítol (Figura 4.5). És a dir, per cada participant, els investigadors podrien haver creat una puntuació de canvi (comportament post-tractament - el comportament de pretractament) i es van comparar les puntuacions de canvi dels participants en les condicions de tractament i control. Aquest enfocament de diferències en diferències estadísticament és més eficient, el que significa que els investigadors puguin assolir la mateixa confiança estadística utilitzant mostres molt més petites. En altres paraules, per no tractar els participants com "widgets", els investigadors poden sovint obtenir estimacions més precises.

Sense tenir les dades en brut, és difícil saber exactament quant més eficient un enfocament de diferències en diferències hauria estat en aquest cas. Però, Deng et al. (2013) van reportar que en tres experiments en línia en el motor de cerca Bing que van ser capaços de reduir la variància de les estimacions del voltant d'un 50%, i s'han reportat resultats similars per a alguns experiments en línia en Netflix (Xie and Aurisset 2016) . Aquesta reducció de la variància del 50% significa que els investigadors contagi emocional podrien haver estat capaços de reduir la seva mostra a la meitat si s'haguessin utilitzat una mica diferents mètodes d'anàlisi. En altres paraules, amb un petit canvi en l'anàlisi, 350.000 persones podrien haver estat salvades participació en l'experiment.

En aquest punt, pot ser que es pregunti per què els investigadors han importa si 350.000 persones estaven en el contagi emocional innecessàriament. Hi ha dues característiques particulars de contagi emocional que fan que la preocupació per l'excessiu mida adequada, i aquestes característiques són compartides per molts experiments de camp digitals: 1) hi ha incertesa sobre si l'experiment va a fer mal a almenys alguns dels participants, i 2) la participació no va ser voluntària. En experiments amb aquestes dues característiques, sembla aconsellable mantenir els experiments d'allò més petit possible.

En conclusió, les tres erres reemplaçar, refinar i reduir l'efecte de proporcionar principis que poden ajudar els investigadors a consolidar l'ètica en els seus dissenys experimentals. Per descomptat, cada un d'aquests possibles canvis en el contagi emocional presenta avantatges i desavantatges. Per exemple, les dades dels experiments naturals no sempre és tan neta com proves d'experiments aleatoris i impulsar podrien haver estat més logísticament difícil d'implementar que el bloc. Per tant, el propòsit del que suggereix que aquests canvis no era d'endevinar les decisions d'altres investigadors. Més aviat, era per il·lustrar com les tres R es podria aplicar en una situació realista.