Faga a súa experiencia máis humana, substituíndo experimentos con estudos non experimentais, refinando os tratamentos e reducir o número de participantes.
O segundo consello que me gustaría ofrecer sobre o deseño de experimentos dixitais refírese á ética. Como o experimento Restivo e van de Rijt mostra en Wikipedia, a diminución do custo significa que a ética se converterá nunha parte cada vez máis importante do deseño da investigación. Ademais dos marcos éticos que guían a investigación de temas humanos que describirei no capítulo 6, os investigadores que deseñan os experimentos dixitais tamén poden recorrer a ideas éticas desde unha fonte diferente: os principios éticos desenvolvidos para guiar experiencias con animais. En particular, no seu libro de referencia Principles of Humane Experimental Technique , Russell and Burch (1959) propuxeron tres principios que deberían guiar a investigación animal: substituír, refinar e reducir. Gustaríame propoñer que estes tres R's tamén se poidan usar -en forma lixeiramente modificada- para guiar o deseño de experimentos humanos. En particular,
Para concretar estes tres R e mostrar como poden levar a un deseño experimental mellor e máis humano, describirei un experimento de campo en liña que xerou un debate ético. Entón, describirei como os tres R's suxiren cambios concretos e prácticos para o deseño do experimento.
Un dos experimentos de campo dixital máis discutidos éticamente foi realizado por Adam Kramer, Jamie Guillroy e Jeffrey Hancock (2014) e chegou a chamarse "Contagio emocional". O experimento tivo lugar en Facebook e foi motivado por unha combinación de experiencias científicas e preguntas prácticas. Naquela época, a forma dominante que os usuarios interaccionaban con Facebook era News Feed, un conxunto de estatísticas sobre o estado de Facebook que se encargaba algoritmicamente dos amigos de Facebook dun usuario. Algúns críticos de Facebook suxeriron que, debido a que a News Feed ten unha boa parte de publicacións positivas, os amigos mostran o seu último partido, pode causar que os usuarios se sintan tristes porque as súas vidas parecían menos interesantes en comparación. Por outra banda, quizais o efecto sexa exactamente o contrario: quizais vendo ao teu amigo pasar un bo tempo faríalle sentir feliz. Para abordar estas hipóteses competentes e para avanzar no noso entendemento de como as emocións dunha persoa están afectadas polas emocións dos seus amigos, Kramer e os seus colegas realizaron un experimento. Eles colocaron preto de 700.000 usuarios en catro grupos por unha semana: un grupo de "redución negativa", para quen publicacións con palabras negativas (por exemplo, "triste") foron bloqueadas de forma aleatoria de aparecer no Feed de noticias; un grupo "reducido positivamente" para quen publicacións con palabras positivas (por exemplo, "felices") foron bloqueadas aleatoriamente; e dous grupos de control. No grupo de control do grupo "negatividade reducida", as mensaxes foron bloqueadas aleatoriamente ao mesmo ritmo que o grupo "negatividade reducida" pero sen ter en conta o contido emocional. O grupo de control do grupo "reducido positivamente" foi construído de forma paralela. O deseño deste experimento ilustra que o grupo de control apropiado non sempre é un sen modificacións. Polo contrario, ás veces, o grupo de control recibe un tratamento para crear a comparación precisa que require unha pregunta de investigación. En todos os casos, as mensaxes que foron bloqueadas desde a Actualidade aínda estaban dispoñibles para os usuarios a través doutras partes do sitio web de Facebook.
Kramer e os seus compañeiros descubriron que para os participantes na condición reducida positiva, a porcentaxe de palabras positivas nas súas actualizacións de estado diminuíu e aumentou a porcentaxe de palabras negativas. Doutra banda, para os participantes na condición reducida pola negativa, a porcentaxe de palabras positivas aumentou e a de palabras negativas diminuíu (figura 4.24). Con todo, estes efectos eran bastante pequenos: a diferenza de palabras positivas e negativas entre os tratamentos e os controis era de aproximadamente 1 de cada 1.000 palabras.
Antes de discutir as cuestións éticas que suscita este experimento, me gustaría describir tres temas científicos usando algunhas das ideas anteriores do capítulo. En primeiro lugar, non está claro como se conectan os datos reais da experiencia coas afirmacións teóricas; noutras palabras, hai dúbidas sobre a validez da compilación. Non está claro que a conta de palabras positiva e negativa é realmente un bo indicador do estado emocional dos participantes porque (1) non está claro que as palabras que publican son un bo indicador das súas emocións e (2) non é claro que a técnica de análise de sentimento particular que utilizan os investigadores é capaz de deducir emocións de forma fiable (Beasley and Mason 2015; Panger 2016) . Noutras palabras, pode haber unha mala medida dun sinal prexudicado. En segundo lugar, o deseño e análise do experimento non nos di nada sobre quen foi o máis afectado (é dicir, non hai análise da heteroxeneidade dos efectos do tratamento) e cal podería ser o mecanismo. Neste caso, os investigadores tiveron moita información sobre os participantes, pero foron tratados esencialmente como widgets na análise. En terceiro lugar, o tamaño do efecto neste experimento era moi pequeno; a diferenza entre o tratamento e as condicións de control é de aproximadamente 1 de cada 1.000 palabras. No seu artigo, Kramer e os seus colegas afirman que un efecto deste tamaño é importante porque centos de millóns de persoas acceden ao seu feed de noticias cada día. Noutras palabras, argumentan que aínda que os efectos sexan pequenos para cada persoa, son grandes en total. Aínda que acepte este argumento, aínda non está claro se un efecto deste tamaño é importante en relación coa cuestión científica máis xeral sobre a propagación da emoción (Prentice and Miller 1992) .
Ademais destas cuestións científicas, poucos días despois de que se publicase este artigo en Proceedings of the National Academy of Sciences , houbo un gran clamor tanto de investigadores como de prensa (describirei os argumentos deste debate con máis detalle no capítulo 6 ). As cuestións suscitadas neste debate fixeron que a revista publicase unha rara "expresión editorial de preocupación" sobre o proceso de ética e de revisión ética para a investigación (Verma 2014) .
Dado ese antecedente sobre contagio emocional, gustaríame agora demostrar que as tres R's poden suxerir melloras concretas e prácticas para estudos reais (o que poida pensar persoalmente sobre a ética deste experimento en particular). A primeira R substitúese : os investigadores deberían buscar substituír experimentos con técnicas menos invasivas e arriscadas, se é posible. Por exemplo, en lugar de executar un experimento controlado aleatorizado, os investigadores poderían ter explotado un experimento natural . Como se describe no capítulo 2, os experimentos naturais son situacións en que ocorre algo no mundo que se aproxima á asignación aleatoria de tratamentos (por exemplo, unha lotería para decidir quen será redactado no exército). A vantaxe ética dun experimento natural é que o investigador non ten que cumprir tratos: o medio fai iso por ti. Por exemplo, case simultaneamente co experimento Emocional Contagion, Lorenzo Coviello et al. (2014) explotaron o que podería chamarse un experimento natural de Contagio Emocional. Coviello e os seus colegas descubriron que as persoas publican palabras máis negativas e menos palabras positivas nos días en que está chovendo. Polo tanto, ao usar variacións aleatorias no tempo, foron capaces de estudar o efecto dos cambios no Feed News sen a necesidade de intervir. Foi coma se o tempo estivese executando o seu experimento por eles. Os detalles do seu procedemento son un pouco complicados, pero o punto máis importante para os nosos propósitos aquí é que, usando un experimento natural, Coviello e os seus colegas puideron coñecer a difusión das emocións sen necesidade de realizar o seu propio experimento.
A segunda das tres Rs refírese : os investigadores deberían buscar refinar os seus tratamentos para facelos tan inofensivos como sexa posible. Por exemplo, en vez de bloquear contido que era positivo ou negativo, os investigadores poderían haber aumentado o contido positivo ou negativo. Este impulso ao deseño cambiaría o contido emocional dos Feeds de noticias dos participantes, pero abordaría unha das preocupacións que expresaron os críticos: que os experimentos poderían ter provocado que os participantes perdan información importante na súa News Feed. Co deseño empregado por Kramer e os seus colegas, unha mensaxe que é importante é máis probable que se bloquee como un que non. Non obstante, cun deseño potenciador, as mensaxes que serían desprazadas serían as que son menos importantes.
Finalmente, a terceira R é reducida : os investigadores deberían buscar reducir o número de participantes no seu experimento ao mínimo necesario para acadar o seu obxectivo científico. Nos experimentos analóxicos, isto ocorreu naturalmente por mor dos altos custos variables dos participantes. Pero en experimentos dixitais, especialmente aqueles con custo variable nulo, os investigadores non enfrontan unha restrición de custos sobre o tamaño do seu experimento, e isto ten potencial para levar a experimentos innecesariamente grandes.
Por exemplo, Kramer e os seus colegas poderían ter usado a información previa ao tratamento sobre os seus participantes -como o comportamento de publicación previa ao tratamento- para facer a súa análise máis eficiente. Máis específicamente, en lugar de comparar a proporción de palabras positivas nas condicións de tratamento e control, Kramer e os seus compañeiros poderían comparar o cambio na proporción de palabras positivas entre as condicións; un enfoque que ás veces se denomina deseño mixto (figura 4.5) e ás veces denomínase un estimador de diferenzas en diferenzas. É dicir, para cada participante, os investigadores poderían crear unha puntuación de cambio (comportamento de post-tratamento \(-\) pre-tratamento) e comparou os resultados de cambios dos participantes nas condicións de tratamento e control. Esta aproximación de diferenzas en diferenzas é máis eficiente de forma estatística, o que significa que os investigadores poden alcanzar a mesma confianza estatística usando mostras moi menores.
Sen ter os datos en bruto, é difícil saber exactamente o que sería un estimador de diferenzas en diferenzas máis eficiente neste caso. Pero podemos ver outros experimentos relacionados para unha idea aproximada. Deng et al. (2013) informaron que, ao usar unha forma do estimador de diferenzas en diferenzas, puideron reducir a varianza das súas estimacións nun 50% en tres experimentos en liña diferentes; Xie and Aurisset (2016) informaron de resultados similares Xie and Aurisset (2016) . Esta redución de varianza do 50% significa que os investigadores de Contagion Emocional poderían ter sido capaces de cortar a súa mostra á metade se usaran un método de análise lixeiramente diferente. Noutras palabras, cun pequeno cambio na análise, 350.000 persoas poderían evitar a participación no experimento.
Neste punto, pode estar se pregunta por que os investigadores deberían importar se 350.000 persoas estivesen en contaxio emocional innecesariamente. Hai dúas características particulares do contagio emocional que fan que o tamaño excesivo sexa apropiado e que estas son compartidas por moitos experimentos de campo dixital: (1) hai incertezas sobre se o experimento causará danos a polo menos algúns participantes e (2) a participación Non era voluntario. Parece razoable tentar manter os experimentos que teñan estas características o máis pequenas posible.
Para ser claro, o desexo de reducir o tamaño do teu experimento non significa que non debes executar experimentos de custo variables grandes e cero. Simplemente significa que os teus experimentos non deben ser maiores do que necesitas para acadar o teu obxectivo científico. Unha forma importante de asegurarse de que un experimento sexa de tamaño apropiado é realizar unha análise de potencia (Cohen 1988) . Na era analóxica, os investigadores generalmente fixeron a análise de potencia para asegurarse de que o seu estudo non era demasiado pequeno (é dicir, que non funcionaba). Agora ben, con todo, os investigadores deberían facer análise de potencia para asegurarse de que o seu estudo non sexa demasiado grande (é dicir, con sobrepeso).
En conclusión, os tres R's-substituír, refinar e reducir-proporcionan principios que poden axudar aos investigadores a construír a ética nos seus deseños experimentais. Por suposto, cada un destes cambios posibles a Contagion Emocional presenta compensacións. Por exemplo, a evidencia de experimentos naturais non sempre é tan limpa como a partir de experimentos aleatorizados, e aumentar o contido podería ser logísticamente máis difícil de implementar que o bloqueo de contido. Así, o propósito de suxerir estes cambios non foi para adiviñar as decisións doutros investigadores. Máis ben, era ilustrar como se poderían aplicar as tres R nunha situación realista. De feito, a cuestión das compensacións xorde todo o tempo no deseño da investigación e na era dixital, estas compensacións implicarán cada vez máis consideracións éticas. Máis tarde, no capítulo 6, ofreceré algúns principios e marcos éticos que poden axudar aos investigadores a comprender e discutir estas compensacións.