Faça a sua experiência mais humana, substituindo experimentos com estudos não experimentais, refinando os tratamentos e reduzir o número de participantes.
O segundo conselho que gostaria de oferecer sobre o design de experimentos digitais diz respeito à ética. Como mostra o experimento Restivo e van de Rijt sobre os celeiros na Wikipédia, a diminuição do custo significa que a ética se tornará uma parte cada vez mais importante do design da pesquisa. Além dos quadros éticos que orientam a pesquisa sobre os seres humanos que descreverei no capítulo 6, os pesquisadores que projetam experimentos digitais também podem se basear em idéias éticas de uma fonte diferente: os princípios éticos desenvolvidos para orientar experimentos envolvendo animais. Em particular, em seu livro de referência Principles of Humane Experimental Technique , Russell and Burch (1959) propuseram três princípios que deveriam orientar a pesquisa animal: substituir, refinar e reduzir. Eu gostaria de propor que esses três Rs também possam ser usados - em uma forma ligeiramente modificada - para guiar o projeto de experimentos humanos. Em particular,
Para tornar esses três Rs concretos e mostrar como eles podem potencialmente levar a um design experimental melhor e mais humano, descreverei um experimento de campo on-line que gerou um debate ético. Então, descreverei como os três Rs sugerem mudanças concretas e práticas no design do experimento.
Um dos experimentos de campo digital mais debatidos eticamente foi conduzido por Adam Kramer, Jamie Guillroy e Jeffrey Hancock (2014) e passou a ser chamado de “Contágio Emocional”. O experimento ocorreu no Facebook e foi motivado por uma mistura de experiências científicas e científicas. questões práticas. Na época, a forma dominante como os usuários interagiam com o Facebook era o Feed de notícias, um conjunto de atualizações de status do Facebook com curadoria algorítmica dos amigos do Facebook de um usuário. Alguns críticos do Facebook sugeriram que, como o Feed de Notícias tem principalmente postagens positivas - amigos exibindo sua última festa -, isso poderia fazer com que os usuários se sentissem tristes porque suas vidas pareciam menos excitantes em comparação. Por outro lado, talvez o efeito seja exatamente o oposto: talvez ver seu amigo se divertindo faça você se sentir feliz. A fim de abordar essas hipóteses concorrentes - e para avançar nossa compreensão de como as emoções de uma pessoa são impactadas pelas emoções de seus amigos -, Kramer e seus colegas realizaram uma experiência. Eles colocaram cerca de 700.000 usuários em quatro grupos por uma semana: um grupo “com redução de negatividade”, para quem mensagens com palavras negativas (por exemplo, “triste”) foram aleatoriamente bloqueadas de aparecer no Feed de notícias; um grupo de “positividade reduzida” para quem mensagens com palavras positivas (por exemplo, “feliz”) foram bloqueadas aleatoriamente; e dois grupos de controle. No grupo de controle para o grupo "negativity-reduced", os posts foram bloqueados aleatoriamente na mesma taxa que o grupo "negativity-reduced", mas sem considerar o conteúdo emocional. O grupo controle para o grupo “positividade-reduzida” foi construído de forma paralela. O design deste experimento ilustra que o grupo de controle apropriado nem sempre é um sem alterações. Em vez disso, às vezes, o grupo de controle recebe um tratamento para criar a comparação precisa que uma questão de pesquisa requer. Em todos os casos, as postagens que foram bloqueadas do Feed de Notícias ainda estavam disponíveis para os usuários por meio de outras partes do site do Facebook.
Kramer e seus colegas descobriram que, para os participantes na condição de redução de positividade, a porcentagem de palavras positivas em suas atualizações de status diminuiu e a porcentagem de palavras negativas aumentou. Por outro lado, para os participantes na condição de negatividade reduzida, a porcentagem de palavras positivas aumentou e a de palavras negativas diminuiu (figura 4.24). No entanto, esses efeitos foram muito pequenos: a diferença entre palavras positivas e negativas entre tratamentos e controles foi de cerca de 1 em 1.000 palavras.
Antes de discutir as questões éticas levantadas por este experimento, gostaria de descrever três questões científicas usando algumas das idéias do início do capítulo. Primeiro, não está claro como os detalhes reais do experimento se conectam às afirmações teóricas; em outras palavras, há questões sobre validade de construto. Não está claro se as contagens de palavras positivas e negativas são realmente um bom indicador do estado emocional dos participantes porque (1) não está claro que as palavras que as pessoas postam são um bom indicador de suas emoções e (2) não é É claro que a técnica específica de análise de sentimentos que os pesquisadores usaram é capaz de inferir emoções de maneira confiável (Beasley and Mason 2015; Panger 2016) . Em outras palavras, pode haver uma medida ruim de um sinal tendencioso. Em segundo lugar, o projeto e a análise do experimento não nos dizem nada sobre quem foi mais afetado (ou seja, não há análise da heterogeneidade dos efeitos do tratamento) e qual seria o mecanismo. Neste caso, os pesquisadores tinham muita informação sobre os participantes, mas eles foram essencialmente tratados como widgets na análise. Terceiro, o tamanho do efeito neste experimento foi muito pequeno; a diferença entre as condições de tratamento e controle é de cerca de 1 em 1.000 palavras. Em seu artigo, Kramer e seus colegas argumentam que um efeito desse tamanho é importante porque centenas de milhões de pessoas acessam seu feed de notícias todos os dias. Em outras palavras, eles argumentam que, mesmo que os efeitos sejam pequenos para cada pessoa, eles são grandes em agregado. Mesmo se você aceitasse esse argumento, ainda não está claro se um efeito desse tamanho é importante em relação à questão científica mais geral sobre a propagação da emoção (Prentice and Miller 1992) .
Além dessas questões científicas, poucos dias depois de este artigo ter sido publicado na revista Proceedings, da Academia Nacional de Ciências , houve um enorme clamor dos pesquisadores e da imprensa (vou descrever os argumentos neste debate em mais detalhes no capítulo 6). ). As questões levantadas nesse debate levaram a revista a publicar uma rara “expressão editorial de preocupação” sobre a ética e o processo de revisão ética da pesquisa (Verma 2014) .
Dado esse pano de fundo sobre o Contágio Emocional, gostaria agora de mostrar que os três Rs podem sugerir melhorias concretas e práticas para estudos reais (seja qual for a sua opinião sobre a ética desse experimento em particular). O primeiro R é substituído : os pesquisadores devem procurar substituir experimentos por técnicas menos invasivas e arriscadas, se possível. Por exemplo, em vez de executar um experimento controlado aleatório, os pesquisadores poderiam ter explorado um experimento natural . Como descrito no capítulo 2, experimentos naturais são situações em que algo acontece no mundo que se aproxima da atribuição aleatória de tratamentos (por exemplo, uma loteria para decidir quem será convocado para o serviço militar). A vantagem ética de um experimento natural é que o pesquisador não precisa fornecer tratamentos: o ambiente faz isso para você. Por exemplo, quase ao mesmo tempo que o experimento Emotional Contagion, Lorenzo Coviello et al. (2014) estavam explorando o que poderia ser chamado de experimento natural do Contágio Emocional. Coviello e colegas descobriram que as pessoas postam mais palavras negativas e menos palavras positivas nos dias em que chove. Portanto, usando variações aleatórias no clima, eles puderam estudar o efeito das mudanças no News Feed sem a necessidade de intervir. Era como se o tempo estivesse fazendo a experiência deles. Os detalhes de seu procedimento são um pouco complicados, mas o ponto mais importante para nossos propósitos aqui é que, usando um experimento natural, Coviello e seus colegas puderam aprender sobre a disseminação de emoções sem a necessidade de executar seu próprio experimento.
O segundo dos três R é refinado : os pesquisadores devem procurar refinar seus tratamentos para torná-los tão inofensivos quanto possível. Por exemplo, em vez de bloquear conteúdo positivo ou negativo, os pesquisadores poderiam ter impulsionado conteúdo positivo ou negativo. Esse design impulsionador teria mudado o conteúdo emocional dos feeds de notícias dos participantes, mas teria abordado uma das preocupações expressas pelos críticos: os experimentos poderiam ter levado os participantes a perder informações importantes em seu Feed de notícias. Com o design usado por Kramer e seus colegas, uma mensagem importante é tão provável de ser bloqueada quanto uma que não é. No entanto, com um design impulsionador, as mensagens que seriam deslocadas seriam aquelas que são menos importantes.
Finalmente, o terceiro R é reduzido : os pesquisadores devem procurar reduzir o número de participantes em seu experimento ao mínimo necessário para alcançar seu objetivo científico. Em experimentos analógicos, isso aconteceu naturalmente devido aos altos custos variáveis dos participantes. Mas em experimentos digitais, particularmente aqueles com custo variável zero, os pesquisadores não enfrentam uma restrição de custo no tamanho de seu experimento, e isso tem o potencial de levar a experimentos desnecessariamente grandes.
Por exemplo, Kramer e seus colegas poderiam ter usado informações pré-tratamento sobre seus participantes - como o comportamento de postagem antes do tratamento - para tornar sua análise mais eficiente. Mais especificamente, em vez de comparar a proporção de palavras positivas nas condições de tratamento e controle, Kramer e seus colegas poderiam ter comparado a mudança na proporção de palavras positivas entre as condições; uma abordagem que às vezes é chamada de design misto (figura 4.5) e às vezes chamada de estimador de diferença-em-diferenças. Ou seja, para cada participante, os pesquisadores poderiam ter criado uma pontuação de mudança (comportamento pós-tratamento \(-\) pré-tratamento) e, então, compararam as pontuações de mudança dos participantes nas condições de tratamento e controle. Essa abordagem de diferenças em diferenças é mais eficiente estatisticamente, o que significa que os pesquisadores podem obter a mesma confiança estatística usando amostras muito menores.
Sem ter os dados brutos, é difícil saber exatamente quanto mais eficiente teria sido o estimador diferença-em-diferenças neste caso. Mas podemos ver outras experiências relacionadas para uma ideia aproximada. Deng et al. (2013) relataram que, usando uma forma do estimador diferença-em-diferenças, eles foram capazes de reduzir a variância de suas estimativas em cerca de 50% em três experimentos on-line diferentes; Resultados semelhantes foram relatados por Xie and Aurisset (2016) . Esta redução de variância de 50% significa que os pesquisadores do Contágio Emocional poderiam ter sido capazes de cortar sua amostra pela metade se tivessem usado um método de análise ligeiramente diferente. Em outras palavras, com uma pequena mudança na análise, 350.000 pessoas poderiam ter sido poupadas da participação no experimento.
Neste ponto, você pode estar se perguntando por que os pesquisadores deveriam se importar se 350.000 pessoas estivessem no Contágio Emocional desnecessariamente. Há duas características particulares do Contágio Emocional que tornam a preocupação com tamanho excessivo apropriada, e esses recursos são compartilhados por muitos experimentos de campo digitais: (1) há incerteza sobre se o experimento causará danos a pelo menos alguns participantes e (2) participação não foi voluntário. Parece razoável tentar manter os experimentos com esses recursos tão pequenos quanto possível.
Para ser claro, o desejo de reduzir o tamanho do seu experimento não significa que você não deve executar grandes experimentos de custo variável zero. Significa apenas que seus experimentos não devem ser maiores do que o necessário para alcançar seu objetivo científico. Uma maneira importante de se certificar de que um experimento é adequadamente dimensionado é conduzir uma análise de poder (Cohen 1988) . Na era analógica, os pesquisadores geralmente faziam análise de potência para garantir que o estudo não fosse muito pequeno (ou seja, com pouca energia). Agora, no entanto, os pesquisadores devem fazer análises de energia para garantir que seu estudo não seja muito grande (ou seja, com excesso de energia).
Em conclusão, os três R's - substituir, refinar e reduzir - fornecem princípios que podem ajudar os pesquisadores a construir a ética em seus projetos experimentais. Naturalmente, cada uma dessas possíveis mudanças no Contágio Emocional introduz compensações. Por exemplo, as evidências de experimentos naturais nem sempre são tão limpas quanto as de experimentos aleatórios, e o aumento do conteúdo pode ter sido logisticamente mais difícil de implementar do que o bloqueio de conteúdo. Assim, o propósito de sugerir essas mudanças não foi adivinhar as decisões de outros pesquisadores. Em vez disso, foi para ilustrar como os três Rs poderiam ser aplicados em uma situação realista. Na verdade, a questão dos trade-offs surge o tempo todo no design da pesquisa e, na era digital, essas compensações envolverão cada vez mais considerações éticas. Posteriormente, no capítulo 6, apresentarei alguns princípios e estruturas éticas que podem ajudar os pesquisadores a entender e discutir esses trade-offs.