Os datos non representativos son malas para as xeralizacións fóra de mostra, pero poden ser bastante útiles para as comparacións dentro da mostra.
Algúns científicos sociais están afeitos a traballar con datos que provén dunha mostra aleatoria probabilística dunha poboación ben definida, como todos os adultos dun determinado país. Este tipo de datos chámanse datos representativos porque a mostra "representa" a poboación máis grande. Moitos investigadores premian datos representativos e, para algúns, os datos representativos son sinónimos de ciencia rigorosa mentres que os datos non representativos son sinónimos de descuido. No extremo máis extremo, algúns escépticos parecen crer que nada se pode aprender a partir de datos non representativos. Se é verdadeiro, isto parece limitar severamente o que se pode aprender a partir de grandes fontes de datos porque moitos deles non son representativos. Afortunadamente, estes escépticos só son parcialmente correctos. Existen certos obxectivos de investigación para os que os datos non representativos claramente non son axeitados, pero hai outros para os que realmente pode ser bastante útil.
Para entender esta distinción, consideremos un clásico científico: o estudo de John Snow do brote de cólera en 1853-54 en Londres. Na época, moitos médicos crían que o cólera foi causado polo "mal aire", pero Snow cría que era unha enfermidade infecciosa, quizais diseminada por auga potable. Para probar esta idea, Snow aproveitou o que agora podemos chamar un experimento natural. Compara as taxas de cólera dos fogares atendidos por dúas compañías de auga diferentes: Lambeth e Southwark & Vauxhall. Estas empresas serviron a familias similares, pero diferían dun xeito importante: en 1849 -unos anos antes de que comezase a epidemia- Lambeth moveu o seu punto de admisión de augas arriba da descarga principal de alcantarillado en Londres, mentres que Southwark e Vauxhall deixaron a súa tubería de admisión debaixo da descarga de sumidoiros. Cando Snow compara as taxas de mortalidade do cólera nas familias atendidas polas dúas compañías, descubriu que os clientes de Southwark & Vauxhall -a compañía que estaba a proporcionar aos clientes auga contaminada con augas residuais- tiñan 10 veces máis probabilidades de morrer polo cólera. Este resultado proporciona unha forte evidencia científica para o argumento de Snow sobre a causa do cólera, aínda que non se basea nunha mostra representativa de persoas en Londres.
Non obstante, os datos destas dúas empresas non serían ideais para responder a unha pregunta diferente: cal era a prevalencia do cólera en Londres durante o brote? Para esa segunda pregunta, que tamén é importante, sería moito mellor ter unha mostra representativa de persoas de Londres.
Como ilustra o traballo de Snow, hai algunhas preguntas científicas para as que os datos non representativos poden ser bastante efectivos e hai outros para os que non é adecuado. Unha forma cruta de distinguir estes dous tipos de preguntas é que algunhas preguntas son sobre as comparacións dentro da mostra e algunhas son sobre xeneralizacións fóra de mostra. Esta distinción pode ser ilustrada por outro estudo clásico en epidemioloxía: o Estudo de Médicos Británicos, que desempeñou un papel importante na demostración de que fumar causa cancro. Neste estudo, Richard Doll e A. Bradford Hill seguiron aproximadamente a 25.000 doutros do sexo masculino por varios anos e compararon as súas taxas de mortalidade en función da cantidade que fumaban cando comezou o estudo. Doll and Hill (1954) atoparon unha forte relación exposición-resposta: canto máis xente fumaba, máis probabilidades eran de morrer por cancro de pulmón. Por suposto, sería imprudente estimar a prevalencia do cancro de pulmón entre todos os británicos segundo este grupo de médicos do sexo masculino, pero a comparación dentro da mostra aínda proporciona probas de que fumar causa cancro de pulmón.
Agora que ilustre a diferenza entre as comparacións dentro da mostra e as xeralizacións fóra de mostra, hai dúas advertencias en orde. En primeiro lugar, naturalmente, hai dúbidas sobre a extensión na que unha relación que ten dentro dunha mostra de médicos británicos masculinos tamén albergará unha mostra de mulleres, médicos británicos ou traballadores británicos masculinos ou fábricas de fábrica alemá ou moitos outros grupos. Estas preguntas son interesantes e importantes, pero son diferentes ás preguntas sobre a medida que podemos xeneralizar dunha mostra a unha poboación. Observe, por exemplo, que probablemente sospeite que a relación entre fumar e cancro que se atopou en médicos británicos masculinos probablemente será similar nestes outros grupos. A súa capacidade de facer esta extrapolación non provén do feito de que os médicos británicos masculinos son unha mostra aleatoria probabilística de calquera poboación; máis ben, provén dunha comprensión do mecanismo que une o tabaquismo eo cancro. Así, a xeneralización dunha mostra á poboación a partir da que se debuxa é un problema fundamentalmente estatístico, pero as cuestións sobre a transportabilidade do patrón atopado nun grupo a outro grupo son en gran medida un problema non estatístico (Pearl and Bareinboim 2014; Pearl 2015) .
Neste punto, un escéptico pode indicar que a maioría dos patróns sociais son probablemente menos transportables entre os grupos que a relación entre o tabaquismo eo cancro. E estou de acordo. A medida en que debemos esperar que os patróns sexan transportables é en definitiva unha cuestión científica que debe decidirse baseada na teoría e a evidencia. Non se debe asumir automáticamente que os patróns sexan transportables, pero tampouco se debe supor que non serán transportables. Estas cuestións un tanto abstractas sobre a transportabilidade serán familiares para vostede se seguiu os debates sobre o que os investigadores poden aprender sobre o comportamento humano estudando estudantes de preescolar (Sears 1986, [@henrich_most_2010] ) . A pesar destes debates, non sería razoable dicir que os investigadores non poden aprender nada do estudo de estudantes universitarios.
A segunda advertencia é que a maioría dos investigadores con datos non representativos non son tan coidadosos como Snow ou Doll e Hill. Entón, para ilustrar o que pode dar mal cando os investigadores intentan facer unha xeneralización fóra de mostra de datos non representativos, gustaríame falarvos dun estudo sobre as eleccións parlamentarias alemanas de Andranik Tumasjan e colegas (2010) . Ao analizar máis de 100.000 tweets, atoparon que a proporción de tweets que mencionaba un partido político correspondía á proporción de votos que o partido recibiu nas eleccións parlamentarias (figura 2.3). Dito doutro xeito, parece que os datos de Twitter, que eran esencialmente gratuitos, poderían substituír as enquisas tradicionais de opinión pública, que son caras debido á súa insistencia en datos representativos.
Tendo en conta o que probablemente xa sabe sobre Twitter, debe ser inmediatamente escéptico deste resultado. Os alemáns en Twitter en 2009 non eran unha mostra aleatoria probabilística de votantes alemáns, e os seguidores dalgúns partidos poderían tweet sobre a política moito máis veces que os partidarios doutros partidos. Deste xeito, parece sorprendente que todos os posibles prexuízos que puideses imaxinar de algunha maneira cancelaríanse de forma tal que estes datos reflectirían directamente os votantes alemáns. De feito, os resultados en Tumasjan et al. (2010) resultou ser moi bo para ser verdade. Un xornal de seguimento de Andreas Jungherr, Pascal Jürgens e Harald Schoen (2012) sinalou que a análise orixinal excluíu o partido político que recibira a maioría das mencións en Twitter: o Partido Pirata, un pequeno partido que loita contra a regulación do goberno de internet. Cando o Partido Pirata foi incluído na análise, as mencións de Twitter convértense nun terrible preditor dos resultados das eleccións (figura 2.3). Como ilustra este exemplo, o uso de grandes fontes de datos non representativos para facer xeneralizacións fóra de mostra pode ir moi mal. Ademais, debes notar que o feito de que houbese 100.000 tweets foi basicamente irrelevante: moitos datos non representativos aínda non son representativos, un tema que voltaré no capítulo 3 cando falo das enquisas.
Para concluír, moitas grandes fontes de datos non son mostras representativas dunha poboación ben definida. Para preguntas que requiren xerar resultados da mostra para a poboación da que foi deseñado, este é un problema serio. Pero para preguntas sobre comparacións dentro da mostra, os datos non representativos poden ser poderosos, sempre que os investigadores estean claros sobre as características da súa mostra e apoian as reivindicacións sobre a transportabilidade con probas teóricas ou empíricas. De feito, a miña esperanza é que as grandes fontes de datos permitan aos investigadores facer máis comparacións dentro de mostra en moitos grupos non representativos, e a miña suposición é que as estimacións de moitos grupos diferentes farán máis para avanzar na investigación social que unha única estimación desde un aleatorio probabilístico mostra.