No importa quina sigui la vostra gran informació, probablement no tingueu la informació que voleu.
Les fonts de dades més grans són incompletes , en el sentit que no tenen la informació que voleu per a la vostra recerca. Aquesta és una característica comuna de les dades que es van crear per a fins diferents de la investigació. Molts científics socials ja han tingut l'experiència de tractar incompleta, com una enquesta existent que no va fer la pregunta que es necessitava. Malauradament, els problemes d'incompletenció solen ser més extrems en grans dades. En la meva experiència, les dades importants solen faltar tres tipus d'informació útil per a la investigació social: informació demogràfica sobre participants, comportament en altres plataformes i dades per operar construccions teòriques.
Dels tres tipus d'incompletença, el problema de les dades incompletes per a l'operativitat de les construccions teòriques és el més difícil de resoldre. I en la meva experiència, sovint es passa per alt accidentalment. Aproximadament, les construccions teòriques són idees abstractes que els científics socials estudien i operacionalitzen una construcció teòrica que implica una manera de capturar aquesta construcció amb dades observables. Malauradament, aquest procés de so simple sovint resulta bastant difícil. Per exemple, imaginem que intentem provar empíricament la pretensió aparentment senzilla que les persones més intel·ligents guanyen més diners. Per provar aquesta reclamació, hauríeu de mesurar la "intel·ligència". Però, què és la intel·ligència? Gardner (2011) argumentar que actualment hi ha vuit formes diferents d'intel·ligència. I hi ha procediments que podrien mesurar amb precisió alguna d'aquestes formes d'intel·ligència? Malgrat les enormes quantitats de treball dels psicòlegs, aquestes preguntes encara no tenen respostes inequívoques.
Per tant, fins i tot una afirmació relativament simple: les persones que són més intel·ligents guanyen més diners, poden ser difícils d'avaluar empíricament, ja que pot ser difícil d'operar les construccions teòriques en les dades. Altres exemples de construccions teòriques que són importants però difícils d'operar inclouen "normes", "capital social" i "democràcia". Els científics socials anomenen el partit entre construccions teòriques i validesa de construcció de dades (Cronbach and Meehl 1955) . Tal com suggereix aquesta breu llista de construccions, construir la validesa és un problema que els científics socials han lluitat durant molt de temps. Però, en la meva experiència, els problemes de validesa de la construcció són encara més grans quan es treballa amb dades que no es van crear a efectes de la recerca (Lazer 2015) .
Quan s'està avaluant un resultat de la recerca, una manera ràpida i útil d'avaluar la validesa de la construcció és portar el resultat, que normalment s'expressa en termes de construccions i reexpresar-lo en termes de dades utilitzades. Per exemple, consideri dos estudis hipotètics que demostren que les persones més intel·ligents guanyen més diners. En el primer estudi, l'investigador va trobar que les persones que marquen bé la prova de Matrius Progressives de Raven (una prova ben estudiada d'intel·ligència analítica (Carpenter, Just, and Shell 1990) presenten ingressos més alts en les seves declaracions d'impostos. En el segon estudi, l'investigador va trobar que les persones que van utilitzar paraules més llargues a Twitter tenien més probabilitats d'esmentar marques de luxe. En ambdós casos, aquests investigadors podrien afirmar que han demostrat que les persones més intel·ligents guanyen més diners. No obstant això, en el primer estudi, les construccions teòriques estan ben operatives per les dades, mentre que en el segon no ho són. A més, tal com mostra aquest exemple, més dades no resolen automàticament els problemes amb la validesa de la construcció. Heu de dubtar dels resultats del segon estudi si es tractava d'un milió de tweets, un milió de tweets o un bilió de tweets. Perquè els investigadors no estiguin familiaritzats amb la idea de validesa de construcció, la taula 2.2 proporciona alguns exemples d'estudis que han operat construccions teòriques amb dades de traça digital.
Font de dades | Construcció teòrica | Referències |
---|---|---|
Correu electrònic registres d'una universitat (només meta-dades) | Relacions socials | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Publicacions de mitjans socials a Weibo | Participació cívica | Zhang (2016) |
Els registres de correu electrònic d'una empresa (metadades i text complet) | Entesa cultural en una organització | Srivastava et al. (2017) |
Encara que el problema de les dades incompletes per a la captura de construccions teòriques és bastant difícil de solucionar, hi ha solucions comunes als altres tipus d'incompletença comuns: informació demogràfica incompleta i informació incompleta sobre comportaments en altres plataformes. La primera solució és recollir les dades que necessiteu; Us ho explicaré al capítol 3, quan us explico sobre les enquestes. La segona solució principal és fer el que els científics de dades anomenen inferència d'atribut de l'usuari i els científics socials anomenen imputació . En aquest enfocament, els investigadors utilitzen la informació que tenen sobre algunes persones per inferir els atributs d'altres persones. Una tercera solució possible és combinar diverses fonts de dades. Aquest procés de vegades s'anomena enllaç de registre . La meva metàfora preferida per a aquest procés va ser escrita per Dunn (1946) en el primer paràgraf del primer document escrit en el registre:
"Cada persona del món crea un llibre de la vida. Aquest llibre comença amb el naixement i acaba amb la mort. Les seves pàgines estan formades per registres dels esdeveniments principals de la vida. L'enllaç de registre és el nom que es dóna al procés d'assemblatge de les pàgines d'aquest llibre a un volum. "
Quan Dunn va escriure aquest passatge, imaginava que el llibre de la vida podria incloure esdeveniments vitals com el naixement, el matrimoni, el divorci i la mort. Tanmateix, ara que es registra tanta informació sobre persones, el llibre de la vida podria ser un retrat increïblement detallat, si aquestes pàgines diferents (és a dir, les nostres restes digitals) es poden unir. Aquest llibre de la vida podria ser un gran recurs per als investigadors. Però també podria anomenar-se una base de dades de ruïna (Ohm 2010) , que podria utilitzar-se per a tot tipus d'objectius no ètics, com vaig a descriure al capítol 6 (Ètica).