No importa què tan "grans" els seus "grans dades", probablement no té la informació que desitja.
La majoria de les grans fonts de dades són incompletes, en el sentit que no tenen la informació que vostè desitgi per a la seva investigació. Aquesta és una característica comuna de les dades que es van crear per a fins diferents de la investigació. Molts científics socials ja han tingut l'experiència de tractar amb el caràcter incomplet, com ara una enquesta existent que no es faci la pregunta que volia. Desafortunadament, els problemes d'incompletesa tendeixen a ser més extrema en grans volums de dades. En la meva experiència, els grans dades tendeix a perdre tres tipus d'informació útils per a la investigació social: la demografia, el comportament en altres plataformes, i les dades per posar en funcionament les construccions teòriques.
Els tres d'aquestes formes d'incompletitud s'il·lustren en un estudi realitzat per Gueorgi Kossinets i Duncan Watts (2006) sobre l'evolució de la xarxa social en una universitat. Kossinets i Watts van començar amb els registres de correu electrònic de la universitat, que tenien informació precisa sobre qui va enviar correus electrònics als quals en quin moment (els investigadors no tenen accés al contingut dels missatges de correu electrònic). Aquests registres de correu electrònic sonen com un conjunt de dades increïble, però, que són, malgrat la seva mida i granularitat-fonamentalment incompleta. Per exemple, els registres de correu electrònic no inclouen dades sobre les característiques demogràfiques dels estudiants, com el gènere i l'edat. A més, els registres de correu electrònic no inclouen informació sobre la comunicació a través d'altres mitjans, com ara trucades telefòniques, missatges de text o converses cara a cara. Finalment, els registres de correu electrònic no inclouen directament la informació sobre les relacions, les construccions teòriques en moltes teories existents. Més endavant en el capítol, quan parlo d'estratègies d'investigació, veurà com Kossinets i Watts resolen aquests problemes.
Dels tres tipus d'imperfecció, el problema de les dades incompletes per posar en funcionament les construccions teòriques és el més difícil de resoldre, i en la meva experiència, sovint es passa per alt accidentalment per científics de dades. A grans trets, les construccions teòriques són idees abstractes que estudien els científics socials, però, per desgràcia, aquestes construccions no sempre poden ser inequívocament definits i mesurats. Per exemple, imaginem que intenta provar empíricament l'afirmació aparentment simple que les persones que són més intel·ligents guanyen més diners. Per tal de provar aquesta afirmació que hauria de mesurar la "intel·ligència". Però, què és la intel·ligència? Per exemple, Gardner (2011) va argumentar que en realitat hi ha vuit formes diferents d'intel·ligència. I, hi ha procediments que podrien mesurar amb precisió qualsevol d'aquestes formes d'intel·ligència? Tot i enormes quantitats de treball per part dels psicòlegs, aquestes preguntes encara no tenen respostes clares. Per tant, fins i tot un nombre relativament simples de reclamació, persones que són més intel·ligents guanyen més diners, pot ser difícil d'avaluar empíricament, ja que pot ser difícil de posar en pràctica les construccions teòriques de dades. Altres exemples de construccions teòriques que són importants, però difícil de posar en pràctica incloure "normes", "capital social" i la "democràcia". Els científics socials anomenen el partit entre les construccions teòriques i la validesa de constructe de dades (Cronbach and Meehl 1955) . I, com aquesta llista de construccions suggereix, la validesa de constructe és un problema que els científics socials han lluitat durant molt de temps, fins i tot quan estaven treballant amb les dades recollides per a fins d'investigació. Quan es treballa amb dades recollides amb finalitats diferents de la investigació, els problemes de la validesa de constructe són encara més difícils (Lazer 2015) .
Quan vostè està llegint un article d'investigació, d'una manera ràpida i útil per avaluar les preocupacions sobre la validesa de constructe és prendre la reivindicació principal en el paper, que en general s'expressa en termes de construccions, i re-expressar en termes de les dades utilitzades. Per exemple, consideri dos estudis hipotètics que pretenen demostrar que les persones més intel·ligents guanyen més diners:
En tots dos casos, els investigadors podrien afirmar que ells han demostrat que les persones més intel·ligents guanyen més diners. Però, en el primer estudi els constructes teòrics són ben operacionalizaron per les dades, i en el segon no ho són. A més, com il·lustra aquest exemple, més dades no resol automàticament els problemes amb la validesa de constructe. Vostè ha de dubtar dels resultats de l'Estudi 2 si es tractava d'un milió de tweets, de mil milions de tweets, o un bilió de tweets. Per als investigadors no estan familiaritzats amb la idea de la validesa de constructe, la Taula 2.2 presenta alguns exemples d'estudis que han operacionalizados construccions teòriques utilitzant les dades de seguiment digitals.
rastre digital | constructe teòric | citació |
---|---|---|
els registres de correu electrònic d'una universitat (només meta-dades) | Les relacions socials | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
missatges de xarxes socials a Weibo | El compromís cívic | Zhang (2016) |
els registres de correu electrònic d'una empresa (meta-dades i de text complet) | adaptació a la cultura en una organització | Goldberg et al. (2015) |
Encara que el problema de les dades incompletes per fer operatives les construccions teòriques és bastant difícil de resoldre, hi ha tres solucions comunes al problema de la informació demogràfica incompleta i la informació incompleta sobre el comportament en altres plataformes. La primera és en realitat per recollir les dades que necessita; Et vaig a dir sobre un exemple d'això en el capítol 3 quan li digui sobre les enquestes. Malauradament, aquest tipus de recol·lecció de dades no és sempre possible. La segona solució principal és fer el que els científics anomenen la inferència de dades d'usuari en atributs i el que els científics socials anomenen imputació. En aquest enfocament, els investigadors utilitzen la informació que tenen en algunes persones per inferir atributs d'altres persones. La tercera solució possible, la utilitzada per Kossinets i Watts-era combinar múltiples fonts de dades. Aquest procés es diu de vegades la fusió o la vinculació de registres. El meu metàfora preferida per a aquest procés va ser proposat en el primer paràgraf del primer article mai escrit sobre vinculació de registres (Dunn 1946) :
"Cada persona al món crea un llibre de la vida. Aquest llibre comença amb el naixement i acaba amb la mort. A les seves pàgines es componen dels registres dels principals esdeveniments de la vida. vinculació de registres és el nom donat al procés de muntatge de les pàgines d'aquest llibre en un volum ".
Aquest passatge va ser escrit en 1946, i en aquell moment, la gent pensava que el llibre de la vida podria incloure els principals esdeveniments de la vida com el naixement, el matrimoni, el divorci i la mort. No obstant això, ara que tanta informació sobre les persones es registra, el llibre de la vida podria ser un retrat increïblement detallat, si aquests diferents pàgines (és a dir, les nostres empremtes digitals), es poden enllaçar junts. Aquest llibre de la vida podria ser un gran recurs per als investigadors. No obstant això, el Llibre de la Vida també podria anomenar-se una base de dades de la ruïna (Ohm 2010) , que podria ser utilitzat per a tot tipus de fins no ètics, com es descriu més avall, quan parlo de la naturalesa sensible de la informació recollida per les fonts de dades grans sota i en el capítol 6 (Ètica).