Ùn importa micca quantu big big data, ùn hà micca pussutu l'infurmazioni chi vulete.
A maiò parte di e grandi fonti di dati ùn sò micca cumpetenzii , in u sensu chì ùn anu micca l'infurmazioni chì voi vulete a vostra ricerca. Questa hè una funzione cumuni di dati chì anu creati per scopi other than research. Molti crescianti suciali anu avutu a sperienza di trattà l'incompletezza, cum'è una stategia esistenti chì ùn hà micca dumandatu a dumanda chì era necessariu. Sfortunatamente, i prublemi di incompletezza tendenu à esse più estrema in grande dati. In a mo spirimintà, grande datu tene à esse mancati trè tippi d'infurmazioni utili per a ricerca suciale: informazioni demografiche nantu à i participanti, cumpurtamentu per altri platformi, è dati per operatizziunate constructi teorichi.
Di i trè tipi d'incompletezza, u prublema di e dati incompletos per operatizare i constructi teorichi hè u più duru à risolve. E in my experience, hè spessu accidinutu. In più, i constructi teorichi sò idee astratti chì i scientifichi di u sensu studienti è operatizanu un constructu teorizianu significanu chì prupone una manera di capisce din constructe cù e dati osservati. Sfortunatamente, stu prucessu simplicanti sò spessu spessu per esse difficili difficili. Per esempiu, imaginate chì pruvà à pruvà empiricu di u pretendimentu simplicativu simplice chì e persone chì sò più intelligenti fà crescenu più soldi. Per attruvà sta sustegnu, avete bisognu di mette "intelligenza". Ma chì hè intelligenza? Gardner (2011) sustinia chì ci sò veramente ottu furmi di intelligenza. E sò i prucessi chì puderanu accuncià mette cù precisione di queste forme di intelligenza? Malgradu à quantità enormi di travagliu da i psicologu, sti dumanni ùn anu micca risposti senza ambigu.
Cusì, ancu una relazione simplice chjesa: i persone chì sò più intelligenti fà crescenu più soldi, ponu esse difficili di valutà empiricamente perchè pò esse difficili d'operatizà i constructi teorichi di dati. Esempi di constructi teorichi chì anu impurtanti ma duru di operatizarii include "normi", "capital sociale" è "demucrazia". I scienzi suciali chjamanu l'match between constructi teorichi è data di validità di creazione (Cronbach and Meehl 1955) . Quandu sta lista curretta di constructe suggerisce, custruisce a validità hè un prublema chì i cumbatturi scientifichi anu pruttu per un tempu assai longu. Ma in a mo spirimintà, i prublemi di custellà di custruttà sò ancu più grande quan u travagliu cù dati chì ùn sò micca creati per i scopi di ricerca (Lazer 2015) .
Quandu avete bisognu di un risultatu di ricerca, una manera ràpida è utili di valutà a validez di a custituita hè di piglià u risultatu, chì ghjeneralmente esse espressa à termini di custruzzioni, è rilucente in termi di a dati utilizati. Per esempiu, cunzidi dui studiu ipotetici chì palesanu per vede chì e persone chì sò più intelligenti fate più soldi. In u primu studiu, u ricunnisciutu hà truvatu chì e persone chì scurdassi bè nantu à a Raven Progressive Matrices Test-una prova ben studia di l'intelligenza analitica (Carpenter, Just, and Shell 1990) -pprevisti più risultati di i rimborsi. In u second studiu, l'investigatore hà sappiutu chì e persone di Twitter chì anu più listessi per più sò più probabili di qualchì marca di lussu. In i dui casi, sti circadori puderanu esse priscrittu ch'elli anu dimustratu chì e persone chì sò più intelligente guadagnani più soldi. In ogni modu, in u primu studiu i constructi teorichi sò bien operati di i dati, mentre chì in u sicondu ùn sò micca. Cumplementu, cum'è questu esempiu illustra, più datu ùn hà micca stata automaticamente solu prublemi cun a validez di custruttore. Avete da dubbitu i risultati di u secunnu studiu d'avè implicatu un milione di tweets, milioni di tweets o un trillionto tweets. Per i circh merrimi ùn anu micca familiarizatu cù l'idea di custellà a custellita, a tavola 2.2 furnisce unepochi di studii chì anu operatu i constructi teorichi cù traccia di data digitale.
Dati fonte | Formazione teorica | Riferenzi |
---|---|---|
E mail di una università (meta-data solu) | Relazioni soziale | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Social media posts nantu à Weibo | Engagement Civic | Zhang (2016) |
E-mail di una firma (meta-data è testu sanu) | Beni culturali in una urganizazione | Srivastava et al. (2017) |
Eppuru u prublema di e dati in incomplete per piglià i constructi teorichi sò assai difficili per risolvi, ci sò suluzione cumuni à l'altri tipu cumuni di cumpatibile: informazione demografica incomplete è infurmazione incomplete nantu à cumpurtamentu per altri platformi. A primu suluzione hè di attualmente cullate e dati chì necessite; A vi dicu di quellu chì in u capu 3, quandu mi dicu nantu à i medizzioni. A siconda seconda risposta principale hè di fà ciò chì i scientifichi di u centru di u telefuninu chjamanu inferenziali à l'attributu d'utilizatori è i scientifichi sucietenu impurtazione . In questu strategicu, i circhufe utilizanu l'infurmazioni ch'elli hanu in parechji persone per inferisce l'attributi di l'altri populi. A third possible solution is to combine multiple sources of data. U prucessu hè in qualchì volta chjamatu ligami riguardanti . A meia metàfora predilettu per questu prucessu era scrittu da Dunn (1946) in u primu paràgrafu di u primu ghjornu stampatu in u vindu recordu:
"Ogni persone in u mondu crea un libru di a vita. Stu libru principia cù nascita è finisci cù a morte. E so pagine sò custituiti di registri di i principi avvenimenti in a vita. U ligame di u recordu hè u nomu datu à u prucessu di assembramentu di e pagine di stu libru in un voluminu ".
Quandu Dunn hà scrittu quellu passaghju ch'ellu imaginava chì u Libru di a Vita puderia cumprendi avvenimenti vita maiò, cum'è nascita, matrimoniu, divorziu è morte. In ogni modu, ora chì a so informazioni nantu à e persone hè registrada, u Libru di a Vita puderia esse un riticatu perfettamente detallatu, se sti pezzi diffirenti (ie, i nostri traces digitali) pò esse unitu. Questu libru di a Vita puderia esse un bonu risorsu per i ricchieri. Ma puderia ancu esse chjamatu datu base di ruina (Ohm 2010) , chì puderia esse adupratu per tutti i tipi di scopi i tesi, cum'è discendireghja in u capitulu 6 (Etica).