Ne gravas kiom granda via granda datumo, ĝi verŝajne ne havas la informon, kiun vi volas.
Plej multaj datumaj fontoj estas nekompletaj , ĉar ili ne havas la informon, kiun vi volas por via esplorado. Ĉi tio estas komuna trajto de datumoj kreitaj por celoj krom esploro. Multaj sociaj scienculoj jam havis la sperton trakti nekompletecon, kiel ekzistanta enketo, kiu ne demandis la demandon, kiun oni bezonis. Bedaŭrinde, la problemoj de nekompleteco inklinas esti pli ekstremaj en grandaj datumoj. En mia sperto, grandaj datumoj inklinas manki tri tipojn da informoj utilaj por socia esplorado: demografia informo pri partoprenantoj, konduto sur aliaj platformoj kaj datumoj por operacii teoriajn konstruojn.
De la tri specoj de nekompleteco, la problemo de nekompletaj datumoj por operacii teoriajn konstruojn estas la plej malfacila solvi. Kaj en mia sperto, ofte estas hazarde antaŭvidita. Iom teoriaj konstruoj estas abstraktaj ideoj, kiujn sociaj sciencistoj studas kaj funkciigas teoriajn konstruajn rimedojn, kiuj proponas iun manieron kapti, ke tio konstruas per observeblaj datumoj. Bedaŭrinde, ĉi tiu simplan-procezon ofte rezultas sufiĉe malfacila. Ekzemple, imagu provi empíricamente provi la ŝajnas simplan aserton, ke homoj pli inteligentaj gajnas pli da mono. Por provi ĉi tiun pretendon, vi bezonus mezuri "inteligentecon". Sed kio estas inteligenteco? Gardner (2011) argumentis, ke fakte ekzistas ok malsamaj formoj de inteligenteco. Kaj estas proceduroj, kiuj povus precize mezuri iun ajn el ĉi tiuj formoj de inteligenteco? Malgraŭ enormaj kvantoj da laboro de psikologoj, ĉi tiuj demandoj ankoraŭ ne havas nepleksajn respondojn.
Tiel, eĉ relative simpla reklamacio-homoj, kiuj pli inteligentaj gajnas pli da mono-povas malfacile taksi empie, ĉar ĝi povas malfacile operacii teoriajn konstruojn en datumoj. Aliaj ekzemploj de teoriaj konstruoj, kiuj estas gravaj sed malfacilaj por operacii, inkluzivas "normojn," socian kapitalon "kaj" demokration ". Sociaj sciencistoj nomas la matĉon inter teoriaj konstruoj kaj datumoj konstrui validecon (Cronbach and Meehl 1955) . Ĉar ĉi tiu mallonga listo de konstruoj sugestas, konstrui validecon estas problemo, kiun sociaj scienculoj luktis dum tre tempo. Sed en mia sperto, la problemoj pri konstruado de valideco estas eĉ pli grandaj, kiam ili laboras kun datumoj ne kreitaj por esplorado (Lazer 2015) .
Kiam vi taksas rezulton de esploro, unu rapida kaj utila maniero taksi la validecon de konstruado estas preni la rezulton, kiu kutime esprimiĝas laŭ konstruaĵoj kaj re-esprimas ĝin laŭ la uzataj datumoj. Ekzemple, konsideras du hipotetikajn studojn, kiuj pretendas montri, ke homoj pli inteligentaj gajnas pli da mono. En la unua studo, la esploristo trovis, ke homoj, kiuj bone atentas la Raven Progressive Matrices Test - bone studitan teston pri analitika inteligenteco (Carpenter, Just, and Shell 1990) - havas pli altajn raportojn de enspezoj sur siaj impostpagoj. En la dua studo, la esploristo trovis, ke homoj en Twitter, kiuj uzis pli longajn vortojn, estas pli verŝajne mencii luksajn markojn. En ambaŭ kazoj, ĉi tiuj esploristoj povus aserti, ke ili montris, ke homoj pli inteligentaj gajnas pli da mono. Tamen, en la unua studo la teoriaj konstruoj bone funkcias la datumoj, dum en la dua ili ne estas. Plie, kiel ĉi tiu ekzemplo ilustras, pli da datumoj ne aŭtomate solvas problemojn kun konstrua valideco. Vi devas dubi la rezultojn de la dua studo ĉu ĝi implikis milionon da tweets, miliardoj da tweets aŭ triliono de tweets. Por esploristoj, kiuj ne konas la ideon konstrui validecon, tablo 2.2 provizas iujn ekzemplojn de studoj, kiuj operaciis teoriajn konstruojn per ciferecaj spuroj.
Datenfonto | Teoria konstruo | Referencoj |
---|---|---|
Retadresoj de universitato (metadatiko nur) | Sociaj rilatoj | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sociaj amaskomunikiloj en Weibo | Civila devontigo | Zhang (2016) |
Retpoŝtaj registroj de firmao (meta-datuma kaj kompleta teksto) | Kultura ĝustigo en organizo | Srivastava et al. (2017) |
Kvankam la problemo de nekompletaj datumoj por kapti teoriajn konstruojn estas sufiĉe malfacile solvi, ekzistas komunaj solvoj al la aliaj komunaj specoj de nekompleteco: nekompleta demografia informo kaj nekompleta informo pri konduto sur aliaj platformoj. La unua solvo estas reale kolekti la datumojn, kiujn vi bezonas; Mi diros al vi pri tio en ĉapitro 3 kiam mi diras al vi pri enketoj. La dua ĉefa solvo estas fari kion datumaj sciencistoj alvokas uzanton-atributon kaj sociajn sciencojn nomas imputacion . En ĉi tiu alproksimiĝo, esploristoj uzas la informon, kiun ili havas sur iuj homoj por malsukcesi atributojn de aliaj homoj. Tria ebla solvo estas kombini multoblajn datumojn. Ĉi tiu procezo estas foje nomata rekorda ligo . Mia plej ŝatata metaforo por ĉi tiu procezo estis skribita fare de Dunn (1946) en la unua alineo de la unua papero iam skribita sur registra ligilo:
"Ĉiu en la mondo kreas Libron de Vivo. Ĉi tiu libro komencas kun naskiĝo kaj finiĝas kun morto. Ĝiaj paĝoj estas formitaj de rekordoj de la ĉefaj eventoj en la vivo. Registra ligilo estas la nomo donita al la procezo de kunmetado de la paĝoj de ĉi tiu libro en volumon. "
Kiam Dunn skribis tiun veturon, li imagis, ke la Libro de Vivo povus inkluzivi gravajn vivajn eventojn kiel naskiĝo, geedzeco, eksedziĝo kaj morto. Tamen, tiom da informoj pri homoj estas registritaj, la Libro de Vivo povus esti nekredeble detala portreto, se tiuj malsamaj paĝoj (tio estas, niaj ciferecaj spuroj) povas ligi kune. Ĉi tiu libro de vivo povus esti bonega rimedo por esploristoj. Sed, ĝi ankaŭ povus esti nomita datumbazo de ruino (Ohm 2010) , kiu povus esti uzata por ĉiaj neetikaj celoj, kiel mi priskribos en ĉapitro 6 (Etiko).