Negrave kiom "granda" via "granda datumo" ĝi probable ne havas la informon kiu volas.
Plej grandaj datumoj fontoj estas nekompleta, en la senco ke ili ne havas la informon ke vi volas por via esploro. Tiu estas komuna trajto de datumoj kiuj estis kreitaj por celoj aliaj ol esploro. Multaj sociaj sciencistoj jam havis la sperton de kontraktanta kun la nekompleteco, kiel ekzistantan enketo kiu ne demandas la demandon vi volis. Bedaŭrinde, la problemoj de nekompleteco inklinas esti pli ekstremaj en grandaj datumoj. En mia sperto, granda datumo emas manki tri tipoj de informo utila por sociaj esploroj: demografio, konduto en aliaj platformoj, kaj datumojn al operationalize teoriaj konstruoj.
Ĉiuj tri de ĉi tiuj formoj de nekompleteco estas ilustrita en studo fare Gueorgi Kossinets kaj Duncan Watts (2006) pri la evoluo de la socia reto en universitato. Kossinets kaj Vattoj komenciĝis per la retpoŝto protokoloj de la universitato, kiu havis precizajn informojn pri la sendinto retpoŝtojn al kiuj ĉe kio tempo (la esploristoj ne havis aliron al la enhavo de la retpoŝtoj). Tiuj retpoŝto registroj sonas kiel mirinda aro de datumoj, sed ili estas-spite sia grando kaj granularidad-fundamente nekompleta. Ekzemple, la retpoŝto protokoloj ne inkludas datumojn pri la demografiaj karakterizaĵoj de la studentoj, kiel ekzemple sekso kaj aĝo. Plui, la retpoŝto protokoloj ne inkludas informojn pri komunikado tra aliaj rimedoj, kiel ekzemple telefonvokoj, tekstmesaĝo, aŭ vizaĝo-al-vizaĝo konversacioj. Fine, la retpoŝto protokoloj ne rekte inkluzivas informon pri rilatoj, la teoriaj konstruoj en multaj ekzistantaj teorioj. Poste en la ĉapitro, kiam mi parolas pri esploro strategioj, Vi vidos kiel Kossinets kaj Vattoj solvitaj ĉi tiuj problemoj.
De tri specoj de nekompleteco, la problemo de nekompletaj datumoj por operationalize teoriaj konstruoj estas la plej malfacila por solvi, kaj en mia sperto, oni ofte akcidente preteratentita de datumoj sciencistoj. Malglate, teoriaj konstruoj estas abstraktaj ideoj kiuj socian sciencistoj studi, sed, bedaŭrinde, tiuj konstruoj povas ne ĉiam esti unusence difinita kaj mezurita. Ekzemple, imagu provas empirie testi la ŝajne simpla aserto ke homoj kiuj estas pli inteligentaj gajni pli mono. Por testi tiun pretendon vi devus mezuri "inteligenteco." Sed, kio estas inteligenteco? Ekzemple, Gardner (2011) argumentis ke ekzistas fakte ok malsamaj formoj de inteligenteco. Kaj, estas tie procedoj kiuj povis precize mezuri ajnan de tiuj formoj de inteligenteco? Malgraŭ enorma kvanto de laboro de psikologoj, tiuj demandoj ankoraŭ ne havas unusenca respondojn. Tiel, eĉ relative simpla aserto-homoj kiuj estas pli inteligentaj gajni pli mono povas esti malfacile taksi empirie ĉar ĝi povas esti malfacile operationalize teoriaj konstruoj en datumoj. Aliaj ekzemploj de teoriaj konstruoj kiuj estas gravaj sed malfacile operationalize inkludas "normoj", "socia ĉefurbo" kaj "demokratio". Sociaj sciencistoj nomas la matĉo inter teoriaj konstruoj kaj datumoj konstrukcio valideco (Cronbach and Meehl 1955) . Kaj, kiel tiu listo de konstrukcioj sugestas, konstrui valideco estas problemo ke sociaj sciencistoj luktis kun por tre longa tempo, eĉ kiam ili laboris kun datumoj kiuj estis kolektitaj por la celo de esplorado. Kiam laborante kun datumoj kolektitaj por celoj aliaj ol esploro, la problemoj de konstruo valideco estas eĉ pli malfacila (Lazer 2015) .
Kiam vi legas esplora papero, unu rapida kaj utila maniero por taksi zorgojn pri konstrukcio valideco estas preni la ĉefa aserto en la papero, kiu estas kutime esprimita en terminoj de konstruoj, kaj re-esprimas en terminoj de la uzitaj datumoj. Ekzemple, konsideri du hipotezaj studoj kiu pretendas montri ke pli inteligentaj homoj gajnas pli mono:
En ambaŭ kazoj, esploristoj povis aserti ke ili montris ke pli inteligentaj homoj gajnas pli mono. Sed, en la unua studo la teoriaj konstruoj estas bone manipulas la datumojn, kaj en la dua ne. Plui, kiel tiu ekzemplo ilustras, pli datumoj ne aŭtomate solvas problemojn kun konstrukcio valideco. Vi devus dubi la rezultojn de studo 2 ĉu implikita miliono tweets, miliardo tweets, aŭ biliono de tweets. Por esploristoj ne konas la ideon de konstrukcio valideco, Tabelo 2.2 provizas ekzemplojn de studoj kiuj manipulas teoriaj konstruoj uzas ciferecan spuron datumoj.
Cifereca spuro | teoria konstruo | citaĵo |
---|---|---|
retpoŝto protokoloj de universitato (metadatumoj nur) | sociaj interrilatoj | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
sociaj rimedoj afiŝojn sur Weibo | civita engaĝiĝo | Zhang (2016) |
retpoŝto protokoloj de firma (metadatumoj kaj kompleta teksto) | Kultura konformi organizo | Goldberg et al. (2015) |
Kvankam la problemo de nekompletaj datumoj por funkciigi teoriaj konstruoj estas sufiĉe malfacile solvi, estas tri komunaj solvoj al la problemo de nekompleta demografia informo kaj nekompleta informo sur konduto en aliaj platformoj. La unua estas efektive kolekti la datumojn vi bezonas; Mi diros al vi pri ekzemplo de tio en Ĉapitro 3 Kiam mi diros al vi pri enketoj. Bedaŭrinde, Ĉi tiu speco de datumo kolekto estas ne ĉiam eblas. La dua ĉefa solvo estas fari kion datumoj sciencistoj nomas uzanto-atributo konkludaj kaj kio sociaj sciencistoj nomas imputación. En tiu aliro, esploristoj uzas la informon kiu havas sur iuj homoj konkludas atributoj de aliaj personoj. La tria ebla solvo-tiu uzita fare Kossinets kaj Vattoj-estis kombini multnombrajn datumojn fontoj. Tiu procezo estas iam nomata kunfando aŭ rekordo ligo. Mia ŝatata metaforo por tiu procezo estis proponita en la unua alineo de la unua papero iam skribita sur rekordo ligo (Dunn 1946) :
"Ĉiu persono en la mondo kreas Libro de Vivo. Tiu libro komenciĝas per naskiĝo kaj finiĝas kun la morto. Liaj paĝoj konsistas el notoj pri la principo eventoj en la vivo. Rekordo ligo estas la nomo donita al la procezo de kunvenado de la paĝoj de ĉi tiu libro en volumo. "
Tiu paŝo estis skribita en 1946, kaj en tiu tempo, homoj pensis ke la libro de vivo povus inkluzivi gravaj vivo okazaĵoj kiel naskiĝo, geedzeco, eksedziĝo, kaj morto. Tamen, nun ke tiel informon pri homoj estas registrita, la Libro de Vivo povus esti nekredeble detalita portreton, se tiuj malsamaj paĝoj (te nia cifereca spuroj), povas esti ligita kune. Tiu libro de vivo povus esti granda rimedo por esploristoj. Sed, la Libro de Vivo povus ankaŭ nomiĝi datumbazo de ruino (Ohm 2010) , kiu povus esti uzata por ĉiaj maletika celoj, kiel priskribis pli sube kiam mi parolas pri la sentema naturo de la informo kolektita de grandaj datumoj fontoj sube kaj en Ĉapitro 6 (Etiko).