Ükskõik kui "suur" oma "suure andmed" siis ilmselt ei ole soovitud teave.
Enamik suur andmeallikate on puudulikud, selles mõttes, et neil ei ole andmeid, et sa tahad oma uurimistööd. See on ühine omadus andmed, mis on loodud muul otstarbel kui teadus. Paljud ühiskonnateadlased on juba olnud kogemusi tegelemisel puudulikkus, nagu olemasoleva uuringu, mis ei küsi küsimust, mida tahtsid. Kahjuks probleeme puudulikud kipuvad olema äärmuslik suur andmed. Minu kogemus, suur andmete kipub puudu kolm liiki teavet kasulik sotsiaalsed uuringud: demograafia, käitumist muudel platvormidel ja andmete operatsionaliseerida teoreetilisi konstruktsioone.
Kõik need kolm vormid puudulikkus on kujutatud uuringu Gueorgi Kossinets ja Duncan Watts (2006) umbes areng sotsiaalne võrgustik ülikoolis. Kossinets ja Watts algas e palgid ülikooli, mis oli täpne teave selle kohta, kes saatis e-kirju, kellele ja mis ajal (teadlased ei olnud juurdepääsu sisule kirju). Need e-posti arvestust tunduda hämmastav andmekogumi, kuid nad on-hoolimata nende suurusest ja detailsust-täiesti puudulik. Näiteks e-posti palke ei sisalda andmeid demograafiliste tunnuste õpilased, nagu sugu ja vanus. Lisaks e-logisid ei sisalda informatsiooni side teiste meediakanalite kaudu, nagu telefonikõned, tekstisõnumi või näost-näkku vestlusi. Lõpuks email palgid otseselt ei sisalda teavet suhted, teoreetiline konstruktsioone paljud olemasolevad teooriaid. Hiljem peatükis, kui ma rääkida teadusuuringute strateegiad, näete, kuidas Kossinets ja Watts lahendada neid probleeme.
Kolme liiki puudusi, siis probleem puudulike andmete operatsionaliseerida teoreetilised on kõige raskem lahendada, ja minu kogemus näitab, et tihti kogemata tähelepanuta andmeid teadlased. Umbes, teoreetilised on abstraktsed ideed, et ühiskonnateadlased õppima, kuid kahjuks selliseid konstruktsioone ei saa alati üheselt määratleda ja mõõta. Näiteks oletame ette kujutada püüab empiiriliselt testida ilmselt lihtsa väitega, et inimesed, kes on arukam teenida rohkem raha. Selleks, et testida seda nõuet siis oleks vaja mõõta "intelligentsust." Aga, mis on intelligentsus? Näiteks Gardner (2011) väitis, et on tegelikult kaheksa erinevat liiki intelligentsust. Ja on olemas protseduurid, mis võivad täpselt mõõta mõni neist vormidest luure? Vaatamata tohutul hulgal tööd psühholoogid, need küsimused ei ole ikka veel üheselt mõistetav vastuseid. Seega, isegi suhteliselt lihtsa nõude-inimesed, kes on arukam teenida rohkem raha võib olla raske hinnata empiiriliselt, sest see võib olla raske operatsionaliseerida teoreetilisi konstruktsioone andmeid. Teised näited teoreetilisi konstruktsioone, mis on olulised, kuid raske käivitama ka "normid", "sotsiaalse kapitali" ja "demokraatia". Sotsiaalne teadlased nimetavad sobitada teoreetilised ja andmete Konstruktivaliidsust (Cronbach and Meehl 1955) . Ja kuna see nimekiri konstruktsioone ütleb, ehitada kehtivus on probleem, et ühiskonnateadlased on võidelnud juba väga pikka aega, isegi siis, kui nad töötasid koos andmetega, mis koguti uurimistöö eesmärk. Töötades kogutud andmed üksnes teadusuuringute, probleemid Konstruktivaliidsust on veelgi keerukamaks (Lazer 2015) .
Kui sa loed uurimus, ühe kiire ja mugav viis hinnata muret Konstruktivaliidsust on võtta põhinõude paberile, mis on tavaliselt väljendatakse konstruktsioonide ja uuesti väljendada seda, et andmeid kasutatakse. Näiteks leiavad kaks hüpoteetilist uuringuid, mis väidavad, et näidata, et rohkem intelligentsed inimesed teenivad rohkem raha:
Mõlemal juhul on teadlased suutnud kinnitavad, et nad on näidanud, et rohkem intelligentsed inimesed teenivad rohkem raha. Aga esimese uuringu teoreetiline konstruktid hästi operationalized poolt andmete ning teises neid ei ole. Lisaks, nagu seda näide illustreerib rohkem andmeid ei saa automaatselt lahendada probleeme konstrukt kehtivuse. Sa peaksid kahelda Uuringu 2, kas see oli seotud miljonit tweets, miljard tweets või triljonit tweets. Teadlaste ole tuttav idee ehitada kehtivuse Tabel 2.2 annab mõned näited uuringuid, mis on operatsionaliseeritud teoreetilised digitaalne jälg andmeid.
Digitaalne jälgi | Teoreetiline ehitada | Viide |
---|---|---|
e palgid ülikooli (meta-andmeid ainult) | sotsiaalsed suhted | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
sotsiaalse meedia ametikohta Weibo | kodanikkonnaga | Zhang (2016) |
e palgid firma (meta-andmed ja täielik tekst) | Kultuuri sobib organisatsiooni | Goldberg et al. (2015) |
Kuigi probleemi mittetäielikud andmed operatiivsemaks teoreetilised on päris raske lahendada, on kolm ühist lahendused mittetäieliku demograafilisi andmeid ning mittetäielikud andmed käitumine muudel platvormidel. Esimene on tegelikult koguda andmeid, mida vaja; Ma ütlen teile näide, et 3. peatükis, kui ma räägin teile uuringutest. Kahjuks selline andmete kogumine ei ole alati võimalik. Teine peamine lahendus on teha seda, mida andmed teadlased nimetavad kasutaja atribuut järeldada ja mida ühiskonnateadlased helistada omistamine. Selle lähenemisviisi teadlased kasutavad teavet, et neil on mõned inimesed järeldada atribuutide teisi inimesi. Kolmas võimalik lahendus-, mida kasutab Kossinets ja Watts-oli kombineeri andmeallikaid. Seda protsessi nimetatakse mõnikord ühinevad või registreerima seost. Minu lemmik metafoor selles protsessis pakuti esimest lõiku väga esimene raamat, mis kunagi kirjutatud rekord seost (Dunn 1946) :
"Iga inimene maailmas loob Book of Life. See raamat algab sünni ja lõpeb surmaga. Tema lehed koosnevad arvestust põhimõtet sündmusi elus. Record seosed on antud nimi koosteprotsess teose lehekülgede mahuks. "
See lõik on kirjutatud aastal 1946 ja sel ajal olid inimesed mõtlema, et Eluraamatusse võib hõlmata suurte elusündmuste nagu sünni, abielu, lahutus ja surm. Kuid nüüd, et nii palju teavet inimeste salvestatakse, Book of Life võib olla uskumatult üksikasjalikud portree, kui neid erinevaid lehti (meie digitaalse jälgi), saab kokku köidetud. See Book of Life võib olla suurepärane vahend teadlased. Aga Eluraamatusse võiks nimetada ka andmebaasi häving (Ohm 2010) , mida võib kasutada igasuguseid ebaeetiline eesmärkidel, nagu on kirjeldatud allpool pikemalt kui ma rääkida tundlikku informatsiooni kogutud suur andmeallikate alla ja 6. peatükis (eetika).