Bez ohľadu na to, ako "veľký" vaše "spracovanie veľkých objemov dát" to asi nemá informácie, ktoré chcete.
Väčšina veľkých zdroje dát sú neúplné v tom zmysle, že nemajú informácie, ktoré budete chcieť pre svoj výskum. To je spoločný rys údajov, ktoré boli vytvorené na účely iné ako výskumné účely. Mnoho sociálnych vedcov už mali skúsenosti s riešením neúplnosti, ako je súčasné vyšetrovanie, ktoré neboli položiť otázku, čo ste chceli. Bohužiaľ, problémy neúplnosti majú tendenciu byť viac extrémne vo veľkých dát. Podľa mojich skúseností, spracovanie veľkých objemov dát tendenciu chýbať tri druhy informácií, ktoré sú užitočné pre sociálny výskum: demografiu, správanie na iných platformách a údaje uviesť do praxe teoretických konštruktov.
Všetky tieto tri formy neúplnosti sú znázornené v štúdii Gueorgi Kossinets a Duncan Watts (2006) o vývoji sociálnej siete na vysokej škole. Kossinets a Watts začala s e-mailových protokolov z univerzity, ktorý mal presné informácie o tom, kto poslal e-maily na koho v akom čase (výskumníci nemali prístup k obsahu e-mailov). Tieto e-mailové záznamy znieť ako úžasnú dátovej sady, ale sú-napriek svojej veľkosti a granularity-zásadne neúplné. Napríklad e-mailové protokoly nezahŕňajú údaje o demografickej charakteristiky študentov, ako je pohlavie a vek. Ďalej, e-mailové protokoly neobsahujú údaje o komunikáciu prostredníctvom ďalších médií, ako sú telefónne hovory, textové správy, alebo face-to-face rozhovorov. A konečne, e-mailové protokoly nie sú priamo uvedené informácie o vzťahoch, teoretických konštruktov v mnohých existujúcich teórií. Neskôr v tejto kapitole, keď hovorím o výskumných stratégií, uvidíte, ako Kossinets a Watts vyriešil tieto problémy.
Z troch druhov neúplnosti, problém neúplných údajov uviesť do praxe teoretických konštruktov je najťažšie riešiť, a podľa mojich skúseností, to je často prehliadaná náhodne dátovými vedci. Zhruba teoretické konštrukty sú abstraktné myšlienky, že sociálne vedci študujú, ale bohužiaľ, tieto konštrukty nedá vždy jednoznačne definované a merané. Napríklad, poďme si predstaviť snažia empiricky testovať zdanlivo jednoduché tvrdenie, že ľudia, ktorí sú inteligentnejší zarobiť viac peňazí. Na otestovanie tvrdenie by bolo treba merať "inteligenciu." Ale to, čo je inteligencia? Napríklad Gardner (2011) tvrdil, že tam sú vlastne osem rôznych foriem inteligencie. A, existujú postupy, ktoré by mohli presne zmerať niektoré z týchto foriem inteligencie? Cez enormné množstvo práce zo strany psychológov, tieto otázky stále nemajú jednoznačné odpovede. Preto aj relatívne jednoduchý claim-ľudia, ktorí sú inteligentnejší zarábať viac peňazí, môže byť ťažké posúdiť empiricky, pretože to môže byť ťažké uviesť do praxe teoretických konštruktov v dátach. Iné príklady teoretických konštruktov, ktoré sú dôležité, ale ťažko uviesť do praxe zahŕňajú "normy", "sociálny kapitál" a "demokracia". Sociálna vedci nazývajú zápas medzi teoretických konštruktov a údaje konstruktové platnosti (Cronbach and Meehl 1955) . A ako tento zoznam konštruktov napovedá, postaviť platnosť je problém, že sociálne vedci snažili sa po veľmi dlhú dobu, aj keď oni pracovali s dátami, ktorá bola zhromaždených na účely výskumu. Pri práci s dátami zbierajú na iné účely ako výskumné účely, problémy konštruktu platnosti sú ešte náročnejšie (Lazer 2015) .
Pri čítaní výskum papier, jeden rýchly a užitočný spôsob, ako posúdiť obavy konstruktové platnosti je, aby hlavný tvrdenia v novinách, ktorý je zvyčajne vyjadrené konštruktov, a znovu vyjadriť čo sa týka použitých údajov. Zvážte napríklad dve hypotetické štúdie, ktoré tvrdia, že ukazujú, že viac inteligentní ľudia zarábajú viac peňazí:
V oboch prípadoch by výskumní pracovníci mohli tvrdiť, že sa ukázalo, že viac inteligentní ľudia získať peniaze. Ale v prvej štúdii teoretickej konštrukty sú tiež realizované dátami, a v druhej nie sú. Ďalej, ako ukazuje tento príklad, ďalšie dáta nie sú automaticky riešiť problémy s konštruktom platnosti. By ste mali pochybovať o tom výsledky štúdie 2, či išlo o milión tweetov, miliardy tweety alebo bilión tweety. Pre výskumníkov nie sú oboznámení s myšlienkou konstruktové platnosti, Tabuľka 2.2 uvádza niektoré príklady štúdií, ktoré operacionalizován teoretické konštrukty pomocou digitálne dáta trasovania.
Digitálne stopy | teoretická konštrukt | citácie |
---|---|---|
e-mailové protokoly z univerzity (iba meta-data) | sociálne vzťahy | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
príspevkov na sociálne médiá Weibo | občianska angažovanosť | Zhang (2016) |
e-mailové protokoly od firmy (meta-dát a kompletný text) | Kultúrne fit v organizácii | Goldberg et al. (2015) |
Hoci problém neúplných údajov pre operationalizing teoretických konštruktov je dosť ťažké riešiť, existujú tri spoločné riešenia tohto problému neúplných demografických údajov a neúplným informáciám o správaní na iných platformách. Prvým z nich je vlastne zbierať dáta, ktoré potrebujú; Poviem ti o príklad, ktorý v kapitole 3, keď som ti o prieskumy. Bohužiaľ, tento spôsob zberu dát nie je vždy možné. Druhým hlavným riešením je to, čo vedci nazývajú dátové užívateľsky atribút záver a čo sociológovia nazývajú imputácie. V tomto prístupe, výskumníci používajú informácie, ktoré majú na niektorých ľudí odvodiť vlastnosti iných ľudí. Tretím možným riešením, jeden používal Kossinets a Watts, bolo spojiť viac zdrojov dát. Tento proces je niekedy nazývaný zlúčenie alebo záznam väzba. Moja obľúbená metafora pre tento proces bolo navrhnuté v prvom odseku hneď v prvom príspevku kedy bola napísaná na rekordné väzbou (Dunn 1946) :
"Každý človek na svete vytvára Book of Life. Táto kniha začína narodením a končí smrťou. Jeho stránky sú tvorené záznamov princípe udalostí v živote. Záznam väzba je meno danej k procesu zostavovania stránkami tejto knihy do zväzku. "
Táto pasáž bola napísaná v roku 1946, a v tej dobe boli ľudia myslia, že kniha života by mohli zahŕňať významné životné udalosti, ako je narodenie, sobáš, rozvod, a smrť. Avšak teraz, keď toľko informácií o ľuďoch je zaznamenané, kniha života by mohol byť neuveriteľne detailný portrét, pokiaľ tieto jednotlivé stránky (tj našu digitálne Traces), môžu byť zviazané. Táto kniha života by mohol byť skvelý zdroj pre výskumníkov. Ale kniha života by mohla byť tiež nazývaný databázu skazy (Ohm 2010) , ktorý by mohol byť použitý pre všetky druhy neetické účely, ako je popísané viac nižšie, keď hovorím o citlivú povahu informácií zhromaždených veľkými dátovými zdrojmi nižšie a v kapitole 6 (etika).