Nezáleží na tom, aké veľké sú vaše veľké údaje, pravdepodobne nemá informácie, ktoré chcete.
Väčšina veľkých zdrojov údajov je neúplná v tom zmysle, že nemajú informácie, ktoré budete potrebovať pre váš výskum. Toto je spoločná vlastnosť údajov, ktoré boli vytvorené na iné účely ako výskum. Mnohí sociálni vedci už mali skúsenosti s riešením neúplnosti, ako je napríklad existujúci prieskum, ktorý nepýtal otázku, ktorá bola potrebná. Bohužiaľ, problémy s neúplnosťou sú vo veľkých údajoch extrémne extrémne. Z mojej skúsenosti vyplýva, že pri veľkých údajoch chýbajú tri typy informácií užitočných pre spoločenský výskum: demografické informácie o účastníkoch, správanie sa na iných platformách a údaje na operatívne vykonávanie teoretických konštrukcií.
Z troch druhov neúplnosti je problém s neúplnými údajmi za účelom realizácie teoretických konštrukcií najťažšie vyriešiť. A podľa mojich skúseností je často omylom prehliadané. Zhruba teoretické konštrukty sú abstraktné myšlienky, že sociálne vedci študujú a operationalizing teoretický konštrukt znamená navrhnúť nejaký spôsob, ako zachytiť, že postaviť sa pozorovateľných dát. Bohužiaľ, tento jednoducho znejúci proces sa často ukáže byť dosť ťažké. Predstavme si napríklad, že sme sa snažili empiricky otestovať zjavne jednoduché tvrdenie, že ľudia, ktorí sú inteligentnejší, zarobia viac peňazí. Aby ste otestovali toto tvrdenie, museli by ste merať "inteligenciu". Ale čo je inteligencia? Gardner (2011) tvrdil, že v skutočnosti existuje osem rôznych foriem inteligencie. A existujú postupy, ktoré by mohli presne merať niektorú z týchto foriem inteligencie? Napriek obrovskému množstvu práce psychológov tieto otázky stále nemajú jednoznačné odpovede.
Preto aj pomerne jednoduché tvrdenie - ľudia, ktorí sú inteligentnejší zarábať viac peňazí - môže byť ťažké posúdiť empiricky, pretože môže byť ťažké prevádzkovať teoretické konštrukcie dát. Ďalšie príklady teoretických konštruktov, ktoré sú dôležité, ale ťažko realizovateľné, zahŕňajú "normy", "sociálny kapitál" a "demokraciu". Sociálni vedci nazývajú zhodu medzi teoretickými konštruktmi a validitou dátových konštruktov (Cronbach and Meehl 1955) . Ako naznačuje tento krátky zoznam konštruktov, konštrukcia platnosti je problém, s ktorým sa sociálni vedci stretávajú veľmi dlho. Ale podľa mojej skúsenosti sú problémy s konštrukčnou platnosťou ešte väčšie pri práci s údajmi, ktoré neboli vytvorené na účely výskumu (Lazer 2015) .
Pri posudzovaní výsledkov výskumu je rýchlym a užitočným spôsobom posúdenie platnosti konštruktu dosiahnuť výsledok, ktorý sa zvyčajne vyjadruje v konštrukciách a opätovne ho vyjadriť z hľadiska použitých údajov. Zvážte napríklad dve hypotetické štúdie, ktoré tvrdia, že u ľudí, ktorí sú inteligentnejší, zarobia viac peňazí. V prvej štúdii výskumník zistil, že ľudia, ktorí majú dobré výsledky v testoch Raven Progressive Matrices - dobre skúmaný test analytickej inteligencie (Carpenter, Just, and Shell 1990) - majú vyššie vykázané príjmy z daňových priznaní. V druhej štúdii výskumník zistil, že ľudia na Twitteri, ktorí používajú dlhšie slová, sú viac pravdepodobné, že uvádzajú luxusné značky. V obidvoch prípadoch by títo vedci mohli tvrdiť, že ukázali, že inteligentnejšie ľudia zarábajú viac peňazí. Avšak v prvej štúdii sú teoretické konštrukcie dobre spracované dátami, zatiaľ čo v druhej štúdii nie sú. Ďalej, ako ukazuje tento príklad, viac údajov automaticky nerieši problémy s konštrukčnou platnosťou. Mali by ste pochybovať o výsledkoch druhej štúdie, či sa jedná o milión tweets, miliardu tweets alebo triliónov tweets. Pre výskumníkov, ktorí nie sú oboznámení s myšlienkou platnosti konštruktu, tabuľka 2.2 poskytuje niektoré príklady štúdií, ktoré realizovali teoretické konštrukcie pomocou digitálnych stopových údajov.
Dátový zdroj | Teoretický konštrukt | Referencie |
---|---|---|
E-mailové denníky z univerzity (iba metadata) | Sociálne vzťahy | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Príspevky sociálnych médií na Weibo | Občianske zapojenie | Zhang (2016) |
E-mailové protokoly od firmy (meta-dáta a kompletný text) | Kultúrne využitie v organizácii | Srivastava et al. (2017) |
Hoci problém s neúplnými údajmi na zachytenie teoretických konštrukcií je dosť ťažko riešiteľný, existujú spoločné riešenia ostatných bežných typov neúplnosti: neúplné demografické informácie a neúplné informácie o správaní na iných platformách. Prvým riešením je skutočné zhromažďovanie údajov, ktoré potrebujete. Poviem vám to v kapitole 3, keď vám poviem o prieskumoch. Druhým hlavným riešením je robiť to, čo vedci údajov nazývajú dedukciu užívateľských atribútov a sociálni vedci nazývajú imputáciu . V tomto prístupe výskumníci využívajú informácie, ktoré majú k niektorým ľuďom na vyvodenie atribútov iných ľudí. Tretie možné riešenie spočíva v kombinácii viacerých zdrojov údajov. Tento proces sa niekedy nazýva spojenie záznamov . Moja najobľúbenejšia metafora pre tento proces napísal Dunn (1946) v prvom odseku prvého článku, ktorý bol kedy napísaný na záznamovej linke:
"Každá osoba na svete vytvára knihu života. Táto kniha začína narodením a končí smrťou. Jeho stránky tvoria záznamy hlavných udalostí v živote. Zaznamenávanie odkazov je názov daný procesom zostavovania stránok tejto knihy do zväzku. "
Keď Dunn napísal túto pasáž, predstavoval si, že Kniha Života môže obsahovať významné životné udalosti ako narodenie, manželstvo, rozvod a smrť. Keď sa však zaznamená toľko informácií o ľuďoch, kniha Života by mohla byť neuveriteľne podrobným portrétom, ak tieto rôzne stránky (tj naše digitálne stopy) môžu byť navzájom spojené. Táto kniha života by mohla byť pre výskumníkov veľkým zdrojom. Ale mohla by sa to nazvať aj databázou ruín (Ohm 2010) , ktorá by sa mohla použiť na všetky druhy neetických zámerov, ako to popíšem v kapitole 6 (Etika).