Bez ohledu na velikost vašich velkých dat pravděpodobně nemá informace, které chcete.
Většina velkých zdrojů dat je neúplná , v tom smyslu, že nemají informace, které budete potřebovat pro váš výzkum. Toto je společná vlastnost dat, která byla vytvořena pro jiné účely než výzkum. Mnoho sociálních věd má již zkušenost s řešením neúplnosti, jako je například stávající průzkum, který nepožádal o potřebnou otázku. Problémy neúplnosti jsou bohužel v extrémních datech extrémnější. Podle mých zkušeností chybí velké údaje tři typy informací užitečných pro společenský výzkum: demografické informace o účastnících, chování na jiných platformách a data pro operativnost teoretických konstrukcí.
Ze tří druhů neúplnosti je nejtěžší problém vyřešit problém neúplných dat k operativizaci teoretických konstrukcí. A podle mých zkušeností je to často náhodou přehlíženo. Zhruba teoretické konstrukce představují abstraktní myšlenky, které společenští vědci zkoumají a realizují teoretický konstrukt, což znamená navrhnout nějaký způsob, jak zachytit tento konstrukt s pozorovatelnými daty. Bohužel se tento jednoduchý proces ozvučení často ukáže jako poměrně obtížný. Představme si například, že se snažíme empiricky otestovat zdánlivě jednoduché tvrzení, že inteligentnější lidé vydělávají více peněz. Chcete-li otestovat toto tvrzení, musíte měřit "inteligenci". Ale co je to inteligence? Gardner (2011) tvrdil, že ve skutečnosti existují osm různých forem inteligence. A existují postupy, které by mohly přesně měřit některou z těchto forem inteligence? I přes obrovské množství práce psychologů tyto otázky ještě nemají jednoznačné odpovědi.
Dokonce i poměrně jednoduchá tvrzení - lidé, kteří jsou inteligentnější, vydělávají více peněz - může být obtížné posoudit empiricky, protože může být těžké operabilizovat teoretické konstrukce v datech. Jiné příklady teoretických konstrukcí, které jsou důležité, ale těžko (Cronbach and Meehl 1955) zahrnují "normy", "sociální kapitál" a "demokracii". Sociální vědci nazývají shodu mezi teoretickými konstrukty a validitou datových konstrukcí (Cronbach and Meehl 1955) . Jak naznačuje tento krátký seznam konstrukcí, konstrukce platnosti je problém, který společenští vědci dlouho bojují. Ale podle mých zkušeností jsou problémy s konstruktivní platností ještě větší při práci s daty, která nebyla vytvořena pro účely výzkumu (Lazer 2015) .
Při vyhodnocování výsledku výzkumu je jedním z rychlých a užitečných způsobů, jak posoudit platnost konstrukce, přijmout výsledek, který je obvykle vyjádřen v kontextu konstrukcí, a znovu jej vyjádřit, pokud jde o použité údaje. Zvažte například dvě hypotetické studie, které tvrdí, že lidé, kteří jsou inteligentnější, vydělávají více peněz. V první studii výzkumník zjistil, že lidé, kteří mají dobré výsledky v testu Raven Progressive Matrices - dobře zkoumaný test analytické inteligence (Carpenter, Just, and Shell 1990) - mají vyšší výnosy z daňových přiznání. Ve druhé studii výzkumník zjistil, že lidé na Twitteru, kteří používali delší slova, se častěji zmíní o luxusních značkách. V obou případech by tito vědci mohli tvrdit, že ukázali, že inteligentnější lidé vydělávají více peněz. Nicméně v první studii jsou teoretické konstrukty dobře zpracovány daty, zatímco ve druhé nejsou. Dále, jak ukazuje tento příklad, více dat automaticky nevyřeší problémy s konstruktivní platností. Měli byste pochybovat o výsledcích druhé studie, zda se jedná o milión tweets, miliardy tweets nebo bilión tweets. Pro vědce, kteří nejsou obeznámeni s myšlenkou platnosti konstruktu, tabulka 2.2 uvádí některé příklady studií, které realizovaly teoretické konstrukce pomocí digitálních stopových dat.
Zdroj dat | Teoretický konstrukt | Reference |
---|---|---|
E-mailové protokoly z univerzity (pouze metadata) | Sociální vztahy | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sociální média na Weibo | Občanská angažovanost | Zhang (2016) |
E-mailové protokoly od firmy (metadata a úplný text) | Kulturní uspořádání v organizaci | Srivastava et al. (2017) |
Přestože problém neúplných dat pro zachycení teoretických konstrukcí je velmi těžké vyřešit, existují společná řešení ostatních běžných typů neúplnosti: neúplné demografické informace a neúplné informace o chování na jiných platformách. První řešení je skutečně sbírat data, která potřebujete; Řeknu vám o tom v kapitole 3, když vám povím o průzkumech. Druhým hlavním řešením je dělat to, co vědci z dat nazývají inference atributů uživatelů a sociální vědci nazývají imputaci . V tomto přístupu vědci používají informace, které mají u některých lidí k odvození atributů jiných lidí. Třetím možným řešením je kombinovat více zdrojů dat. Tento proces je někdy nazýván vazbou záznamu . Moje nejoblíbenější metafora pro tento proces napsal Dunn (1946) v prvním odstavci prvního článku, který kdy byl napsán na záznamové vazbě:
"Každý člověk na světě vytváří Knihu života. Tato kniha začíná porodem a končí smrtí. Jeho stránky jsou tvořeny záznamy o hlavních událostech v životě. Záložka záznamu je název daný procesu sestavování stránek této knihy do svazku. "
Když Dunn napsal tuto pasáž, představoval si, že Kniha Života může zahrnovat významné životní události jako narození, manželství, rozvod a smrt. Nicméně, když se zaznamená tolik informací o lidech, Kniha Života by mohla být neuvěřitelně detailním portrétem, jestliže tyto různé stránky (tj. Naše digitální stopy) mohou být spojeny dohromady. Tato kniha života by mohla být skvělým zdrojem pro vědce. Mohlo by to být také nazýváno databází zkázy (Ohm 2010) , která by mohla být použita pro všechny druhy neetických záměrů, jak jsem popsal v kapitole 6 (Etika).