Oavsett hur stor din stora data, den har förmodligen inte den information du vill ha.
De flesta stora datakällor är ofullständiga , i den meningen att de inte har den information som du vill ha för din forskning. Detta är en vanlig egenskap hos data som skapades för andra ändamål än forskning. Många socialforskare har redan haft erfarenhet av att hantera ofullständighet, som en befintlig undersökning som inte ställde frågan som behövdes. Tyvärr tenderar problemen med ofullständighet att vara mer extrema i stora data. Enligt min erfarenhet tenderar stora data att sakna tre typer av information som är användbara för social forskning: demografisk information om deltagare, beteende på andra plattformar och data för att operationalisera teoretiska konstruktioner.
Av de tre typerna ofullständighet är problemet med ofullständiga data för att operationalisera teoretiska konstruktioner det svåraste att lösa. Och enligt min erfarenhet är det ofta oavsiktligt förbises. Grovt teoretiska konstruktioner är abstrakta idéer som sociala forskare studerar och operativiserar en teoretisk konstruktion innebär att föreslå något sätt att fånga den konstruktionen med observerbara data. Tyvärr är det här ganska enkelt att klara sig ganska ofta. Låt oss föreställa oss att vi försöker empiriskt testa den uppenbart enkla påståendet att folk som är mer intelligenta tjänar mer pengar. För att testa denna påstående skulle du behöva mäta "intelligens". Men vad är intelligens? Gardner (2011) hävdade att det faktiskt finns åtta olika former av intelligens. Och finns det förfaranden som noggrant kan mäta någon av dessa former av intelligens? Trots enorma mängder arbete av psykologer har dessa frågor fortfarande ingen entydiga svar.
Således kan även en relativt enkel påstående - människor som är mer intelligenta tjäna mer pengar - vara svårt att bedöma empiriskt eftersom det kan vara svårt att operera teoretiska konstruktioner i data. Andra exempel på teoretiska konstruktioner som är viktiga men svåra att manövrera innefattar "normer", "social kapital" och "demokrati". Sociala forskare kallar matchningen mellan teoretiska konstruktioner och datakonstruktionens validitet (Cronbach and Meehl 1955) . Som denna korta lista över konstruktioner föreslår är konstruktivgiltighet ett problem som socialforskare har kämpat med under en mycket lång tid. Men enligt min erfarenhet är problemen med konstruktiv validitet ännu större när man arbetar med data som inte skapades för forskningsändamål (Lazer 2015) .
När du bedömer ett forskningsresultat är ett snabbt och användbart sätt att bedöma konstruktionsgiltigheten att ta resultatet, vilket vanligtvis uttrycks i form av konstruktioner, och uttrycka det igen med avseende på de data som används. Tänk exempelvis på två hypotetiska studier som påstår att människor som är mer intelligenta tjänar mer pengar. I den första studien fann forskaren att personer som presterar bra på Raven Progressive Matrices Test-ett välstudierat test av analytisk intelligens (Carpenter, Just, and Shell 1990) -har högre redovisade inkomster på sina avkastningar. I den andra studien fann forskaren att personer på Twitter som använde längre ord är mer benägna att nämna lyxmärken. I båda fallen kan dessa forskare hävda att de har visat att personer som är mer intelligenta tjänar mer pengar. Men i den första studien är de teoretiska konstruktionerna väl operationerade av data, medan de i andra inte är det. Vidare, som detta exempel illustrerar, löser inte mer automatiskt automatiskt problem med konstruktiv validitet. Du borde tvivla på resultaten från den andra undersökningen om det innebar en miljon tweets, en miljard tweets eller en biljon tweets. För forskare som inte är bekant med idén om konstruktionsgiltighet innehåller tabell 2.2 några exempel på studier som har operationella teoretiska konstruktioner med hjälp av digitala spårdata.
Datakälla | Teoretisk konstruktion | referenser |
---|---|---|
E-post loggar från ett universitet (endast metadata) | Sociala relationer | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sociala media inlägg på Weibo | Civic engagement | Zhang (2016) |
E-post loggar från ett företag (metadata och fullständig text) | Kulturell passform i en organisation | Srivastava et al. (2017) |
Även om problemet med ofullständiga data för att fånga teoretiska konstruktioner är ganska svårt att lösa finns det gemensamma lösningar på de andra vanliga typerna ofullständighet: ofullständig demografisk information och ofullständig information om beteende på andra plattformar. Den första lösningen är att faktiskt samla in de data du behöver Jag berättar om det i kapitel 3 när jag berättar om enkäter. Den andra huvudlösningen är att göra vilka datavetenskapare som kallar användarattributets inferens och sociala forskare kallar tillskrivning . I detta tillvägagångssätt använder forskare den information som de har på vissa människor för att dra nytta av andra människors attribut. En tredje möjlig lösning är att kombinera flera datakällor. Denna process kallas ibland rekordkoppling . Min favoritmetafor för denna process skrevs av Dunn (1946) i den allra första stycket av det allra första papperet som någonsin skrivits på rekordkoppling:
"Varje person i världen skapar en bok av livet. Denna bok börjar med födseln och slutar med döden. Dess sidor består av register över de viktigaste händelserna i livet. Rekordlänk är namnet på processen att montera sidorna i den här boken i en volym. "
När Dunn skrev den passagen föreställde han sig att Livets bok skulle kunna innefatta stora livshändelser som födelse, äktenskap, skilsmässa och död. Men nu när så mycket information om människor spelas in kan Livets bok vara ett otroligt detaljerat porträtt om de olika sidorna (dvs. våra digitala spår) kan bindas samman. Denna bok av livet kan vara en stor resurs för forskare. Men det kan också kallas en databas av ruin (Ohm 2010) , som kan användas för alla typer av oetiska ändamål, som jag kommer att beskriva i kapitel 6 (Etik).