2.3.4

Egal wéi grouss Är grouss Daten, ass et wahrscheinlech net déi Informatioun déi Dir wëllt.

Déi meescht grouss Datenquellen sinn onkomplett , am Sënn datt se net d'Informatioun hunn déi Dir fir Är Recherche wëllt. Dëst ass e gemeinsame Feature vun Daten déi fir aner Zwecker geschaf ginn wéi d'Recherche. Vill Sozialwëssenschaftler hunn schonn d'Experienz mat der Onvollstännegkeet, wéi eng existéierend Ëmfro, déi d'Fro gestallt huet, déi néideg war, gefrot haten. Leider hu sech d'Problemer vun der Onvollstännegkeet méi extremer a grousse Daten. An menger Erfahrung, grouss Daten tendéieren fehlend dräi Typen vun Informatiounen nëtzlech fir Sozialfuerschung: demographesch Informatioun iwwer d'Participanten, Verhalen op aner Plattformen an Daten fir d'theoretesch Konstruktairen operativ ze maachen.

Vun den dräi Arten unvollstänneg ass de Problem vun onvollstännegen Donnéeën operéieren d'theoretesch Konstrukturen am härtesten ze léisen. An a ménger Erfahrung ass et oft versehentlech ignoréiert. Awer grondsätzlech Theoretesch Konstrukturen sinn abstrakte Iddien, déi sozialwëssenschaftler studéieren an operationaliséieren en theoreteschen Konstrukt heescht, proposéiert e Wee fir dat Konstrukt mat beobachtbare Daten ze erfassen. Leider ass dee einfache Klangprozess oft vill ze schwéier. Zum Beispill, loosse mer Iech viru probéieren den onbekannt einfache Schued empiresch ze testen, datt Leit, déi méi intelligent verdéngen méi Suen. Fir dës Ufro ze testen, musst Dir "Intelligenz" moossen. Awer ass Intelligenz? Gardner (2011) argumentéiert datt et eigentlech aacht a verschidde Formen vun der Intelligenz sinn. A si gi prozeduréiert Prozeduren, déi eng vun dësen Formen vun Intelligenz genau maachen ze moossen? Trotz enormen Zuel vu Aarbecht vun Psychologen hunn dës Froen nach ëmmer keng eindeutlech Äntwerten.

Also, souguer e relativ einfache Fanger - Leit, déi méi intelligent verdéngen méi Suen - kënne schwéier empiresch beurteelen, well et ka schwéier sinn, d'theoretesch Konstrukt vun Daten ze betreffen. Aner Beispiller vun theoreteschen Konstrukten, déi wichteg sinn, awer schwéier ze betreffen, gehéieren "Normen", "Sozialkapital" an "Demokratie". D'Sozialwëssenschaftler ruffen d'Match tëschent den theoreteschen Konstrukturen an der Datenkonstrukt Gültegkeet (Cronbach and Meehl 1955) . Wéi dës kuerz Lëscht vu Konstruken suggeréiert, d'Gëltegkeet ze bauen ass e Problem deen d'Sozialwëssenschaftler eng ganz laang Zäit gekämpft hunn. Mä a menger Erfahrung, d'Problemer vun der Gëltegkeet ze bauen sinn nach méi grouss wéi bei der Aarbecht mat Daten déi net fir d'Fuerschung (Lazer 2015) geschaaft hunn.

Wann Dir e Fuerschungsergebnis beurteelen, ass eng séier a nëtzlech Manéier fir d'Konstruktgëllechkeet ze beurteilen ass d'Resultat ze huelen, wat normalerweis a Konstruktiv ausgedréckt ass an et ausdrécklech ausgedréckt gëtt wat d'Donnéeë benotzt ginn. Zum Beispill fannt Dir zwou hypothetesch Studien, déi behaapten, datt Leit, déi méi intelligent ginn, méi Sue verdéngen. An der éischter Untersuchung hunn de Fuerscher festgestallt datt Leit, déi gutt am Raven Progressive Matrices Test ukomm sinn - e gutt studéiert Test vun analytescher Intelligenz (Carpenter, Just, and Shell 1990) - méi héich Berichterstattung op hir Steiererklärung. An der zweeter Studie hunn de Fuerscher festgestallt, datt Leit op Twitter, déi méi laang Wierder benotzt hunn, méi e wahrscheinlech Luxusmarken schwätzen. An deene béide Fäll hunn dës Fuerscher behaapt datt si weisen datt Leit, déi méi intelligent ginn, méi Sue verdéngen. Allerdings, an der éischter Etude sinn d'theoretesch Konstrukten gutt duerch d'Daten operéiert ginn, während an der zweeter si se net. Weider, wéi dëst Beispill illustréiert, méi Daten léisen automatesch Problemer mat der Gëltegkeet ze konstruéieren. Dir sollt d'Resultater vun der zweet Etude zweiflen, ob et eng Millioun Tweets, eng Milliardt Tweets oder eng Trillion Tweets betrëfft. Fir d'Fuerscher déi net vertraut mat der Iddi vu Gëltegkeet ze konstruéieren, gëtt d'Tabelle 2.2 verschidde Beispiller vu Studien, déi operativ aoretesch Konstrukt mat digitalen Spuerendaten operéiert hunn.

Table 2.2: Beispiller vu Digital Spuren, déi d'Theoretesch Konstrukturen operéiert hunn
Datenquelle Theoretesch Konstrukt Referenzen
Email Logbicher aus enger Universitéit (Meta-Daten) Sozialen Relatiounen Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Social Media Posten op Weibo Civic Engagement Zhang (2016)
Email Lëscht vu Firmen (Meta-Daten a komplette Text) Kulturell fit an enger Organisatioun Srivastava et al. (2017)

Obwuel d'Problem vun onvollstännegen Donnéeën fir d'Theoretesch Konstrukturen ze léisen ass zimlech schwéier ze léisen, ginn et vill gemeinsam Léisunge fir déi aner allgemeng Zorte vun Onkomplettheet: onkomplett demographesch Informatioune an onkomplize Informatioun iwwer Verhalen op anere Plattformen. Déi éischt Léisung ass fir Iech déi Daten ze sammelen déi Dir braucht; Ech soen Iech iwwer dat am Kapitel 3, wann ech Iech iwwer Ëmfroen soen. Déi zweet Haaptmoossnam ass fir ze maachen wat d'Datenwëssenschaftler d' Benotzer-Attribut-Inference nennen an d'Sozialwëssenschaftler d' Inputatioun nennen. An dëser Approche benotzen d'Fuerscher d'Informatioun, déi se op e puer Leit hu fir d'Attributioune vun anere Leit ze schafen. Eng drëtt Léisung ass d'Kombinatioun vu verschidde Datenquellen. Dëse Prozess gëtt heiansdo Rekordverbindung genannt . Mäi Lieblingsstudent fir dësen Prozess gouf vum Dunn (1946) an den éischten Paragraf vum éischte Papp geschriwwen, dee schonn op Rekordverknëppung geschriwwe gouf:

"Jiddereen op der Welt e Buch vum Liewen erënnert. Dëst Buch fänkt mat der Gebuert un mat dem Doud. Säin Säiten sinn aus de Rekorder vun de wichtegste Evenementer am Liewen. Record linkage ass den Numm deen de Prozess vun der Montage vun de Säiten vun dësem Buch an e Volume "ass."

Wéi Dunn dës Pass geschriwwen huet, huet hie sech virstellen datt d'Buch vum Liewen e wesentleche Liewensdauer wéi Gebuertsdeeg, Hochzäit, Scheedung a Doud huet. Awer elo, datt sou vill Informatiounen iwwer d'Leit opgeholl ginn ass, ass d'Buch vum Liewen e ganz onrefriddenen Porträt, wann déi verschidde Säiten (dh eis digitale Spuren) zesummen gebilt ginn. Dëst Buch vum Liewen kann eng grouss Ressource fir Fuerscher sinn. Mee, et kéint och als Datebank vu Ruin (Ohm 2010) , wat fir all Zorte onätzlech Zwecker benotzt ka ginn, wéi ech am Kapitel 6 (Ethik) beschreiwen.