2.3.2.1 Incomplete

Pa marrë parasysh se sa "të mëdha", "të dhënat e mëdha" tuaj ajo ndoshta nuk ka informatat që ju dëshironi.

Shumica e burimeve të mëdha të të dhënave nuk janë të plota, në kuptimin që ata nuk kanë informacionin që ju do të dëshironi për kërkimin tuaj. Ky është një tipar i përbashkët i të dhënave që janë krijuar për qëllime të ndryshme kërkimore. Shumë shkencëtarë socialë tashmë kanë pasur përvojë të ballafaqimit me të plotësisë, të tilla si një sondazhi ekzistuese që nuk pyesin pyetjen që ju të kërkuar. Fatkeqësisht, problemet e plotësisë priren të jenë më ekstreme në të dhënat e mëdha. Në përvojën time, të dhënat e madhe ka tendencë për të humbur tri lloje të informatave të dobishme për hulumtime sociale: demografike, sjelljen në platforma të tjera, dhe të dhënat për të operacionalizuar konstruktet teorike.

Të tre këto forma të plotësisë janë ilustruar në një studim nga Gueorgi Kossinets dhe Duncan Watts (2006) mbi evolucionin e rrjetit social në një universitet. Kossinets dhe Watts filloi me shkrimet e-mail nga universiteti, e cila kishte të dhëna të sakta në lidhje me të cilët ka dërguar email tek të cilët në atë kohë (studiuesit nuk kanë qasje në përmbajtjen e-mail). Këto shënime email tingëllojë si një CCD mahnitshme, por, ato janë, pavarësisht nga madhësia e tyre dhe granularity-krejtësisht i paplotë. Për shembull, shkrimet email nuk përfshijnë të dhëna mbi karakteristikat demografike të nxënësve, të tilla si gjinia dhe mosha. Për më tepër, shkrimet email nuk përfshijnë informacion në lidhje me komunikimin nëpërmjet mediave të tjera, të tilla si telefonata, mesazh me tekst ose ballë për ballë biseda. Në fund, shkrimet email nuk do të drejtpërdrejt të përfshijë informacion në lidhje me marrëdhëniet, konstruktet teorike në shumë teorive ekzistuese. Më vonë në kapitullin, kur flas për strategjitë e kërkimit, ju do të shihni se si Kossinets dhe Watts zgjidhur këto probleme.

Tre lloje të plotësisë, problemi i të dhënave jo të plota për të operacionalizuar konstruktet teorike është e vështirë për të zgjidhur, dhe në përvojën time, ajo është shpesh neglizhohet aksidentalisht nga shkencëtarët të dhënave. Afërsisht, konstruktet teorike janë ide abstrakte që shkencëtarët socialë studiojnë, por, për fat të keq, këto konstrukte nuk mund gjithmonë të përcaktohet qartë dhe të matur. Për shembull, le të imagjinojmë duke u përpjekur për të provuar empirikisht pretendimin duket e thjeshtë se njerëzit që janë më inteligjente fituar më shumë para. Për të testuar këtë kërkesë ju do të duhet për të matur "inteligjencës." Por, ajo që është inteligjenca? Për shembull, Gardner (2011) argumentoi se nuk janë në fakt tetë forma të ndryshme të inteligjencës. Dhe, a ka procedura që mund të masë me saktësi ndonjë nga këto forma të inteligjencës? Pavarësisht shumave të mëdha të punës nga ana e psikologëve, këto pyetje ende nuk kanë përgjigje të qarta. Kështu, edhe një relativisht të thjeshta kërkesa-njerëzit që janë më inteligjente të fitojnë më shumë para, mund të jetë e vështirë për të vlerësuar në mënyrë empirike, sepse ajo mund të jetë e vështirë për të operacionalizuar konstruktet teorike në të dhënat. Shembuj të tjerë të konstruktet teorike që janë të rëndësishme, por e vështirë për të operacionalizuar përfshijnë "normat", "kapitalit social," dhe "demokracinë". Sociologët e quajnë ndeshjen midis konstruktet teorike dhe vlefshmërinë e të dhënave në konstruksionin (Cronbach and Meehl 1955) . Dhe, pasi kjo listë e konstruktet sugjeron, të ndërtuar vlefshmëria është një problem që shkencëtarët socialë kanë luftuar me të për një kohë shumë të gjatë, edhe kur ata ishin duke punuar me të dhënat që janë mbledhur me qëllim të hulumtimit. Kur punon me të dhënat e mbledhura për qëllime të tjera përveç hulumtimit, problemet e validitetit ndërtues janë edhe më të vështirë (Lazer 2015) .

Kur jeni duke e lexuar një letër hulumtim, në një mënyrë të shpejtë dhe të dobishme për të vlerësuar shqetësimet rreth validitetit ndërtues është për të marrë kërkesën kryesor në letër, e cila është zakonisht e shprehur në termat e ndërton, dhe ri-shprehur atë në aspektin e të dhënave të përdorura. Për shembull, e konsiderojnë dy studime hipotetike që pretendojnë për të treguar se njerëzit më inteligjentë të fitojnë më shumë para:

  • Studimi 1: njerëzit që të shënuar edhe në Test-a Raven progresive matricave test i studiuar mirë e inteligjencës analitike (Carpenter, Just, and Shell 1990) -kanë të ardhura më të larta të raportuara në kthimin e tyre tatimore
  • Studimi 2: njerëzit në Twitter që kanë përdorur fjalët më të gjatë janë më të prirur për të përmendur markave luksoze

Në të dy rastet, studiuesit mund të pohojnë se ata kanë treguar se njerëzit më inteligjentë fitojnë më shumë para. Por, në studimin e parë ndërton teorike janë operacionalizuar edhe nga të dhënat, dhe në të dytën ata nuk janë. Më tej, pasi ky shembull ilustron, më shumë të dhëna nuk e zgjidh automatikisht problemet me validitetit ndërtues. Ju duhet të dyshojë rezultatet e Studimit 2 nëse është i përfshirë një milion cicërima, një miliardë cicërima, apo një trilion tweets. Për studiuesit nuk e njohin me idenë e validitetit ndërtues, Tabela 2.2 jep disa shembuj të studimeve që janë operacionalizuar konstruktet teorike duke përdorur të dhëna digjitale gjurmë.

Tabela 2.2: Shembuj të gjurmëve dixhitale që janë përdorur si masa e koncepte më abstrakte teorike. Sociologët e quajnë këtë vlefshmërinë ndeshje të ndërtuar dhe është një sfidë të madhe me përdorimin e burimeve të mëdha të të dhënave për hulumtime sociale (Lazer 2015) .
gjurmë Digital konstrukt teorik Citim
shkrimet email nga një universitet (meta-të dhënave vetëm) marrëdhëniet shoqërore Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
postimet e mediave sociale në Weibo angazhimi qytetar Zhang (2016)
shkrimet email nga një firmë (meta-të dhënave dhe tekst i plotë) përshtatje kulturore në një organizatë Goldberg et al. (2015)

Edhe pse problemi i të dhënave jo të plota për konstruktet Operacionalizimi teorike është shumë e vështirë për të zgjidhur, ka tre zgjidhje të përbashkëta për problemin e informacionit jo të plotë demografike dhe informacione jo të plota për sjelljen në platformat e tjera. E para është që në fakt të mbledhur të dhënat që ju nevojitet; Unë do të ju tregojë për një shembull të kësaj, në Kapitullin 3, kur unë po ju them në lidhje me sondazhet. Për fat të keq, ky lloj i mbledhjes së të dhënave nuk është gjithmonë e mundur. Zgjidhja e dytë kryesor është të bëni atë që shkencëtarët e quajnë të dhënave konkluzion user-atribut dhe atë që shkencëtarët socialë e quajnë fajësim. Në këtë qasje, hulumtuesit përdorin informacionin që ata kanë mbi disa njerëz të tregoj atributet e njerëzve të tjerë. E treta është e mundur zgjidhja, ajo e përdorur nga Kossinets dhe Watts, ishte për të kombinuar burime të shumta të të dhënave. Ky proces quhet nganjëherë bashkimi ose lidhje rekord. Metafora ime e preferuar për këtë proces është propozuar në paragrafin e parë të punimit të parë të shkruar ndonjëherë në lidhjen rekord (Dunn 1946) :

"Çdo person në botë krijon një libri i jetës. Ky libër fillon me lindjen dhe përfundon me vdekjen. Faqet e tij janë të përbërë nga të dhënat e ngjarjeve parim në jetë. lidhja Record është emri i dhënë në procesin e grumbulluar faqet e këtij libri në një vëllim. "

Ky pasazh është shkruar në vitin 1946, dhe në atë kohë, njerëzit kanë menduar se libri i jetës mund të përfshijë ngjarje të mëdha të jetës si lindje, martesa, divorci, dhe vdekja. Megjithatë, tani që aq shumë informacion në lidhje me njerëzit është regjistruar, libri i jetës mund të jetë një portret tepër të hollësishme, në qoftë se këto faqet e ndryshme (p.sh., gjurmët tona digjitale), mund të jenë të lidhur së bashku. Ky libër i jetës mund të jetë një burim i madh për studiuesit. Por, libri i jetës gjithashtu mund të quhet një bazë të dhënash të shkatërrimit (Ohm 2010) , e cila mund të përdoret për të gjitha llojet e qëllime jo etike, siç është përshkruar më poshtë, kur unë flas për natyrën e ndjeshme të informacionit të mbledhur nga burime të mëdha të të dhënave më poshtë dhe në kapitullin 6 (etikës).