Neatkarīgi no tā, cik lieli ir jūsu lielie dati, iespējams, ka tai nav vajadzīgās informācijas.
Lielākā daļa lielo datu avotu ir nepilnīgi , tādā ziņā, ka viņiem nav informācijas, kuru jūs vēlaties savam pētījumam. Šī ir kopīga datu iezīme, kas tika izveidota citiem mērķiem, nevis pētījumiem. Daudziem sociālajiem zinātniekiem jau ir bijusi pieredze, kas saistīta ar nepilnībām, piemēram, esošs pētījums, kurā nav uzdots jautājums, kas bija nepieciešams. Diemžēl nepilnību problēmas lielākajos datos mēdz būt ārkārtīgākas. Pēc manas pieredzes lieliem datiem trūkst trīs veidu informācijas, kas būtu noderīga sociālajiem pētījumiem: demogrāfiskā informācija par dalībniekiem, uzvedība citās platformās un dati, lai izmantotu teorētiskos konstruktīvus.
No trim veidu nepilnībām, grūtāk atrisināt problēmu ar nepilnīgiem datiem, lai izmantotu teorētiskos konstruktus. Manā pieredzē bieži vien tiek nejauši ignorēti. Aptuveni teorētiskie konstrukti ir abstraktas idejas, ko sociālzinātnieki izpēta un praktiski pielieto teorētiskā konstruē, ir ierosināt kādu veidu, kā sagūstīt šo konstrukciju ar novērojamajiem datiem. Diemžēl šis vienkārši skanošais process bieži vien ir diezgan grūts. Piemēram, iedomāsimies mēģināt empīriski pārbaudīt acīmredzami vienkāršu apgalvojumu, ka cilvēki, kas ir daudz viedāki, pelna vairāk naudas. Lai pārbaudītu šo prasību, jums vajadzētu izmērīt "izlūkošanas". Bet kas ir izlūkdati? Gardner (2011) apgalvoja, ka patiesībā ir astoņi dažādi izlūkošanas veidi. Vai pastāv procedūras, kas varētu precīzi izmērīt jebkuru no šīm izlūkošanas formām? Neraugoties uz milzīgo psihologu darba apjomu, šajos jautājumos joprojām nav viennozīmīgu atbilžu.
Tādējādi pat relatīvi vienkāršs apgalvojums - cilvēki, kas ir daudz viedāki, nopelnīt vairāk naudas - var būt grūti novērtēt empīriski, jo var būt grūti praktiski izmantot datu teorētiskās konstrukcijas. Citus teorētisko konstruāciju piemērus, kas ir svarīgi, taču ir grūti īstenojami, ir "normas", "sociālais kapitāls" un "demokrātija". Sociālie zinātnieki sauc par atbilstību starp teorētiskiem konstruktīviem un datu konstrukcijas derīgumu (Cronbach and Meehl 1955) . Kā norāda šis īsais konstrukciju saraksts, konstrukcijas derīgums ir problēma, ar kuru sociologi jau sen ir cīnījušies. Bet, manuprāt, konstrukcijas derīguma problēmas ir vēl lielākas, strādājot ar datiem, kas netika izveidoti pētījumu nolūkos (Lazer 2015) .
Novērtējot izpētes rezultātu, viens ātrs un lietderīgs veids, kā novērtēt konstrukcijas derīgumu, ir iegūt rezultātu, kas parasti tiek izteikts konstruktu izteiksmē, un no jauna izteikt to izmantoto datu izteiksmē. Piemēram, apsveriet divus hipotētiskus pētījumus, kuri apgalvo, ka cilvēki, kas ir daudz viedāki, pelna vairāk naudas. Pirmajā pētījumā pētnieks atklāja, ka cilvēki, kuri labi novērtējuši Raven Progresīvās matricas testu - labi izpētīta analītiskā izlūkdatu pārbaude (Carpenter, Just, and Shell 1990) ir lielāki par viņu ienākumiem deklarēto nodokļu deklarāciju ziņā. Otrajā pētījumā pētnieks atklāja, ka čivināt lietotāji, kas izmantoja garākus vārdus, visticamāk pieminētu luksusa zīmolus. Abos gadījumos šie pētnieki varētu apgalvot, ka viņi ir parādījuši, ka cilvēki, kuri ir daudz viedāki, pelna vairāk naudas. Tomēr pirmajā pētījumā teorētiskie konstruktīvie dati tiek pareizi izmantoti, bet otrajā - tie nav. Turklāt, kā tas parādīts šajā piemērā, vairāk datu automātiski neatrisina problēmas ar konstrukcijas derīgumu. Jums vajadzētu apšaubīt otrā pētījuma rezultātus, vai tas ietver miljonu tweets, miljardu tweets vai triljonu tweets. Attiecībā uz pētniekiem, kas nav pazīstami ar ideju par konstrukcijas derīgumu, 2.2. Tabulā sniegti daži piemēri par pētījumiem, kuros izmantoti teorētiskie konstruējumi, izmantojot digitālos izsekošanas datus.
Datu avots | Teorētiskā konstrukcija | Atsauces |
---|---|---|
E-pasta žurnāli no universitātes (tikai metadatu dati) | Sociālās attiecības | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sociālo mediju ziņas Weibo | Pilsoniskā līdzdalība | Zhang (2016) |
Uzņēmuma e-pasta žurnāli (meta-dati un pilnīgs teksts) | Kultūras piemērošana organizācijā | Srivastava et al. (2017) |
Lai gan problēmu par nepilnīgiem datiem teorētisko konstrukciju iegūšanai ir grūti atrisināt, ir kopīgi risinājumi citiem bieži sastopamiem nepilnību veidiem: nepilnīga demogrāfiskā informācija un nepilnīga informācija par uzvedību citās platformās. Pirmais risinājums ir faktiski vākt nepieciešamos datus; Par to es jums saku 3. nodaļā, kad es jums saku par aptaujām. Otrais galvenais risinājums ir darīt to, ko zinātnieki dēvē par lietotāja atribūtu secinājumu un sociālos zinātniekus izsauc par aprēķinu . Izmantojot šo pieeju, pētnieki izmanto informāciju, kas viņiem ir pieejama dažiem cilvēkiem, lai noteiktu citu cilvēku atribūtus. Trešais iespējamais risinājums ir apvienot vairākus datu avotus. Šo procesu dažreiz sauc par ierakstu saikni . Mana mīļākā metafora šim procesam bija rakstījis Dunn (1946) pašā pirmajā rakstā, kurā vispirms rakstīts ieraksts:
"Katrs cilvēks visā pasaulē rada Dzīves grāmatu. Šī grāmata sākas ar dzemdībām un beidzas ar nāvi. Tās lapas veido ieraksti par galvenajiem dzīves notikumiem. Ierakstu saikne ir nosaukums, kas tiek dots šīs grāmatas lapu salikšanas procesā. "
Kad Dans rakstīja šo fragmenti, viņš iedomājās, ka Dzīvības Grāmatā varētu iekļūt nozīmīgākie dzīves notikumi, piemēram, dzimšana, laulība, laulības šķiršana un nāve. Tomēr tagad, kad tiek ierakstīta tik daudz informācijas par cilvēkiem, Dzīves grāmata var būt neticami detalizēts portrets, ja šīs dažādās lapas (ti, mūsu digitālās pēdas) var būt saistītas kopā. Šī Grāmata par dzīvi varētu būt lielisks pētnieku resurss. Bet to var arī saukt par bojāejas datu bāzi (Ohm 2010) , ko varētu izmantot visu veidu neētisku mērķu sasniegšanai, kā es to raksturojošu 6. nodaļā (Ētika).