2.3.2.1 Incomplete

Gaano man "big" ang iyong "malaki data" ito marahil ay hindi may ang impormasyon na gusto mo.

Karamihan malaking pinagkukunan ng data ay hindi kumpleto, sa kamalayan na hindi sila magkaroon ng impormasyon na ikaw ay nais para sa iyong pananaliksik. Ito ay isang karaniwang tampok ng data na nalikha para sa mga layunin maliban sa pananaliksik. Maraming mga panlipunang siyentipiko na nagkaroon ng karanasan ng pagharap sa mga incompleteness, tulad ng isang umiiral na survey na hindi tanungin ang tanong na gusto mo. Sa kasamaang palad, ang mga problema ng incompleteness madalas na maging mas matinding sa malaking data. Sa aking karanasan, malaki data ay may gawi na maging nawawalang tatlong mga uri ng impormasyon na kapaki-pakinabang para sa mga social pananaliksik: demograpiko, pag-uugali sa iba pang mga platform, at ang data sa operationalize theoretical constructs.

Lahat ng tatlong mga paraan ng incompleteness ay isinalarawan sa isang pag-aaral sa pamamagitan ng Gueorgi Kossinets at Duncan Watts (2006) tungkol sa paglaki ng mga social network sa isang unibersidad. Kossinets at Watts na nagsimula sa mga logs email mula sa mga unibersidad, na may tumpak na impormasyon tungkol sa kung sino ay nagpadala ng mga email sa mga kanino sa kung anong oras (ang mga mananaliksik ay hindi magkaroon ng access sa mga nilalaman ng mga email). Ang mga email records tunog tulad ng isang kahanga-hangang dataset, ngunit, ang mga ito-sa kabila ng kanilang laki at granularity-sa panimula hindi kumpleto sila. Halimbawa, ang email logs huwag isama data tungkol sa mga demographic na mga katangian ng ang mag-aaral, tulad ng kasarian at edad. Dagdag dito, ang email logs ay hindi isama ang impormasyon tungkol sa komunikasyon sa pamamagitan ng ibang media, tulad ng mga tawag sa telepono, text message, o face-to-face-uusap. Sa wakas, ang email logs hindi direktang isama ang impormasyon tungkol sa mga relasyon, ang manilay-nilay constructs sa maraming mga umiiral na mga theories. Mamaya sa kabanata, kapag ako makipag-usap tungkol sa mga diskarte sa pananaliksik, makikita mo kung paano Kossinets at Watts lutasin ang mga problemang ito.

Of tatlong uri ng incompleteness, ang problema ng hindi kumpletong data sa operationalize theoretical constructs ay ang hardest upang malutas, at sa aking karanasan, ito ay madalas na hindi sinasadyang overlooked sa pamamagitan ng data siyentipiko. Sa pahapyaw, panteorya constructs ay abstract mga ideya na panlipunan siyentipiko pag-aaral, ngunit, sa kasamaang-palad, ang mga ito constructs hindi maaaring palaging unambiguously tinukoy at sinusukat. Halimbawa, sabihin isipin sinusubukan upang empirically pagsubok ang tila simple paghahabol na ang mga taong mas matalino kumita ng mas maraming pera. Upang subukan ang claim na ito ay kailangan mo upang masukat ang "katalinuhan." Ngunit, kung ano ang katalinuhan? Halimbawa, Gardner (2011) Nagtalo na may mga tunay na walong iba't ibang mga paraan ng katalinuhan. At, ang naroon pamamaraan na maaaring tumpak na masukat ang alinman sa mga paraan ng katalinuhan? Sa kabila ng napakalaking halaga ng trabaho sa pamamagitan ng psychologists, mga tanong na ito pa rin ay hindi magkaroon ng hindi malabo mga sagot. Kaya, kahit na isang medyo simpleng pag-angkin-tao na mas intelligent kumita ng mas maraming pera-ay maaaring maging mahirap upang masuri empirically dahil maaari itong maging mahirap upang operationalize theoretical constructs sa data. Iba pang mga halimbawa ng panteorya constructs na mahalaga ngunit mahirap na operationalize kasama ang "kaugalian," "social capital," at "demokrasya." Social siyentipiko tawagan ang tugma sa pagitan theoretical constructs at data tayuan bisa (Cronbach and Meehl 1955) . At, gaya ng listahan ng mga constructs nagmumungkahi, ay makagawa ng bisa ay isang problema na panlipunan siyentipiko ay may struggled sa para sa isang mahabang panahon, kahit na kapag sila ay nagtatrabaho sa mga data na nakolekta para sa layunin ng pananaliksik. Kapag nagtatrabaho sa data na nakolekta para sa mga layunin maliban sa pananaliksik, ang mga problema ng bisa tayuan ay kahit na mas mahirap (Lazer 2015) .

Kapag kayo ay nagbabasa ng isang research paper, isang mabilis at kapaki-pakinabang na paraan upang masuri alalahanin tungkol bisa tayuan ay upang gawin ang mga pangunahing pag-angkin sa papel, na kung saan ay karaniwang ipinahayag sa mga tuntunin ng constructs, at muling ipahayag ito sa mga tuntunin ng data na ginagamit. Halimbawa, isaalang-alang ang dalawang hypothetical pag-aaral na-claim upang ipakita na mas matalino mga tao na kumita ng mas maraming pera:

  • Study 1: mga tao na puntos na rin sa Raven Progressive Matrices Test-a well-aral pagsubok ng analytic intelligence (Carpenter, Just, and Shell 1990) -Magkaroon mas mataas iniulat kinikita sa kanilang tax return
  • Study 2: mga tao sa Twitter na ginagamit na mga salita ay mas malamang na banggitin tatak luxury

Sa parehong mga kaso, ang mga mananaliksik ay maaaring igiit na sila ay pinapakita na mas matalino mga tao na kumita ng mas maraming pera. Ngunit, sa unang pag-aaral ang manilay-nilay constructs ay well operationalized sa pamamagitan ng data, at sa ikalawang ang mga ito ay hindi. Dagdag dito, bilang halimbawa na ito ay naglalarawan, mas maraming data ay hindi awtomatikong malutas ang mga problema na may validity makagawa ng. Dapat mong pag-aalinlangan ang mga resulta ng mga Araling 2 kung ito kasangkot sa isang milyong mga tweet, isang bilyong tweet, o isang trilyon mga tweet. Para sa mga mananaliksik ay hindi pamilyar sa mga ideya ng bisa tayuan, Table 2.2 ay nagbibigay ng ilang mga halimbawa ng pag-aaral na operationalized theoretical constructs gamit ang digital data trace.

Table 2.2: Mga halimbawa ng mga digital traces na ginagamit bilang mga panukala ng mas mahirap unawain panteorya concepts. Social siyentipiko tumawag ito tugma tayuan bisa at ito ay isang malaking hamon sa paggamit ng malaking pinagkukunan ng data para sa mga social research (Lazer 2015) .
Digital trace theoretical tayuan banggit
email logs mula sa isang unibersidad (meta-data lamang) Social relasyon Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
post sa social media sa Weibo Civic engagement Zhang (2016)
logs email mula sa isang firm (meta-data at teksto) Cultural fit sa isang organisasyon Goldberg et al. (2015)

Kahit na ang problema ng hindi kumpletong data para operationalizing theoretical constructs ay medyo mahirap upang malutas, may tatlong karaniwang mga solusyon sa problema ng hindi kumpletong impormasyon demographic at hindi kumpletong impormasyon sa pag-uugali sa iba pang mga platform. Ang una ay upang aktwal na mangolekta ng mga data na kailangan mo; Kukunin ko sabihin sa iyo ang tungkol sa isang halimbawa ng na sa Kabanata 3 kapag ako sabihin sa iyo ang tungkol sa mga survey. Sa kasamaang palad, ang ganitong uri ng pagkolekta ng data ay hindi laging posible. Ang ikalawang pangunahing solusyon ay upang gawin kung ano ang data siyentipiko tumawag user-attribute pagkakilala at kung ano ang social siyentipiko tumawag bintang. Sa ganitong paraan, ang mga mananaliksik gamitin ang impormasyon na mayroon sila sa ilang mga tao upang ipahiwatig katangian ng ibang tao. Ang ikatlong posibleng solusyon-ang ginamit ni Kossinets at Watts-ay upang pagsamahin ang maramihang mga pinagmumulan ng data. Ang prosesong ito ay minsan ay tinatawag na merging o record linkage. Aking mga paboritong metapora para sa prosesong ito ay iminungkahi sa pinakadulo unang talata ng unang papel kailanman nakasulat sa record linkage (Dunn 1946) :

"Ang bawat tao sa mundo ay lumilikha ng isang Aklat ng Buhay. Aklat ay nagsisimula sa kapanganakan at nagtatapos sa kamatayan. mga pahina nito ay binubuo ng mga talaan ng prinsipyo mga kaganapan sa buhay. Record linkage ay ang pangalan na ibinigay sa ang proseso ng assembling ang mga pahina ng aklat na ito sa isang lakas ng tunog. "

Ang talatang ito ay isinulat noong 1946, at sa panahong yaon, ang mga tao ay nag-iisip na ang Aklat ng Buhay ay maaaring isama ang mga pangunahing kaganapan sa buhay tulad ng kapanganakan, kasal, diborsiyo, at kamatayan. Gayunpaman, ngayon na kaya magkano ang impormasyon tungkol sa mga tao ay naitala, sa Aklat ng Buhay ay maaaring maging isang hindi kapani-paniwalang detalyadong portrait, kung ang mga iba't ibang mga pahina (ibig sabihin, ang aming digital traces), ay maaaring nakatali magkasama. Ng Aklat ng Buhay ay maaaring maging isang mahusay na mapagkukunan para sa mga mananaliksik. Ngunit, sa Aklat ng Buhay ay maaaring ding tinatawag na isang database ng pagkawasak (Ohm 2010) , na kung saan ay maaaring gamitin para sa lahat ng mga uri ng mga unethical mga layunin, tulad ng inilarawan sa higit pa sa ibaba kapag ako makipag-usap tungkol sa mga sensitibong likas na katangian ng impormasyon na nakolekta sa pamamagitan ng malaking mga pinagkukunan ng data sa ibaba at sa Chapter 6 (Ethics).