Hindi mahalaga kung gaano kalaki ang iyong malaking data, marahil ay wala itong impormasyong gusto mo.
Karamihan sa mga malaking mapagkukunan ng data ay hindi kumpleto , sa diwa na wala silang impormasyon na iyong nais para sa iyong pananaliksik. Ito ay isang karaniwang tampok ng data na nilikha para sa mga layunin maliban sa pananaliksik. Maraming mga sosyal na siyentipiko ang nagkaroon ng karanasan sa pagharap sa hindi pagkumpleto, tulad ng isang kasalukuyang survey na hindi nagtanong sa tanong na kailangan. Sa kasamaang palad, ang mga problema ng hindi pagkumpleto ay malamang na maging mas matinding sa malaking data. Sa aking karanasan, ang malalaking data ay nawawala ang tatlong uri ng impormasyon na kapaki-pakinabang para sa panlipunang pananaliksik: demograpikong impormasyon tungkol sa mga kalahok, pag-uugali sa iba pang mga platform, at data sa pagpapatakbo ng mga teoretikal na construct.
Sa tatlong uri ng hindi pagkumpleto, ang problema ng hindi kumpletong data sa pagpapatakbo ng mga teoretikal na construct ay ang pinakamahirap na lutasin. At sa aking karanasan, kadalasan ay hindi sinasadya. Sa pahapyaw, manilay-nilay constructs ay abstract mga ideya na panlipunang siyentipiko-aral at operationalizing isang panteorya tayuan nangangahulugan pagpapanukala ng ilang mga paraan upang makuha ang na makagawa ng nakikitang mga data. Sa kasamaang palad, ang simpleng proseso ng tunog na ito ay kadalasang nagiging mahirap. Halimbawa, isipin nating sinusubukan ang empirikal na pagsubok sa tila simpleng pag-aangkin na ang mga taong mas marunong ay kumita ng mas maraming pera. Upang masubukan ang claim na ito, kakailanganin mong sukatin ang "katalinuhan." Ngunit ano ang katalinuhan? Gardner (2011) na may walong iba't ibang anyo ng katalinuhan. At may mga pamamaraan ba na maaaring tumpak na masukat ang alinman sa mga ganitong uri ng katalinuhan? Sa kabila ng napakalaking halaga ng trabaho ng mga sikolohista, ang mga tanong na ito ay wala pang mga hindi malinaw na mga sagot.
Kaya, kahit na isang medyo simple na claim-ang mga tao na mas matalinong kumikita ng mas maraming pera-ay maaaring mahirap masuri ang empirically dahil maaaring mahirap gamitin ang mga teoretikal na construct sa data. Ang iba pang mga halimbawa ng mga construct na teoretiko na mahalaga ngunit mahirap gamitin ay ang "mga pamantayan," "kapital na panlipunan," at "demokrasya." Ang mga siyentipiko ng panlipunan ay tumawag sa tugma sa pagitan ng mga teoretikal na konstruktura at pagkakabuo ng data ng katumpakan (Cronbach and Meehl 1955) . Habang nagmumungkahi ang maikli na listahan ng mga construct, ito ay isang problema na ang mga sosyal na siyentipiko ay nakipaglaban para sa isang mahabang panahon. Ngunit sa aking karanasan, ang mga problema ng pagtatayo ng pagiging wasto ay mas malaki pa kapag nagtatrabaho sa data na hindi nilikha para sa mga layunin ng pananaliksik (Lazer 2015) .
Kapag tinatasa mo ang isang resulta ng pananaliksik, ang isang mabilis at kapaki-pakinabang na paraan upang tasahin ang pagiging wasto ay upang makuha ang resulta, na karaniwang ipinahayag sa mga tuntunin ng mga construct, at muling ipahayag ito sa mga tuntunin ng data na ginamit. Halimbawa, isaalang-alang ang dalawang mga hypothetical na pag-aaral na nagsasabi na nagpapakita na ang mga taong mas marunong ay kumikita ng mas maraming pera. Sa unang pag-aaral, natuklasan ng researcher na ang mga tao na may mahusay na marka sa Raven Progressive Matrices Test-isang mahusay na pinag-aralan na pagsubok ng analytic intelligence (Carpenter, Just, and Shell 1990) -nagkakaroon ng mas mataas na natamo na kita sa kanilang mga tax return. Sa pangalawang pag-aaral, natuklasan ng researcher na ang mga tao sa Twitter na gumagamit ng mas mahabang salita ay mas malamang na banggitin ang mga tatak ng luho. Sa parehong mga kaso, maaaring matukoy ng mga mananaliksik na ipinakita nila na ang mga taong mas marunong ay kumita ng mas maraming pera. Gayunpaman, sa unang pag-aaral ang mga teoretikal na constructs ay mahusay na pagpapatakbo ng data, habang sa pangalawang sila ay hindi. Dagdag pa, tulad ng ipinakita sa halimbawang ito, mas maraming data ay hindi awtomatikong malulutas ang mga problema sa pagkakaroon ng bisa. Dapat mong duda ang mga resulta ng ikalawang pag-aaral kung ito ay kasangkot sa isang milyong tweet, isang bilyon tweet, o isang trilyon tweet. Para sa mga mananaliksik na hindi pamilyar sa ideya ng pagtatayo ng bisa, ang talahanayan 2.2 ay nagbibigay ng ilang mga halimbawa ng mga pag-aaral na nagpapatakbo ng mga construct ng teoretikal na gumagamit ng mga digital na data na bakas.
Pinanggalingan ng Datos | Ang teoretikal na pagtatayo | Mga sanggunian |
---|---|---|
Mga log ng email mula sa isang unibersidad (meta-data lamang) | Mga relasyon sa lipunan | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Mga post sa social media sa Weibo | Civic engagement | Zhang (2016) |
Mga log ng email mula sa isang firm (meta-data at kumpletong teksto) | Pagkakatugma sa kultura | Srivastava et al. (2017) |
Bagaman ang problema ng hindi kumpletong data para sa pagkuha ng mga teoretikal na constructs ay medyo mahirap malutas, may mga karaniwang solusyon sa iba pang mga karaniwang uri ng hindi kumpleto: hindi kumpletong demograpikong impormasyon at hindi kumpletong impormasyon sa pag-uugali sa iba pang mga platform. Ang unang solusyon ay ang aktwal na mangolekta ng data na kailangan mo; Sasabihin ko sa iyo ang tungkol sa na sa kabanata 3 kapag sinasabi ko sa iyo ang tungkol sa mga survey. Ang ikalawang pangunahing solusyon ay upang gawin kung ano ang data ng mga siyentipiko na tinatawag na user-attribute hinuha at mga social siyentipiko tawag pagpapalagay . Sa ganitong paraan, ginagamit ng mga mananaliksik ang impormasyon na mayroon sila sa ilang mga tao upang ipahiwatig ang mga katangian ng ibang tao. Ang ikatlong posibleng solusyon ay upang pagsamahin ang maramihang mga mapagkukunan ng data. Ang prosesong ito ay kung minsan ay tinatawag na linkage linkage . Ang aking paboritong talinghaga para sa prosesong ito ay isinulat ni Dunn (1946) sa unang talata ng unang papel na nakasulat sa tala ng rekord:
"Ang bawat tao sa mundo ay lumilikha ng isang Aklat ng Buhay. Ang Aklat na ito ay nagsisimula sa kapanganakan at nagtatapos sa kamatayan. Ang mga pahina nito ay binubuo ng mga talaan ng mga pangunahing kaganapan sa buhay. Ang pag-uugnay ng rekord ay ang pangalan na ibinigay sa proseso ng pag-assemble ng mga pahina ng aklat na ito sa isang volume. "
Nang isulat ni Dunn ang talatang iyon na siya ay nag-iisip na ang Aklat ng Buhay ay maaaring magsama ng mga pangunahing pangyayari sa buhay tulad ng kapanganakan, kasal, diborsyo, at kamatayan. Gayunpaman, ngayon na ang napakaraming impormasyon tungkol sa mga tao ay naitala, ang Aklat ng Buhay ay maaaring isang hindi kapani-paniwalang detalyadong larawan, kung ang mga magkakaibang mga pahina (ibig sabihin, ang aming mga digital na bakas) ay magkakasama. Ang Aklat na ito ng Buhay ay maaaring maging isang mahusay na mapagkukunan para sa mga mananaliksik. Subalit, maaari ding tawagin itong database ng pagkaguho (Ohm 2010) , na maaaring magamit para sa lahat ng mga uri ng mga hindi maayos na layunin, tulad ng ilalarawan ko sa kabanata 6 (Etika).