Simple pagbilang maaaring maging kawili-wiling kung pagsamahin mo ang isang mahusay na tanong na may mahusay na data.
Bagaman ito ay nakagawian sa sopistikadong wika na tunog, maraming pananaliksik sa lipunan ang talagang nagbibilang ng mga bagay. Sa edad ng malaking data, ang mga mananaliksik ay maaaring mabilang nang higit pa kaysa sa dati, ngunit hindi ito nangangahulugan na dapat lamang nilang simulan ang pagbibilang nang walang pagsala. Sa halip, ang mga mananaliksik ay dapat magtanong: Anong mga bagay ang nagkakahalaga ng pagbibilang? Ito ay maaaring mukhang tulad ng isang buong subjective bagay, ngunit may ilang mga pangkalahatang mga pattern.
Kadalasan ang mga mag-aaral ay nag-uudyok sa kanilang pananaliksik sa pagbilang sa pamamagitan ng pagsasabi: Magkakaroon ako ng bilang ng isang bagay na hindi pa nabibilang noon. Halimbawa, maaaring sabihin ng isang mag-aaral na maraming tao ang nag-aral ng mga migrante at maraming tao ang nag-aral ng mga kambal, ngunit walang pinag-aralan ang mga kambal na migrante. Sa aking karanasan, ang diskarte na ito, na tinatawag kong pagganyak sa pamamagitan ng pagkawala , ay hindi karaniwang humantong sa mahusay na pananaliksik. Ang pagganyak dahil sa pagkawala ay tulad ng pagsasabi na may isang butas sa banda roon, at ako ay magtrabaho nang napakahirap upang punan ito. Ngunit hindi kailangan ang bawat butas na mapunan.
Sa halip na motivating sa pamamagitan ng kawalan, sa tingin ko ang isang mas mahusay na diskarte ay upang tumingin para sa mga katanungan pananaliksik na mahalaga o kawili-wili (o sa isip pareho). Ang parehong mga termino ay medyo mahirap tukuyin, ngunit ang isang paraan upang mag-isip tungkol sa mahalagang pananaliksik ay ito ay may ilang masusukat na epekto o mga feed sa isang mahalagang desisyon ng mga gumagawa ng patakaran. Halimbawa, ang pagsukat ng rate ng pagkawala ng trabaho ay mahalaga dahil ito ay isang tagapagpahiwatig ng ekonomiya na nag-mamaneho ng mga pagpapasya sa patakaran. Sa pangkalahatan, sa tingin ko na ang mga mananaliksik ay may isang mahusay na kahulugan ng kung ano ang mahalaga. Kaya, sa natitirang bahagi ng seksyong ito, magkakaloob ako ng dalawang halimbawa kung saan sa palagay ko ay nakakaganyak ang pagbibilang. Sa bawat kaso, ang mga mananaliksik ay hindi nagbibilang nang walang pasubali; sa halip, sila ay nagbibilang sa mga partikular na setting na nagpahayag ng mahahalagang pananaw sa mas pangkalahatang mga ideya tungkol sa kung paano gumagana ang mga sistema ng panlipunan. Sa madaling salita, marami sa kung ano ang ginagawang kapansin-pansin ng mga partikular na pagsasanay na ito ay hindi ang data mismo, ito ay mula sa mas pangkalahatang mga ideya.
Ang isang halimbawa ng simpleng kapangyarihan ng pagbilang ay mula sa pag-aaral ni Henry Farber (2015) pag-uugali ng mga driver ng taxi sa New York City. Kahit na ang pangkat na ito ay hindi maaaring tunog kawili-wiling kawili-wili, ito ay isang strategic site na pananaliksik para sa pagsubok ng dalawang nakikipagkumpitensya teoryang sa economics ng manggagawa. Para sa mga layunin ng pananaliksik ni Farber, mayroong dalawang mahahalagang katangian tungkol sa kapaligiran ng trabaho ng mga drayber ng taxi: (1) ang kanilang oras-oras na sahod ay nagbabago araw-araw, batay sa bahagi sa mga kadahilanan tulad ng panahon, at (2) ang bilang ng mga oras na ito Maaaring magbago ang trabaho bawat araw batay sa kanilang mga desisyon. Ang mga tampok na ito ay humantong sa isang kawili-wiling tanong tungkol sa relasyon sa pagitan ng sahod na sahod at oras na nagtrabaho. Hinulaan ng mga modelo ng neoclassical sa ekonomiya na ang mga drayber ng taxi ay gagana pa sa mga araw kung saan may mas mataas na sahod kada oras. Bilang kahalili, ang mga modelo mula sa mga pang-ekonomiyang asal ay mahuhulaan nang eksakto. Kung ang mga drayber ay magtakda ng partikular na kita na kita-sabihin $ 100 bawat araw-at magtrabaho hanggang sa matugunan ang target na iyon, pagkatapos ay ang mga driver ay nagtatrabaho nang mas kaunting oras sa mga araw na sila ay nakakakuha ng higit pa. Halimbawa, kung ikaw ay isang target earner, maaari kang magtrabaho ng apat na oras sa isang magandang araw ($ 25 kada oras) at limang oras sa isang masamang araw ($ 20 kada oras). Kaya, ang mga drayber ba ay nagtatrabaho ng mas maraming oras sa mga araw na may mas mataas na sahod kada oras (tulad ng hinuhulaan ng mga neoclassical na mga modelo) o higit pang mga oras sa mga araw na may mas mababang sahod na sahod (tulad ng hinuhulaan ng mga modelo ng pang-asal na pang-asal)?
Upang masagot ang katanungang ito, nakuha ni Farber ang data sa bawat biyahe sa taksi na kinuha ng New York City cabs mula 2009 hanggang 2013, ang data na ngayon ay magagamit ng publiko. Ang data na ito-na kinokolekta ng mga electronic meter na hinihiling ng lungsod na magamit-isama ang impormasyon tungkol sa bawat biyahe: oras ng pagsisimula, lokasyon ng pagsisimula, oras ng pagtatapos, lokasyon ng pagtatapos, pamasahe, at tip (kung ang tip ay binayaran gamit ang isang credit card) . Gamit ang data meter meter na ito, nalaman ni Farber na ang karamihan sa mga drayber ay higit na gumagana sa mga araw kung ang sahod ay mas mataas, alinsunod sa teorya ng neoklasiko.
Bilang karagdagan sa pangunahing paghahanap na ito, nagamit ni Farber ang laki ng data para sa isang mas mahusay na pag-unawa sa heterogeneity at dynamics. Nalaman niya na, sa paglipas ng panahon, ang mga bagong driver ay unti-unti na natututong gumana ng mas maraming oras sa mga araw na mataas ang sahod (halimbawa, natututo silang kumilos bilang hinuhulaan ng neoclassical model). At ang mga bagong driver na kumilos nang mas katulad ng mga target na makakakuha ay mas malamang na huminto sa pagiging mga driver ng taxi. Pareho sa mga mas banayad na natuklasan, na tumutulong sa ipaliwanag ang naobserbahang pag-uugali ng kasalukuyang mga driver, ay posible lamang dahil sa sukat ng dataset. Imposibleng makita ang mga naunang pag-aaral na gumagamit ng mga papel trip sheet mula sa isang maliit na bilang ng mga driver ng taxi sa loob ng maikling panahon (Camerer et al. 1997) .
Ang pag-aaral ni Farber ay malapit sa isang sitwasyong pinakamahusay na kaso para sa isang pananaliksik na gumagamit ng isang malaking mapagkukunan ng data dahil ang data na kinokolekta ng lungsod ay medyo malapit sa data na kinuha ni Farber (isang pagkakaiba ay na gusto ni Farber ng data sa kabuuan sahod-pasahe plus mga tip-ngunit ang data ng lungsod ay kasama lamang ang mga tip na binabayaran ng credit card). Gayunpaman, ang data na nag-iisa ay hindi sapat. Ang susi sa pananaliksik ni Farber ay nagdadala ng isang kawili-wiling tanong sa data, isang tanong na may mas malaking implikasyon na lampas lamang sa tukoy na setting na ito.
Ang ikalawang halimbawa ng pagbilang ng mga bagay ay mula sa pananaliksik ni Gary King, Jennifer Pan, at Molly Roberts (2013) sa online censorship ng gobyerno ng China. Gayunpaman, sa ganitong kaso, ang mga mananaliksik ay kailangang mangolekta ng kanilang sariling malaking data at kinailangan nilang harapin ang katunayan na ang kanilang data ay hindi kumpleto.
Ang mga hari at mga kasamahan ay naudyukan ng katotohanan na ang mga post ng social media sa Tsina ay sinensiyahan ng isang napakalaking aparatong estado na naisip na kasama ang libu-libong tao. Gayunpaman, ang mga mananaliksik at mga mamamayan ay may kaunting pang-unawa sa kung paano magpasya ang mga censor kung anong nilalaman ang dapat tanggalin. Ang mga iskolar ng Tsina ay talagang may magkasalungat na mga inaasahan tungkol sa kung aling mga uri ng mga post ang pinaka-malamang na matanggal. Iniisip ng ilan na ang mga censor ay nakatuon sa mga post na kritikal sa estado, habang ang iba ay iniisip na tumutuon sila sa mga post na hinihikayat ang kolektibong pag-uugali, tulad ng mga protesta. Ang pag-uunawa kung aling mga inaasahan ang tama ay may mga implikasyon para sa kung paano naiintindihan ng mga mananaliksik ang Tsina at iba pang mga awtoritaryan na pamahalaan na nakikibahagi sa censorship. Samakatuwid, nais ng Hari at mga kasamahan na ihambing ang mga post na na-publish at pagkatapos ay tinanggal na sa mga post na na-publish at hindi kailanman tinanggal.
Pagkolekta ng mga posts kasangkot ang amazing engineering feat ng pag-crawl higit sa 1,000 Chinese social media website-bawat isa ay may iba't ibang mga layout ng pahina-paghahanap ng mga kaugnay na mga post, at pagkatapos ay revisiting ang mga post upang makita kung aling ay kasunod na tinanggal. Bilang karagdagan sa mga normal problema sa engineering na kaugnay sa malaking proporsyon web-pag-crawl, ang proyektong ito ay ang idinagdag na hamon na ito na kailangan upang maging lubhang mabilis dahil maraming censored post ay kinuha down sa mas mababa sa 24 na oras. Sa ibang salita, ang isang mabagal crawler makaligtaan ng maraming mga post na ay censored. Dagdag dito, ang mga crawler ay nagkaroon na gawin ang lahat ng ito sa pagkolekta ng data habang evading detection baka ang mga website social media harangan ang access o kung hindi man baguhin ang kanilang mga patakaran bilang tugon sa pag-aaral.
Nang makumpleto na ang napakalaking gawaing ito, ang King at mga kasamahan ay nakuha ang tungkol sa 11 milyong mga post sa 85 iba't ibang mga prespecified na paksa, ang bawat isa ay may isang assumed na antas ng pagiging sensitibo. Halimbawa, ang isang paksa ng mataas na sensitivity ay ang Ai Weiwei, ang dissident artist; ang isang paksa ng gitnang sensitivity ay pagpapahalaga at pagpapawalang halaga ng pera ng Intsik, at isang paksa ng mababang sensitivity ay ang World Cup. Sa mga 11 milyong post na ito, humigit-kumulang 2 milyon ang nasuri. Medyo kamangha-mangha, natagpuan ng Hari at mga kasamahan na ang mga post sa mga sensitibong paksa ay mas maliit lamang kaysa sa mga post sa mga paksa sa gitna at mababa ang sensitivity. Sa madaling salita, ang mga Chinese censor ay tungkol sa malamang na magsuri ng isang post na nagbabanggit ng Ai Weiwei bilang isang post na bumanggit sa World Cup. Ang mga natuklasan na ito ay hindi sumusuporta sa ideya na ang mga tagasulat ng pamahalaan ay lahat ng mga post sa mga sensitibong paksa.
Gayunpaman, ang simpleng pagkalkula ng rate ng pag-censor sa pamamagitan ng paksa ay maaaring maging nakaliligaw. Halimbawa, ang pamahalaan ay maaaring magsusulat ng mga post na sumusuporta sa Ai Weiwei, ngunit iwanan ang mga post na kritikal sa kanya. Upang mas makilala ang mga post sa mas maingat, kinakailangan ng mga mananaliksik upang sukatin ang kuru - kuro ng bawat post. Sa kasamaang palad, sa kabila ng maraming trabaho, ang ganap na automated na paraan ng pagtukoy ng kuru-kuro gamit ang mga pre-umiiral na mga diksyunaryo ay hindi pa masyadong magandang sa maraming mga sitwasyon (isipin ang mga problema sa paglikha ng emosyonal na timeline noong Setyembre 11, 2001 na inilarawan sa seksyon 2.3.9). Samakatuwid, ang King at mga kasamahan ay nangangailangan ng isang paraan upang lagyan ng label ang kanilang 11 milyong mga post sa social media kung sila ay (1) kritikal sa estado, (2) suportado ng estado, o (3) walang-kaugnayan o nababatay na mga ulat tungkol sa mga pangyayari. Ang tunog ay tulad ng isang napakalaking trabaho, ngunit nalutas nila ito gamit ang isang napakalakas na lansihin na karaniwan sa agham ng datos ngunit relatibong bihirang sa agham panlipunan: pinangangasiwaan ang pag-aaral ; tingnan ang pigura 2.5.
Una, sa isang hakbang na karaniwang tinatawag na preprocessing , pinalitan ng mga mananaliksik ang mga post sa social media sa isang matrix na termino ng dokumento , kung saan mayroong isang hilera para sa bawat dokumento at isang haligi na naka-record kung ang post ay naglalaman ng isang partikular na salita (halimbawa, protesta o trapiko) . Susunod, isang grupo ng mga assistant sa pananaliksik ang may label na sentimento ng isang halimbawang post. Pagkatapos, ginagamit nila ang data na ito sa kamay na may label na upang lumikha ng isang modelo ng pag-aaral ng machine na maaaring magpahiwatig ng kuru-kuro ng isang post batay sa mga katangian nito. Sa wakas, ginamit nila ang modelong ito upang tantyahin ang damdamin ng lahat ng 11 milyong mga post.
Kaya, sa halip na manu-mano ang pagbabasa at pag-label ng 11 milyong mga post-na magiging imposible sa logistically-Ang hari at mga kasamahan ay manu-manong nag-label ng isang maliit na bilang ng mga post at pagkatapos ay ginamit ang pinangangasiwaang pag-aaral upang tantiyahin ang damdamin ng lahat ng mga post. Matapos makumpleto ang pag-aaral na ito, nakapagtapos sila na, medyo nakakagulat, ang posibilidad ng isang post na tinanggal ay walang kaugnayan sa kung ito ay kritikal sa estado o suportado ng estado.
Sa huli, natuklasan ng Hari at mga kasamahan na tatlong uri lamang ng mga post ang regular na sinensiyahan: pornograpiya, pagpuna sa mga censor, at mga may potensyal na pagkilos sa pagkilos (ibig sabihin, ang posibilidad na humantong sa mga malalaking protesta). Sa pamamagitan ng pagmamasid sa isang malaking bilang ng mga post na tinanggal at mga post na hindi tinanggal, ang Hari at mga kasamahan ay nakapag-aral kung paano gumagana ang mga sensor sa pamamagitan lamang ng panonood at pagbibilang. Dagdag pa rito, ang pagbubunyag ng isang tema na magaganap sa buong aklat na ito, ang pinamamahalaang diskarte sa pag-aaral na ginamit nila-pag-label ng ilang mga kinalabasan at pagkatapos ay pagbuo ng isang modelo ng pag-aaral ng makina upang lagyan ng label ang natitira-ay nagiging karaniwan sa panlipunang pananaliksik sa digital age . Makakakita ka ng mga larawan na katulad ng figure 2.5 sa mga kabanata 3 (Pagtatanong) at 5 (Paglikha ng pakikipagtulungan ng masa); ito ay isa sa ilang mga ideya na lumilitaw sa maramihang mga kabanata.
Ang mga halimbawang ito-ang pag-uugali ng mga drayber ng taxi sa New York at ang pag-uugali ng social media censorship ng pamahalaan ng Tsina-ay nagpapakita na ang relatibong simpleng pagbilang ng mga malalaking pinagkukunan ng data ay maaaring, sa ilang mga sitwasyon, ay humantong sa kawili-wili at mahalagang pananaliksik. Gayunpaman, sa parehong mga kaso, ang mga mananaliksik ay dapat magdala ng mga kagiliw-giliw na katanungan sa malaking pinagmulan ng data; ang data mismo ay hindi sapat.