Cacah basajan bisa metot lamun ngagabung pertanyaan alus jeung data alus.
Sanajan eta kedal dina basa canggih-sounding, kavling panalungtikan sosial ieu bener euy cacah hal. Dina umur data badag, peneliti tiasa kaétang leuwih ti kantos, tapi anu henteu hartosna yén maranéhna ngan kudu ngamimitian cacah haphazardly. Gantina, peneliti kudu ménta: hal naon anu patut cacah? Ieu mungkin sigana kawas hiji masalah sagemblengna subjektif, tapi aya sababaraha pola umum.
Sering mahasiswa memotivasi panalungtikan cacah maranéhanana ku cara nyebutkeun: Kaula bade cacah hal anu henteu-salah Indonesia pernah diitung sateuacan. Contona, murid bisa disebutkeun yen loba jalma geus diajarkeun migran tur loba jalma geus diajarkeun kembar, tapi taya sahijieun geus diajarkeun kembar migran. Dina pangalaman kuring, strategi ieu, nu kuring nelepon motivasi ku henteuna, teu biasana ngabalukarkeun ieu panalungtikan alus. Motivasi ku henteuna téh jenis kawas nyebutkeun yen aya liang leuwih aya, sarta Kaula bade dianggo pisan teuas ngeusian eta up. Tapi teu unggal liang perlu dieusi.
Gantina motivating ku henteuna, Jigana strategi hadé téh néangan patarosan panalungtikan nu penting atawa metot (atawa ideally duanana). Duanana istilah ieu saeutik teuas keur ngartikeun, tapi salah sahiji cara mikir ngeunaan panalungtikan nu penting téh nya éta boga sababaraha dampak ukuran atawa eupan kana kaputusan penting ku makers kawijakan. Contona, ukur laju pangangguran penting sabab mangrupa indikator ékonomi nu drive kaputusan kawijakan. Sacara umum, Jigana eta peneliti boga rasa geulis hade naon penting. Ku kituna, dina sesa bagian ieu, Kaula bade nyadiakeun dua conto dimana Jigana cacah anu metot. Dina unggal hal, panalungtik teu cacah haphazardly; rada, maranéhanana cacah dina setélan pisan hususna anu kaungkap wawasan penting kana pamanggih umum ngeunaan kumaha sosial karya sistem. Dina basa sejen, loba naon ngajadikeun ieu latihan cacah tinangtu metot sanes data diri, eta asalna tina ieu pamanggih leuwih umum.
Hiji conto tina kakuatan basajan tina cacah asalna tina Henry Farber urang (2015) ulikan ngeunaan paripolah supir taksi New York City. Sanajan ieu grup bisa teu disada inherently menarik, éta situs ieu panalungtikan strategis pikeun nguji dua téori competing dina ékonomi kuli. Pikeun tujuan ieu panalungtikan Farber urang, aya dua ciri penting ngeunaan lingkungan karya drivers taksi: (1) upah hourly maranéhna fluctuates ti poé ka poé, dumasar dina bagian dina faktor kawas cuaca, sarta (2) Jumlah jam aranjeunna karya bisa turun naek unggal dinten dumasar kana kaputusan maranéhanana. fitur ieu ngakibatkeun hiji sual metot ngeunaan hubungan antara gajih hourly na jam digawé. model neoklasik dina ékonomi ngaduga yén drivers taksi bakal dianggo langkung lengkep ihwal poé dimana maranéhna boga gajih hourly luhur. Alternatipna, model ti ékonomi behavioral ngaduga persis sabalikna. Lamun supir nyetel panghasilan tinangtu target-nyebutkeun $ 100 per poé-jeung karya dugi target nu geus patepung, teras drivers bakal mungkas nepi gawe jam pangsaeutikna dina poé nu sipatna earning langkung. Contona, upami anjeun hiji earner target, Anjeun bisa ngeureunkeun nepi digawé opat jam dina dinten alus ($ 25 per jam) jeung lima jam dina dinten bad ($ 20 per jam). Ku kituna, ulah drivers dianggo leuwih jam dina dinten sareng gajih luhur hourly (sakumaha diprediksi ku model neoklasik) atawa leuwih jam dina dinten sareng gajih hourly handap (sakumaha diprediksi ku model ekonomi behavioral)?
Pikeun ngajawab sual ieu Farber diala data dina unggal lalampahan taksi dicokot ku cabs New York City ti 2009 nepi ka 2013, data anu kiwari aya masarakat awam. data-mana ieu anu dikumpulkeun ku méter éléktronik anu kotana butuh taksi ngagunakeun-ngawengku informasi ngeunaan unggal lalampahan: waktu ngamimitian, mimitian lokasi, waktos tungtung, lokasi tungtung, ongkos, sarta tip (lamun tip éta dibayar ku kartu kiridit) . Ngagunakeun taksi méteran data ieu, Farber kapanggih yén paling drivers dianggo langkung lengkep ihwal poé nalika gajih anu leuwih luhur, konsisten jeung téori neoklasik.
Salian Pananjung utama ieu, Farber éta bisa ngagunakeun ukuran tina data pikeun pamahaman hadé tina heterogeneity jeung dinamika. Anjeunna manggihan yén, ngaliwatan waktu, supir anyar laun diajar damel langkung jam dina dinten-upah tinggi (misalna maranéhna diajar kalakuanana salaku modél neoklasik prédiksi). Jeung drivers anyar anu kalakuanana leuwih kawas earners udagan nu leuwih gampang kaluar drivers taksi mahluk. Duanana ieu papanggihan leuwih halus, anu ngabantu ngajelaskeun kabiasaan observasi tina drivers ayeuna, éta ukur mungkin kusabab ukuran dataset nu. Maranéhanana teu mungkin pikeun ngadeteksi di studi saméméhna anu dipaké kertas lalampahan cadar ti sajumlah leutik drivers taksi liwat hiji periode pondok tina waktu (Camerer et al. 1997) .
Ulikan Farber urang éta nutup ka skenario-hal pangalusna pikeun panalungtikan ngagunakeun sumber data badag sabab data nya éta dikumpulkeun ku kotana nya éta geulis deukeut data anu Farber bakal geus dikumpulkeun (salah bédana éta Farber bakal gaduh data miharep dina total gajih-ongkosna tambah tips-tapi data kota wungkul kaasup tips dibayar ku kartu kiridit). Sanajan kitu, data nyalira éta teu cukup. Tombol panalungtikan Farber urang ieu bringing hiji sual metot kana data, pertanyaan anu boga implikasi gedé saluareun ngan netepkeun husus ieu.
Hiji conto kadua cacah hal asalna tina ieu panalungtikan ku Gary Raja, Jennifer Pan, sarta Molly Roberts (2013) dina carana ngawasan online ku pamaréntah Cina. Dina hal ieu kitu, peneliti kapaksa pikeun ngumpulkeun data badag sorangan jeung aranjeunna kapaksa nungkulan kanyataan yén data maranéhanana éta lengkep.
Raja sareng kolega Anjeun anu ngamotivasi ku kanyataan yén tulisan média sosial di Cina nu censored ku hiji aparat kaayaan pisan anu disangka kaasup puluhan rébu urang. Peneliti sarta warga, kumaha oge, kudu saeutik rasa sabaraha censors ieu mutuskeun naon eusi kudu dihapus. Sarjana Cina sabenerna boga ekspektasi conflicting ngeunaan nu rupa tulisan nu paling dipikaresep meunang dihapus. Sababaraha pikir nu censors difokuskeun tulisan anu kritis nagara, sedengkeun nu sejenna pikir nu aranjeunna difokuskeun tulisan anu ajak kabiasaan koléktif, kayaning protes. Figuring kaluar nu tina ekspektasi ieu bener boga implikasi keur kumaha peneliti ngartos Cina jeung pamaréntah otoriter séjén anu kalibet dina carana ngawasan. Kituna, Raja sareng kolega Anjeun hayang ngabandingkeun tulisan anu dikaluarkeun sarta salajengna dihapus mibanda tulisan nu dikaluarkeun sarta pernah dihapus.
Ngumpulkeun tulisan ieu aub dina rékayasa Sunda endah pisan tina Crawling leuwih ti 1.000 Cina situs web-unggal média sosial jeung kaca beda layouts-manggihan tulisan sasuai, terus revisiting tulisan ieu pikeun nempo nu éta salajengna dihapus. Sajaba masalah rékayasa normal patali jeung skala badag web-Crawling, proyék ieu geus tangtangan nu ditambahkeun nu diperlukeun pikeun jadi pisan gancang sabab loba tulisan censored nu dicokot turun dina waktu kurang ti 24 jam. Dina basa sejen, hiji Mapay slow bakal luput kavling tulisan nya éta censored. Salajengna, nu crawlers geus ngalakonan sagala kumpulan data ieu bari evading deteksi lest situs web média sosial meungpeuk aksés atawa disebutkeun ngarobah kawijakan maranéhanana di response ka pangajaran.
Ku waktos nu tugas rékayasa masif ieu geus réngsé, Raja sareng kolega Anjeun kungsi diala kira 11 juta tulisan on 85 jejer prespecified béda, masing-masing mibanda hiji tingkat dianggap tina sensitipitas. Contona, hiji topik sensitipitas tinggi nyaéta Ai Weiwei, artis dissident; a topik sensitipitas tengah mangrupakeun pangajén jeung perkara nurunkeun peunteunna duit tina mata uang Cina, sarta topik sensitipitas low teh Piala Dunya. Tina ieu 11 juta tulisan, ngeunaan 2 juta geus censored. Rada heran, Raja sareng kolega Anjeun manggihan yén tulisan dina jejer kacida sénsitip anu censored ngan rada leuwih sering ti tulisan on middle- sarta low-sensitipitas jejer. Dina basa sejen, censors Cina téh ngeunaan salaku kamungkinan sensor hiji pos nu nyebutkeun Ai Weiwei salaku pos nu nyebutkeun Piala Dunya. papanggihan ieu teu ngarojong pamanggih yén pamaréntah censors sakabeh tulisan dina jejer nu sensitip.
itungan basajan ieu rate carana ngawasan ku topik bisa jadi nyasabkeun salawasna. Contona, pamaréntah bisa sensor tulisan anu supportive of Ai Weiwei, tapi ninggalkeun tulisan anu kritis anjeunna. Dina raraga keur ngabedakeun antara tulisan leuwih taliti, panalungtik diperlukeun pikeun ngukur sentimen unggal pos. métode Hanjakal, sanajan loba gawe, pinuh otomatis tina beungeut sentimen ngagunakeun kamus pre-aya kénéh teu pohara alus dina loba kaayaan (pikir deui ka masalah nyieun hiji Kala emosi September 11, 2001 digambarkeun dina bagian 2.3.9). Kituna, Raja sareng kolega Anjeun diperlukeun cara pikeun labél 11 juta tulisan média sosial maranéhanana jadi mun naha maranéhna éta (1) kritis nagara, (2) supportive nagara, atanapi (3) laporan nyimpang atanapi faktual ngeunaan acara. Ieu hurung kawas pakasaban masif, tapi aranjeunna direngsekeun dinya maké trik kuat yén geus ilahar dina elmu data tapi relatif jarang di élmu sosial: diawasan learning; tingali inohong 2,5.
Kahiji, dina hambalan ilaharna disebut preprocessing, panalungtik dirobah dina tulisan média sosial kana matrix istilah-dokumen, dimana aya salah sahiji sakaligus pikeun tiap dokumen jeung hiji kolom nu dirékam naha pos nu ngandung hiji kecap husus (misalna, protés atawa lalulintas) . Salajengna, grup asisten panalungtikan leungeun-dilabélan nu sentimen tina sampel tulisan. Lajeng, aranjeunna dipaké data leungeun-dilabélan ieu nyieun modél pembelajaran mesin nu bisa infer nu sentimen of a pos dumasar kana ciri na. Tungtungna, aranjeunna dipaké modél ieu estimasi sentimen sadaya 11 juta tulisan.
Ku kituna, tinimbang maca sacara manual tur panyiri 11 juta tulisan-mana bakal logistically mungkin-Raja sareng kolega Anjeun sacara manual dilabélan sajumlah leutik tulisan lajeng dipaké diawasan learning to estimasi sentimen tina sagala tulisan. Sanggeus completing analisis ieu, maranéhanana éta bisa dicindekkeun yen, rada heran, kamungkinan pos a keur dihapus éta hubungan naha éta éta kritis kaayaan atawa supportive nagara.
Dina tungtungna, Raja sareng kolega Anjeun manggihan yén ngan tilu rupa tulisan anu rutin censored: pornografi, kritik censors, sarta maranéhanana anu miboga poténsi Peta koléktif (ie, kamungkinan ngarah kana protes badag skala). Ku observasi jumlah badag tulisan nya éta dihapus sarta tulisan anu teu dihapus, Raja sareng kolega Anjeun éta bisa diajar kumaha nu censors dianggo ngan ku nonton jeung cacah. Salajengna, foreshadowing tema nu baris lumangsung di sakuliah buku, pendekatan learning diawasan yén maranéhna dipaké-leungeun-panyiri sababaraha hasil lajeng ngawangun modél mesin learning jeung labél sesa-tétéla janten pisan umum dina panalungtikan sosial dina umur digital . Anjeun bakal ningali gambar pisan sarupa angka 2,5 dina bab 3 (nanyakeun patarosan) jeung 5 (Nyieun kolaborasi massa); ieu téh salah sahiji ti saeutik pamanggih nu nembongan di sababaraha bab.
conto-nu ieu kabiasaan digawé di drivers taksi di New York sarta kabiasaan média carana ngawasan sosial tina pamaréntah-acara Cina anu cacah kawilang basajan tina sumber data badag bisa, dina sababaraha kaayaan, ngakibatkeun panalungtikan metot sarta penting. Dina dua kasus kitu, peneliti kapaksa mawa patarosan metot kana sumber data badag; data ku sorangan teu cukup.