Pancacahan prasaja bisa menarik yen gabungan pitakonan apik karo data apik.
Senajan ditulis nganggo basa sing canggih, akeh panaliten sosial pancen mung ngétung bab. Ing umur data gedhe, panaliti bisa uga luwih akeh tinimbang sadurunge, nanging ora ateges padha kudu miwiti ngétung sacara ora sopan. Nanging, panaliti kudu takon: Apa samubarang sing perlu ditrima? Iki koyone kaya subyek sing subyektif, nanging ana sawetara pola umum.
Senadyan siswa motivasi panliten kasebut, kanthi ngendika: Aku bakal ngétung prakara sing durung tau ditrima. Contone, siswa bisa ngomong yen akeh wong wis sinau migran lan akeh wong sing sinau kembar, nanging ora ana sing wis sinau kembar migran. Ing pengalaman, strategi iki, sing aku sebut motivasi kanthi ora sengaja , ora biasane nyebabake riset apik. Motivasi kanthi anané kaya ngono yen ana bolongan sing ana ing kono, lan aku arep kerja keras kanggo ngisi. Nanging ora saben bolongan kudu diisi.
Tinimbang motivasi kanthi ora ana, aku mikir strategi sing luwih apik kanggo nggoleki pitakonan riset sing penting utawa menarik (utawa saenipun loro-lorone). Loro-lorone istilah kasebut rada mbebayani, nanging salah siji cara kanggo mikir babagan riset penting yaiku duwe sawetara dampak sing bisa diukur utawa feed dadi keputusan penting dening para pembuat kebijakan. Contone, ngukur tingkat pengangguran penting amarga iku minangka indikator ekonomi sing nyurung kaputusan kebijakan. Umumé, aku ngira yen peneliti duwe pangertèn sing apik babagan apa sing penting. Dadi, ing bagean liya, aku bakal menehi rong conto ing ngendi aku mikir penting. Ing saben kasus, para panaliti ora ngetung sacara ora sopan; Nanging, dheweke ngira-ngira setelan banget sing ngungkapake wawasan penting menyang gagasan umum bab babagan sistem sosial. Ing tembung liyane, akeh sing nyebabake latihan counting tartamtu sing menarik ora datane dhewe, iku asalé saka gagasan-gagasan sing luwih umum.
Siji conto kuwasa prasaja ngitung saka panaliten Henry Farber (2015) babagan prilaku sopir taksi New York City. Senajan klompok iki mbokmenawa ora sengaja, iku minangka situs riset strategis kanggo nguji rong teori saingan ing ékonomi buruh. Kanggo tujuan riset Farber, ana rong fitur penting babagan lingkungan kerja sopir taksi: (1) upah saben jam sing wis owah saka sedina-dina, adhedhasar sebagian faktor kaya cuaca, lan (2) jam kasebut karya bisa fluktuatif saben dina adhedhasar kaputusan. Fitur-fitur kasebut mimpin kanggo pitakonan sing menarik babagan hubungan antarane upah saben jam lan jam kerja. Model neoklasik ing ékonomi prédhiksi yèn dhèwèk-dhèwèk taksih bakal nggarap dina-dina sing duwé gaji sing luwih dhuwur saben jam. Utawa, model saka ekonomi prilaku ngira-ngira persis. Yen driver nyetel target target tartamtu-ngomong $ 100 saben dina-lan kerja nganti target ketemu, banjur pembalap bakal mungkasi jam luwih sithik ing dina sing padha entuk luwih. Umpamane, yen sampeyan minangka target sing entuk golèk, sampeyan bisa kerja nganti patang jam ing dina sing apik ($ 25 saben jam) lan limang jam ing dina sing ala ($ 20 saben jam). Mulane, apa sing dibutuhake para pembalap luwih akeh jam ing dina karo upah saben jam sing luwih dhuwur (kaya prediksi karo model neoklasik) utawa luwih jam ing dina karo upah saben jam sing luwih murah (kaya prediksi model perilaku perilaku)?
Kanggo njawab pitakonan iki Farber migunakake data ing saben trip taksi sing dijupuk dening New York City cabs saka 2009 nganti 2013, data sing saiki kasedhiya ing publik. Data kasebut - sing dikumpulake dening meter elektronik sing kutha mbutuhake taksi kanggo kalebu-kalebu informasi babagan saben trip: wektu wiwitan, lokasi wiwitan, wektu pungkasan, lokasi pungkasan, beya lan tip (yen tip wis dibayar karo kertu kredit) . Nggunakake data meter dhuwit iki, Farber nemokake yen akeh wong sing nyopir luwih akeh ing dina nalika upah luwih dhuwur, sejatine karo teori neoklasik.
Saliyane nemokake iki, Farber bisa nggunakake ukuran data kanggo pangerten sing luwih apik babagan heterogenitas lan dinamika. Dheweke nemokake yen, ing wektu sing luwih cepet, sopir anyar bakal mbudidaya nggarap luwih akeh jam dina dina-dina upah dhuwur (contone, dheweke sinau kanggo nindakake minangka prediksi model neoklasik). Lan pembalap anyar sing nduweni luwih kaya wong sing entuk tawaran luwih cenderung mandheg dadi sopir taksi. Loro-lorone penemuan sing luwih halus, sing mbantu nerangake prilaku sing diamati ing pembalap saiki, mung bisa dimupangatake amarga ukurane dataset. Dheweke ora bisa nemokake ing studi sadurunge sing nggunakake kertas trip kertas saka sawetara driver mendhoan kanthi wektu sing cendhak (Camerer et al. 1997) .
Studi Farber iku cedhak karo skenario paling apik kanggo riset nggunakake sumber data gedhe amarga data sing diklumpukake dening kutha padha cedhak karo data sing Farber wis diklumpukake (siji bédane yaiku Farber bakal pengin data ing total bayaran-ongkos kirim plus tips-nanging data kutha mung kalebu tips sing dibayar dening kertu kredit). Nanging, data dhewe ora cukup. Tombol kanggo riset Farber wis nggawa pitakonan sing menarik kanggo data, pitakonan sing nduweni implikasi luwih gedhe ngluwihi setelan khusus kasebut.
Conto liyane babagan perkiraan kasebut yaiku saka penelitian dening Gary King, Jennifer Pan, lan Molly Roberts (2013) ing sensor online dening pamaréntah Tiongkok. Nanging ing kasus iki, para peneliti kudu ngumpulake dhuwit sing gedhe dhewe lan kudu ngalahake kasunyatan sing datae ora lengkap.
Raja lan kolega didhukung dening fakta yen kiriman media sosial ing China ditindakake dening aparat negara gedhe banget sing dianggep kalebu puluhan ewu wong. Nanging, panaliti lan warga ora duwe pangerten carane sensor kasebut arep ngetrapake apa isi kasebut. Sarjana Cina kerep duwe harapan sing sengketa babagan jinis kiriman sing paling mungkin bakal dibusak. Sawetara nganggep manawa sensor kasebut fokus marang kiriman sing kritis saka negara, dene liyane mikirake yen fokus marang kiriman sing ndadekake prilaku bebarengan, kayata protes. Pikirane manawa ekspektasi iki bener nduweni implikasi carane para panaliti ngerteni China lan pamrentah liya sing nglakokake censorship. Mulane, Raja lan kolega pengin mbandhingake tulisan sing diterbitake lan banjur dibusak kanthi tulisan sing diterbitake lan ora tau dibusak.
Ngempalaken postingan iki melu ing engineering feat sange laying luwih saka 1,000 Chinese situs-saben media sosial karo kaca beda noto-nemokake kiriman sing cocog, lan banjur revisiting postingan iki kanggo ndeleng kang padha sawisé dibusak. Saliyane masalah engineering normal gadhah ukuran gedhe web-crawling, project iki wis tantangan ditambahaké sing perlu dadi arang banget cepet amarga akeh kiriman censored sing dijupuk mudhun kurang saka 24 jam. Ing tembung liyane, crawler alon bakal kantun persil saka kiriman sing padha censored. Salajengipun, ing CRAWLERS wis apa kabeh data iki nalika evading deteksi sedulur situs media sosial mblokir utawa digunakake ngganti kawicaksanan sing nanggepi sinau.
Ing nalika tugas teknik gedhé wis rampung, Raja lan kanca-kanca wis olèh kira-kira 11 yuta kiriman ing 85 topik prespecified sing beda, saben tingkat sensitivitas sing dianggep. Contone, topik sensitivitas dhuwur yaiku Ai Weiwei, seniman dissident; Topik sensitivitas tengah minangka penghargaan lan devaluasi mata uang Cina, lan topik sensitivitas sing kurang yaiku Piala Donya. Saka 11 yuta posting iki, kira-kira 2 yuta wis ditandhani. Luwih nggumunake, Raja lan kolega nemokake yen kiriman ing topik sing banget sensitif dicantol mung rada luwih asring tinimbang tulisan ing topik tengah lan kurang sensitivitas. Saliyane iku, censors Cina kira-kira minangka cenderung nyatet postingan sing nyathet Ai Weiwei minangka pos sing nyebutake Piala Donya. Temuan iki ora ndhukung ide sing nyatakake pamarentah kabeh posting ing topik sing sensitif.
Nanging, pratinjau prasaja saka tingkat censorship miturut topik bisa nyasarké, nanging. Contone, pamarentah bisa nyathet kiriman sing ndhukung Ai Weiwei, nanging ninggalake kiriman sing kritis marang dheweke. Kanggo mbedakake antarane kiriman kanthi luwih teliti, para peneliti kudu ngukur sentimen saben postingan. Sayange, senadyan akeh karya, cara otomatis deteksi sentimen otomatis kanthi nggunakake kamus sing wis ana saiki isih ora apik banget ing pirang-pirang situasi (mikir maneh masalah nggawe garis wektu emosional 11 September 2001 sing diterangake ing bagean 2.3.9). Mulane, Raja lan kolega mbutuhake cara kanggo menehi label marang 11 yuta postingan media sosial kayata: (1) kritis negara, (2) supportive negara, utawa (3) ora relevan utawa laporan faktual babagan acara. Iki kerep kaya pekerjaan gedhe-gedhe, nanging diselesaikan kanthi nggunakake trick kuat sing umum ing ilmu data nanging relatif langka ing ilmu sosial: sinau sinau ; deleng tokoh 2.5.
Kaping pisanan, ing langkah sing biasa disebut preprocessing , para peneliti ngowahi tulisan media sosial dadi matriks istilah-dokumen , ing ngendi ana siji baris kanggo saben dokumen lan siji kolom sing nyatakake yen tulisan kasebut ana tembung tartamtu (contone, protes utawa lalu lintas) . Sabanjure, klompok asisten riset kanthi tangan-labeled sentimen saka sampel kiriman. Banjur, dheweke nggunakake data label kanthi tangan kanggo nggawe model pembelajaran mesin sing bisa nyimpulake sentimen post miturut karakteristike. Akhire, dheweke nggunakake model iki kanggo ngetungake sentimen kabeh 11 yuta tulisan.
Mangkono, tinimbang kanthi maca lan nyithak 11 yuta tulisan kanthi manual - sing bisa mlebu logistically - Raja lan kolega kanthi manual dilebokaké jumlahe sawetara tulisan lan banjur digunakake sinau sinau kanggo ngira sentimen kabeh postingan. Sawise ngrampungake analisis iki, padha bisa nyimpulake yen, sing uga kaget, kemungkinan pos sing dibusak ora ana hubungane karo apa sing kritis karo negara utawa sing ndhukung negara.
Ing pungkasan, Raja lan kolega nemokake yen mung telung jinis posting sing dirawat kanthi rutin: pornografi, kritik saka sensor, lan potensial aksi bebarengan (misale, kamungkinan bakal nyebabake protes gedhe). Kanthi ngisi jumlahe akeh postingan sing dibusak lan postingan sing ora dibusak, Raja lan kanca-kanca bisa sinau babagan pengawas censors mung kanthi nonton lan ngitung. Salajengipun, antawisipun tema ingkang badhe kedados ing sedaya buku punika, pendekatan pembelajaran ingkang dipunaturaken ingkang dipunginakaken kangge ngasilaken jalinan hasil, lan mbangun model pembelajaran mesin kangge nyelehaken selang-ternyata dados umum ing riset sosial ing jaman digital . Sampeyan bakal weruh gambar sing meh padha karo tokoh 2.5 ing bab 3 (Pitakonan pitakon) lan 5 (Nggawe kolaborasi massa); iki minangka salah sawijining gagasan sawetara sing katon ing pirang-pirang bab.
Conto-conto iki-prilaku sing digunakake para pengemudi taksi ing New York lan perilaku sensus media sosial pamrentah Cina-nunjukake yen ngitung relatif prasaja saka sumber data gedhe bisa, ing sawetara situasi, nyebabake riset sing menarik lan penting. Nanging, ing loro-lorone kasus, peneliti kudu nggawa pitakonan sing menarik kanggo sumber data gedhe; data dhewe ora cukup.