[Sunting] , ] Algoritma ngandhut masalah karo Google Flu Trends. Maca kertas dening Lazer et al. (2014) , lan nulis email sing cendhak lan cetha kanggo insinyur ing Google njelasake masalah lan menehi saran babagan cara ndandani.
[Sunting] ] Bollen, Mao, and Zeng (2011) nyatakake yen data saka Twitter bisa digunakake kanggo nganakake pasar saham. Panemuan iki mimpin nyiptakake dana hedge-Derwent Capital Markets-kanggo nandur modal ing pasar saham miturut data sing dikumpulake saka Twitter (Jordan 2010) . Bukti apa sing arep sampeyan weruh sadurunge nglebokake dhuwit sampeyan?
[Sunting] ] Nalika sawetara advocate kesehatan umum nganggep e-rokok minangka bantuan efektif kanggo ngeculake rokok, liyane ngelingi risiko potensial, kayata tingkat nikotin sing dhuwur. Mbayangno yen panaliti mutusake sinau opini publik marang e-rokok kanthi ngoleksi tulisan Twitter terkait e-rokok lan nganakake analisis sentimen.
[Sunting] ] Ing November 2009, Twitter ngganti pitakonan ing kotak tweet saka "Apa sing sampeyan tindakake?" Menyang "Apa sing kedados?" (Https://blog.twitter.com/2009/whats-happening).
[Sunting] ] "Retweets" asring digunakake kanggo ngukur pengaruh lan panyebaran pangaruh ing Twitter. Ing wiwitan, para panganggo kudu nyalin lan nempelake tweet sing disenengi, menehi tandha panganggit asli karo panganggone, lan kanthi manual ketik "RT" sadurunge tweet kanggo nunjukake yen ana sing retweet. Ing taun 2009, Twitter nambahake "retweet". Ing sasi Juni 2016, Twitter nggawe panganggo bisa ngilangi tweets dhewe (https://twitter.com/twitter/status/742749353689780224). Apa sampeyan mangerteni babagan owah-owahan kasebut sampeyan kudu mangerteni carane sampeyan nggunakake "Ngundhuh" ing riset sampeyan? Apa utawa ora?
[Sunting] , , , ] Ing kertas sing dibahas, Michel lan kolega (2011) nganalisis isi luwih saka limang juta buku digital ing upaya kanggo ngenali tren budaya jangka panjang. Data sing digunakake saiki wis dirilis minangka dataset Google NGrams, lan supaya bisa migunakake data kanggo niru lan ngluwihi sawetara karya.
Ing salah sawijining asil ing kertas kasebut, Michel lan kanca-kancane nandheske yen kita luwih cepet lan luwih cepet. Kanggo taun tartamtu, ucapake "1883," padha ngitung proporsi 1-gram sing diterbitake saben taun antarane 1875 lan 1975 sing "1883". Padha nerangake yen proporsi iki minangka ukuran kapentingan ing acara sing kedadeyan ing taun iku. Ing angka 3A, dheweke nganggep lintasan panggunaan kanggo telung taun: 1883, 1910, lan 1950. Iki telung taun nuduhake pola sing umum: nggunakake cilik sadurunge taun sing, banjur lunjakan, banjur bosok. Sabanjure, kanggo ngétung tingkat pambusukan kanggo saben taun, Michel lan kanca-kanca ngétung "setengah-setengah" saben taun kanggo kabeh taun antarane 1875 lan 1975. Ing tokoh 3a (inset), padha nuduhake yen setengah saka saben taun wis mudun, lan padha nyatakake yen iki tegese kita nglalekake masa lalu luwih cepet lan luwih cepet. Dheweke nggunakake Versi 1 korpus basa Inggris, nanging salajengipun Google mbabarake versi kedua korpus. Mangga maca kabeh bagian pitakonan sadurunge sampeyan miwiti kode.
Kegiatan iki bakal menehi sampeyan praktik nulis kode sing bisa digunakaké, interpretasi asil, lan data wrangling (kayata nggarap file kikuk lan nangani data sing absah). Kegiatan iki uga bakal mbantu sampeyan munggah lan mlaku karo dhetik sing sugih lan menarik.
Njupuk data mentah saka situs web Google Books NGram Viewer. Utamané, sampeyan kudu nggunakake versi 2 korpus basa Inggris, sing dirilis tanggal 1 Juli 2012. Ora dikompres, berkas iki dadi 1.4GB.
Gawe ulang bagian utama saka tokoh 3a Michel et al. (2011) . Kanggo nggawé ulang gambar iki, sampeyan butuh rong file: sing diundhuh ing bagean (a) lan file "total count", sing bisa digunakake kanggo ngowahi jumlah mentah dadi proporsi. Elinga yen jumlah total file nduweni struktur sing mbebayani supaya bisa maca. Apa versi 2 saka data NGram ngasilake asil sing padha karo sing diwenehi ing Michel et al. (2011) , sing adhedhasar versi 1 data?
Saiki priksa grafik sampeyan marang grafik sing digawe dening NGram Viewer.
Nggawe gambar 3a (tokoh utama), nanging ngganti angka \(y\) -six dadi angka sing disebutake mentah (ora tingkat sebutan).
Apa prabédan antarane (b) lan (d) mimpin sampeyan kanggo ngevaluasi asil apa wae saka Michel et al. (2011). Apa utawa ora?
Saiki, kanthi nggunakake proporsi nyebutake, nompo inset angka 3a. Yaitu, kanggo saben taun antarane 1875 lan 1975, ngetung taun setengah saka taun kuwi. Saben urip ditetepake minangka nomer taun sing ngetokake sadurunge proporsi sebutan tekan setengah nilai puncak. Elinga yen Michel et al. (2011) nggawe luwih rumit kanggo ngira setengah-urip-ndeleng bagean III.6 saka Informasi Pendukung Online-nanging padha ngaku yen loro pendekatan ngasilake asil sing padha. Ora versi 2 saka data NGram gawé asil sing padha karo sing diwatesi dening Michel et al. (2011) , sing adhedhasar versi 1 data? (Petunjuk: Aja kaget yen ora.)
Apa ana taun-taun sing wis dilebokake kaya taun-taun sing dilalekake utamané cepet utawa utamané alon-alon? Sedhela spekulasi babagan kemungkinan alasan kanggo pola kasebut lan nerangake carane sampeyan nemokaké outliers.
Saiki ngasilake asil iki kanggo versi 2 saka data NGrams ing Tionghoa, Prancis, Jerman, Ibrani, Italia, Rusia lan Spanyol.
Mbandingaken sedaya basa, wonten ing taun-taun kadhangkala outliers, kayata taun sing dilalekake utamané cepet utawa utamané alon-alon? Sedhela spekulasi babagan kemungkinan alasan pola kasebut.
[Sunting] , , , ] Penney (2016) nelukake manawa publisitas sing nyebar babagan NSA / PRISM ndjogo (yaiku, wahyu Snowden) ing Juni 2013 digandhengake karo panangkepan sing cetha lan dadakan kanggo artikel Wikipedia babagan topik sing ningkatake keprihatinan privasi. Yen mangkono, owah-owahan ing prilaku iki bakal konsisten karo efek sing nyebabake saka panangkepan massa. Pendekatan Penney (2016) kadhangkala disebut desain seri wektu sing diselidiki, lan ana hubungane karo pendekatan sing diterangake ing bagean 2.4.3.
Kanggo milih tembung kunci topik, Penney nyebat daftar ingkang dipunginakaken dening Departemen Keamanan Tanah Air AS kanggé nglacak lan ngawasi media sosial. Dhaptar DHS dikategorikaké kategori katrangan tartamtu ing sawetara masalah, yakuwi "Health Concern," "Keamanan Infrastruktur," lan "Terorisme." Kanggo kelompok sinau, Penney migunakake 48 tembung kunci sing terkait karo "Terorisme" (waca tabel 8 ). Panjenenganipun banjur nggabungaken tampilan artikel Wikipedia miturut basis saben wulan kanggo 48 artikel Wikipedia liwat periode 32 sasi, wiwit awal Januari 2012 nganti akhir Agustus 2014. Kanggo nguatake argumen, dheweke uga nggawe sawetara kelompok perbandingan miturut pelacakan artikel babagan topik liyane.
Saiki, sampeyan bakal niru lan ngluwihi Penney (2016) . Kabeh data mentah sing sampeyan butuhake kanggo kegiatan iki kasedhiya saka Wikipedia. Utawa sampeyan bisa njaluk saka paket R-wikipediatrend (Meissner and R Core Team 2016) . Nalika nulis tanggapan sampeyan, wigati dicathet sumber data sing digunakake. (Elinga yen iki kegiatan sing padha uga katon ing bab 6.) Kegiatan iki bakal menehi latihan ing data wrangling lan pamikiran eksperimen alami ing sumber data gedhe. Sampeyan uga bisa nggawe sampeyan munggah lan mlaku kanthi sumber data sing menarik kanggo proyek mangsa ngarep.
[Sunting] ] Efrati (2016) dilapurake, adhedhasar informasi rahasia, sing "total sharing" ing Facebook wis nolak kira-kira 5,5% taun ing taun nalika "sharing siaran asli" ana 21% ing taun. Kurangé populasi iki utamané akut karo pangguna Facebook ing umur 30 taun. Laporan kasebut nyebabake penurunan saka rong faktor. Siji wutah ing nomer "kanca" wong ing Facebook. Liyane iku sawetara aktivitas enggo bareng wis pindah menyang olahpesen lan kanggo saingan kayata Snapchat. Laporan kasebut uga ngumumake taktik saperangan Facebook wis nyoba nggedhekake enggo bareng, kalebu tweak algoritma News Feed sing nggawe kiriman asli luwih penting, lan uga pangeling-elingan periodik saka kiriman asli kanthi fitur "On This Day". Apa implikasi, yen ana, apa panemon iki kanggo peneliti sing pengin nggunakake Facebook minangka sumber data?
[Sunting] ] Apa bedane antara sosiolog lan sejarawan? Miturut Goldthorpe (1991) , prabédan utama yaiku ngontrol pengumpulan data. Para sejarawan kepengin nggunakake relik, déné sosiolog bisa nyetel koleksi data kanggo tujuan tartamtu. Baca Goldthorpe (1991) . Kepiye carane beda antarane sosiologi lan sejarah sing gegandhèngan karo gagasan adat lan readymade?
[Sunting] ] Iki digawe ing quesiton sadurunge. Goldthorpe (1991) narik sawetara respon kritis, kayata siji saka Nicky Hart (1994) sing nyenengake pengabdian Goldthorpe kanggo nggawe data. Kanggo njlentrehake watesan potensial saka data sing digawe, Hart nyatakake Project Affluent Worker, survey gedhe kanggo ngukur hubungan antarane kelas sosial lan voting sing dianakake dening Goldthorpe lan kolega ing pertengahan 1960-an. Minangka salah sijine sing bisa nyana saka sarjana sing seneng ngolah data kanthi data sing ditemokake, Project Affluent Worker nglumpukake data sing disajikake kanggo ngatasi teori sing diusulake babagan masa depan kelas sosial ing era paningkatan standar urip. Nanging, Goldthorpe lan kanca-kanca piye wae "kelalen" kanggo ngumpulake informasi bab prilaku pemilihan wanita. Punika cara Nicky Hart (1994) ngringkes episode punika:
"... iku angel kanggo nyegah kesimpulan yen wanita diabaikan amarga iki 'nggawé digawe' détètèt sing dibatasi déning logika paradigmatic sing ora kalebu pengalaman wanita. Diterangake kanthi visi teoritis saka kesadaran kelas lan tumindak minangka preoccupations lanang ..., Goldthorpe lan kanca-kancane mbangun sakumpulan bukti empiris kang diwenehake lan ndayani asumsi teoretis dhewe tinimbang exposing menyang tes sah kecocesan. "
Hart nerusake:
"Temuan empiris saka Project Worker Affluent nyritakake luwih akeh babagan nilai-nilai masculin saka sosiologi pertengahan abad tinimbang ngandhakake proses stratifikasi, politik lan materi material."
Apa sampeyan bisa ngerteni conto liyane ing ngendi koleksi dhata digawe kanthi bias saka kolektor data sing dibangun? Carane ora bisa dibandhingake karo algoritma? Apa implikasi sing bisa kanggo nalika peneliti kudu nggunakake readymades lan nalika padha nggunakake custommades?
[Sunting] ] Ing bab iki, aku wis mbedakake data sing dikumpulake dening peneliti kanggo peneliti kanthi cathetan administratif sing digawe dening perusahaan lan pemerintah. Sawetara wong nyebut cathetan administratif iki "nemokake data," sing padha kontras karo "data sing dirancang." Pancen rekaman administratif ditemokake dening peneliti, nanging uga dirancang kanthi apik. Contone, perusahaan teknologi modern kerjo banget kanggo ngumpulake lan ngurus data. Mangkono, cathetan administratif iki ditemokake lan dirancang, mung gumantung saka perspektif panjenengan (gambar 2.12).
Nyedhiyani conto sumber data sing bisa dideleng minangka loro sing ditemokake lan dirancang nalika nggunakake sumber data kanggo riset.
[Sunting] ] Ing esei sing dipikir, Kristen Sandvig lan Eszter Hargittai (2015) nerbitake riset digital dadi rong kategori kanthi gumantung apa sistem digital minangka "instrumen" utawa "obyek sinau." Conto jinis pisanan-endi sistem kasebut sawijining instrumen yaiku riset Bengtsson lan kanca-kanca (2011) nggunakake data telpon seluler kanggo nglacak migrasi sawisé gempa bumi ing Haiti ing taun 2010. Conto jenis liya - ing ngendi sistem kasebut minangka obyek penelitian-diteliti dening Jensen (2007) babagan carane ngenalake telpon seluler ing saindhenging Kerala, India nyebabake fungsi pasar kanggo iwak. Aku nemokake perbedaan iki mbiyantu amarga njlentrehake yen studi nggunakake sumber data digital bisa duwe tujuan sing beda banget sanajan padha nggunakake sumber data sing padha. Kanggo luwih jelas katrangan kasebut, njelasake papat studi sing wis katon: loro sing nggunakake sistem digital minangka alat lan loro sing nggunakake sistem digital minangka obyek sinau. Sampeyan bisa nggunakake conto saka bab iki yen sampeyan pengin.