Activities

  • degree saka kasulitan: gampang gampang , medium medium , hard hard , atos banget atos banget
  • mbutuhake math ( mbutuhake math )
  • mbutuhake kode ( mbutuhake kode )
  • koleksi data ( koleksi data )
  • Pendhaftaran favorit ( sandi favorit )
  1. [Sunting] medium , sandi favorit ] Algoritma ngandhut masalah karo Google Flu Trends. Maca kertas dening Lazer et al. (2014) , lan nulis email sing cendhak lan cetha kanggo insinyur ing Google njelasake masalah lan menehi saran babagan cara ndandani.

  2. [Sunting] medium ] Bollen, Mao, and Zeng (2011) nyatakake yen data saka Twitter bisa digunakake kanggo nganakake pasar saham. Panemuan iki mimpin nyiptakake dana hedge-Derwent Capital Markets-kanggo nandur modal ing pasar saham miturut data sing dikumpulake saka Twitter (Jordan 2010) . Bukti apa sing arep sampeyan weruh sadurunge nglebokake dhuwit sampeyan?

  3. [Sunting] gampang ] Nalika sawetara advocate kesehatan umum nganggep e-rokok minangka bantuan efektif kanggo ngeculake rokok, liyane ngelingi risiko potensial, kayata tingkat nikotin sing dhuwur. Mbayangno yen panaliti mutusake sinau opini publik marang e-rokok kanthi ngoleksi tulisan Twitter terkait e-rokok lan nganakake analisis sentimen.

    1. Apa telung kemungkinan bias sing paling kuwatir ing panliten iki?
    2. Clark et al. (2016) mung sinau. Pisanan, padha ngumpulake 850.000 tweets sing nggunakake tembung kunci sing gegandhengan karo e-rokok saka Januari 2012 nganti Desember 2014. Sakwise pamriksine nyedhaki, dheweke nyadari yen akeh tweets kasebut wis otomatis (ora digawe dening manungsa) lan akeh tweets otomatis iku ateges iklan. Padha gawe algoritma deteksi manungsa kanggo misahake tweets otomatis saka tweets organik. Nggunakake algoritma ndeteksi manungsa iki nemokake 80% tweets wis otomatis. Apa pitakonan iki ngganti jawaban kanggo bagean (a)?
    3. Nalika padha mbandhingake sentimen ing tweets organik lan otomatis, padha nemuake yen tweets otomatis luwih positif tinimbang tweets organik (6,17 versus 5,84). Apa pitakonan iki ngganti jawaban kanggo (b)?
  4. [Sunting] gampang ] Ing November 2009, Twitter ngganti pitakonan ing kotak tweet saka "Apa sing sampeyan tindakake?" Menyang "Apa sing kedados?" (Https://blog.twitter.com/2009/whats-happening).

    1. Apa sampeyan mikir bab owah-owahan sing bakal nimbulaké sapa sing ndelok lan / utawa apa sing dicolong?
    2. Sebutake siji proyek riset sing bakal sampeyan senengake pituduh "Apa sing sampeyan tindakake?" Nerangake ngapa.
    3. Sebutake siji proyek riset sing bakal sampeyan senengake pituduh "Apa sing kedadeyan?" Nerangake ngapa.
  5. [Sunting] gampang ] "Retweets" asring digunakake kanggo ngukur pengaruh lan panyebaran pangaruh ing Twitter. Ing wiwitan, para panganggo kudu nyalin lan nempelake tweet sing disenengi, menehi tandha panganggit asli karo panganggone, lan kanthi manual ketik "RT" sadurunge tweet kanggo nunjukake yen ana sing retweet. Ing taun 2009, Twitter nambahake "retweet". Ing sasi Juni 2016, Twitter nggawe panganggo bisa ngilangi tweets dhewe (https://twitter.com/twitter/status/742749353689780224). Apa sampeyan mangerteni babagan owah-owahan kasebut sampeyan kudu mangerteni carane sampeyan nggunakake "Ngundhuh" ing riset sampeyan? Apa utawa ora?

  6. [Sunting] atos banget , koleksi data , mbutuhake kode , sandi favorit ] Ing kertas sing dibahas, Michel lan kolega (2011) nganalisis isi luwih saka limang juta buku digital ing upaya kanggo ngenali tren budaya jangka panjang. Data sing digunakake saiki wis dirilis minangka dataset Google NGrams, lan supaya bisa migunakake data kanggo niru lan ngluwihi sawetara karya.

    Ing salah sawijining asil ing kertas kasebut, Michel lan kanca-kancane nandheske yen kita luwih cepet lan luwih cepet. Kanggo taun tartamtu, ucapake "1883," padha ngitung proporsi 1-gram sing diterbitake saben taun antarane 1875 lan 1975 sing "1883". Padha nerangake yen proporsi iki minangka ukuran kapentingan ing acara sing kedadeyan ing taun iku. Ing angka 3A, dheweke nganggep lintasan panggunaan kanggo telung taun: 1883, 1910, lan 1950. Iki telung taun nuduhake pola sing umum: nggunakake cilik sadurunge taun sing, banjur lunjakan, banjur bosok. Sabanjure, kanggo ngétung tingkat pambusukan kanggo saben taun, Michel lan kanca-kanca ngétung "setengah-setengah" saben taun kanggo kabeh taun antarane 1875 lan 1975. Ing tokoh 3a (inset), padha nuduhake yen setengah saka saben taun wis mudun, lan padha nyatakake yen iki tegese kita nglalekake masa lalu luwih cepet lan luwih cepet. Dheweke nggunakake Versi 1 korpus basa Inggris, nanging salajengipun Google mbabarake versi kedua korpus. Mangga maca kabeh bagian pitakonan sadurunge sampeyan miwiti kode.

    Kegiatan iki bakal menehi sampeyan praktik nulis kode sing bisa digunakaké, interpretasi asil, lan data wrangling (kayata nggarap file kikuk lan nangani data sing absah). Kegiatan iki uga bakal mbantu sampeyan munggah lan mlaku karo dhetik sing sugih lan menarik.

    1. Njupuk data mentah saka situs web Google Books NGram Viewer. Utamané, sampeyan kudu nggunakake versi 2 korpus basa Inggris, sing dirilis tanggal 1 Juli 2012. Ora dikompres, berkas iki dadi 1.4GB.

    2. Gawe ulang bagian utama saka tokoh 3a Michel et al. (2011) . Kanggo nggawé ulang gambar iki, sampeyan butuh rong file: sing diundhuh ing bagean (a) lan file "total count", sing bisa digunakake kanggo ngowahi jumlah mentah dadi proporsi. Elinga yen jumlah total file nduweni struktur sing mbebayani supaya bisa maca. Apa versi 2 saka data NGram ngasilake asil sing padha karo sing diwenehi ing Michel et al. (2011) , sing adhedhasar versi 1 data?

    3. Saiki priksa grafik sampeyan marang grafik sing digawe dening NGram Viewer.

    4. Nggawe gambar 3a (tokoh utama), nanging ngganti angka \(y\) -six dadi angka sing disebutake mentah (ora tingkat sebutan).

    5. Apa prabédan antarane (b) lan (d) mimpin sampeyan kanggo ngevaluasi asil apa wae saka Michel et al. (2011). Apa utawa ora?

    6. Saiki, kanthi nggunakake proporsi nyebutake, nompo inset angka 3a. Yaitu, kanggo saben taun antarane 1875 lan 1975, ngetung taun setengah saka taun kuwi. Saben urip ditetepake minangka nomer taun sing ngetokake sadurunge proporsi sebutan tekan setengah nilai puncak. Elinga yen Michel et al. (2011) nggawe luwih rumit kanggo ngira setengah-urip-ndeleng bagean III.6 saka Informasi Pendukung Online-nanging padha ngaku yen loro pendekatan ngasilake asil sing padha. Ora versi 2 saka data NGram gawé asil sing padha karo sing diwatesi dening Michel et al. (2011) , sing adhedhasar versi 1 data? (Petunjuk: Aja kaget yen ora.)

    7. Apa ana taun-taun sing wis dilebokake kaya taun-taun sing dilalekake utamané cepet utawa utamané alon-alon? Sedhela spekulasi babagan kemungkinan alasan kanggo pola kasebut lan nerangake carane sampeyan nemokaké outliers.

    8. Saiki ngasilake asil iki kanggo versi 2 saka data NGrams ing Tionghoa, Prancis, Jerman, Ibrani, Italia, Rusia lan Spanyol.

    9. Mbandingaken sedaya basa, wonten ing taun-taun kadhangkala outliers, kayata taun sing dilalekake utamané cepet utawa utamané alon-alon? Sedhela spekulasi babagan kemungkinan alasan pola kasebut.

  7. [Sunting] atos banget , koleksi data , mbutuhake kode , sandi favorit ] Penney (2016) nelukake manawa publisitas sing nyebar babagan NSA / PRISM ndjogo (yaiku, wahyu Snowden) ing Juni 2013 digandhengake karo panangkepan sing cetha lan dadakan kanggo artikel Wikipedia babagan topik sing ningkatake keprihatinan privasi. Yen mangkono, owah-owahan ing prilaku iki bakal konsisten karo efek sing nyebabake saka panangkepan massa. Pendekatan Penney (2016) kadhangkala disebut desain seri wektu sing diselidiki, lan ana hubungane karo pendekatan sing diterangake ing bagean 2.4.3.

    Kanggo milih tembung kunci topik, Penney nyebat daftar ingkang dipunginakaken dening Departemen Keamanan Tanah Air AS kanggé nglacak lan ngawasi media sosial. Dhaptar DHS dikategorikaké kategori katrangan tartamtu ing sawetara masalah, yakuwi "Health Concern," "Keamanan Infrastruktur," lan "Terorisme." Kanggo kelompok sinau, Penney migunakake 48 tembung kunci sing terkait karo "Terorisme" (waca tabel 8 ). Panjenenganipun banjur nggabungaken tampilan artikel Wikipedia miturut basis saben wulan kanggo 48 artikel Wikipedia liwat periode 32 sasi, wiwit awal Januari 2012 nganti akhir Agustus 2014. Kanggo nguatake argumen, dheweke uga nggawe sawetara kelompok perbandingan miturut pelacakan artikel babagan topik liyane.

    Saiki, sampeyan bakal niru lan ngluwihi Penney (2016) . Kabeh data mentah sing sampeyan butuhake kanggo kegiatan iki kasedhiya saka Wikipedia. Utawa sampeyan bisa njaluk saka paket R-wikipediatrend (Meissner and R Core Team 2016) . Nalika nulis tanggapan sampeyan, wigati dicathet sumber data sing digunakake. (Elinga yen iki kegiatan sing padha uga katon ing bab 6.) Kegiatan iki bakal menehi latihan ing data wrangling lan pamikiran eksperimen alami ing sumber data gedhe. Sampeyan uga bisa nggawe sampeyan munggah lan mlaku kanthi sumber data sing menarik kanggo proyek mangsa ngarep.

    1. Baca Penney (2016) lan niru gambar 2 sing nuduhake tampilan kaca kanggo kaca "Terorisme" sadurungé lan sawisé revelasi Snowden. Atur panemon.
    2. Sabanjure, tiru gambar 4A, sing mbandingake kelompok sinau ("Artikel Teroris") karo grup komparator nggunakake kata kunci sing dikategorikaké ing "DHS & Agensi Liyane" saka dhaptar DHS (pirsani tabel ing ngisor 10 lan cathetan 139). Atur panemon.
    3. Bagean (b) sampeyan mbandingake grup sinau karo siji grup komparator. Penney uga dibandhingake karo rong klompok komparator liyane: Artikel "Artikel Infrastruktur Keamanan" (lampiran tabel 11) lan kaca Wikipedia populer (tabel tabel 12). Numpuki grup komparator alternatif, lan nyoba manawa temuan saka bagean (b) sensitif karo pilihan saka grup komparator. Pilihan sing nggawe paling raos? Kenapa?
    4. Penney nyatakake yen tembung kunci sing ana hubungane karo "Terorisme" digunakake kanggo milih artikel Wikipedia amarga pemerintah Amerika nyebutake terrorism minangka sabdhoning kunci kanggo praktik pengawasan online. Minangka priksa saka tembung-tembung 48 "Terorisme", Penney (2016) uga nganakake survei ing MTurk, nyuwun responden kanggo ngetung saben tembung kunci ing istilah Masalah Pemerintah, Privasi-Sensitif, lan Ngelingke (lampiran tabel 7 lan 8 ). Replikasi survey ing MTurk lan mbandhingake asil sampeyan.
    5. Adhedhasar asil ing bagéan (d) lan maca artikel, kowe setuju karo pilihan tembung kunci Penney ing grup sinau? Apa utawa ora? Yen ora, apa sampeyan arep tinimbang?
  8. [Sunting] gampang ] Efrati (2016) dilapurake, adhedhasar informasi rahasia, sing "total sharing" ing Facebook wis nolak kira-kira 5,5% taun ing taun nalika "sharing siaran asli" ana 21% ing taun. Kurangé populasi iki utamané akut karo pangguna Facebook ing umur 30 taun. Laporan kasebut nyebabake penurunan saka rong faktor. Siji wutah ing nomer "kanca" wong ing Facebook. Liyane iku sawetara aktivitas enggo bareng wis pindah menyang olahpesen lan kanggo saingan kayata Snapchat. Laporan kasebut uga ngumumake taktik saperangan Facebook wis nyoba nggedhekake enggo bareng, kalebu tweak algoritma News Feed sing nggawe kiriman asli luwih penting, lan uga pangeling-elingan periodik saka kiriman asli kanthi fitur "On This Day". Apa implikasi, yen ana, apa panemon iki kanggo peneliti sing pengin nggunakake Facebook minangka sumber data?

  9. [Sunting] medium ] Apa bedane antara sosiolog lan sejarawan? Miturut Goldthorpe (1991) , prabédan utama yaiku ngontrol pengumpulan data. Para sejarawan kepengin nggunakake relik, déné sosiolog bisa nyetel koleksi data kanggo tujuan tartamtu. Baca Goldthorpe (1991) . Kepiye carane beda antarane sosiologi lan sejarah sing gegandhèngan karo gagasan adat lan readymade?

  10. [Sunting] hard ] Iki digawe ing quesiton sadurunge. Goldthorpe (1991) narik sawetara respon kritis, kayata siji saka Nicky Hart (1994) sing nyenengake pengabdian Goldthorpe kanggo nggawe data. Kanggo njlentrehake watesan potensial saka data sing digawe, Hart nyatakake Project Affluent Worker, survey gedhe kanggo ngukur hubungan antarane kelas sosial lan voting sing dianakake dening Goldthorpe lan kolega ing pertengahan 1960-an. Minangka salah sijine sing bisa nyana saka sarjana sing seneng ngolah data kanthi data sing ditemokake, Project Affluent Worker nglumpukake data sing disajikake kanggo ngatasi teori sing diusulake babagan masa depan kelas sosial ing era paningkatan standar urip. Nanging, Goldthorpe lan kanca-kanca piye wae "kelalen" kanggo ngumpulake informasi bab prilaku pemilihan wanita. Punika cara Nicky Hart (1994) ngringkes episode punika:

    "... iku angel kanggo nyegah kesimpulan yen wanita diabaikan amarga iki 'nggawé digawe' détètèt sing dibatasi déning logika paradigmatic sing ora kalebu pengalaman wanita. Diterangake kanthi visi teoritis saka kesadaran kelas lan tumindak minangka preoccupations lanang ..., Goldthorpe lan kanca-kancane mbangun sakumpulan bukti empiris kang diwenehake lan ndayani asumsi teoretis dhewe tinimbang exposing menyang tes sah kecocesan. "

    Hart nerusake:

    "Temuan empiris saka Project Worker Affluent nyritakake luwih akeh babagan nilai-nilai masculin saka sosiologi pertengahan abad tinimbang ngandhakake proses stratifikasi, politik lan materi material."

    Apa sampeyan bisa ngerteni conto liyane ing ngendi koleksi dhata digawe kanthi bias saka kolektor data sing dibangun? Carane ora bisa dibandhingake karo algoritma? Apa implikasi sing bisa kanggo nalika peneliti kudu nggunakake readymades lan nalika padha nggunakake custommades?

  11. [Sunting] medium ] Ing bab iki, aku wis mbedakake data sing dikumpulake dening peneliti kanggo peneliti kanthi cathetan administratif sing digawe dening perusahaan lan pemerintah. Sawetara wong nyebut cathetan administratif iki "nemokake data," sing padha kontras karo "data sing dirancang." Pancen rekaman administratif ditemokake dening peneliti, nanging uga dirancang kanthi apik. Contone, perusahaan teknologi modern kerjo banget kanggo ngumpulake lan ngurus data. Mangkono, cathetan administratif iki ditemokake lan dirancang, mung gumantung saka perspektif panjenengan (gambar 2.12).

    Gambar 2.12: Gambar loro yaiku bebek lan kelinci; apa sing sampeyan waca gumantung saka perspektif panjenengan. Sumber data sing gedhe ditemokake lan dirancang; maneh, apa sing sampeyan ndeleng gumantung saka perspektif panjenengan. Contone, cathetan data telpon sing dikumpulake dening perusahaan telpon seluler ditemokake data saka perspektif peneliti. Nanging, cathetan kasebut padha dirancang data saka perspektif saka wong sing makarya ing departemen penagihan perusahaan telpon. Sumber: Popular Science Monthly (1899) / Wikimedia Commons.

    Gambar 2.12: Gambar loro yaiku bebek lan kelinci; apa sing sampeyan waca gumantung saka perspektif panjenengan. Sumber data sing gedhe ditemokake lan dirancang; maneh, apa sing sampeyan ndeleng gumantung saka perspektif panjenengan. Contone, cathetan data telpon sing dikumpulake dening perusahaan telpon seluler ditemokake data saka perspektif peneliti. Nanging, cathetan kasebut padha dirancang data saka perspektif saka wong sing makarya ing departemen penagihan perusahaan telpon. Sumber: Popular Science Monthly (1899) / Wikimedia Commons .

    Nyedhiyani conto sumber data sing bisa dideleng minangka loro sing ditemokake lan dirancang nalika nggunakake sumber data kanggo riset.

  12. [Sunting] gampang ] Ing esei sing dipikir, Kristen Sandvig lan Eszter Hargittai (2015) nerbitake riset digital dadi rong kategori kanthi gumantung apa sistem digital minangka "instrumen" utawa "obyek sinau." Conto jinis pisanan-endi sistem kasebut sawijining instrumen yaiku riset Bengtsson lan kanca-kanca (2011) nggunakake data telpon seluler kanggo nglacak migrasi sawisé gempa bumi ing Haiti ing taun 2010. Conto jenis liya - ing ngendi sistem kasebut minangka obyek penelitian-diteliti dening Jensen (2007) babagan carane ngenalake telpon seluler ing saindhenging Kerala, India nyebabake fungsi pasar kanggo iwak. Aku nemokake perbedaan iki mbiyantu amarga njlentrehake yen studi nggunakake sumber data digital bisa duwe tujuan sing beda banget sanajan padha nggunakake sumber data sing padha. Kanggo luwih jelas katrangan kasebut, njelasake papat studi sing wis katon: loro sing nggunakake sistem digital minangka alat lan loro sing nggunakake sistem digital minangka obyek sinau. Sampeyan bisa nggunakake conto saka bab iki yen sampeyan pengin.