Activities

Key:

  • kangélan: gampang gampang , medium medium , hard hard , Banget hard banget hard
  • mbutuhake math ( mbutuhake math )
  • mbutuhake werna ( mbutuhake werna )
  • koleksi data ( koleksi data )
  • favorit ( favorit )
  1. [ medium , favorit ] Confounding algoritma masalah karo Google Flu Trends. Maca kertas dening Lazer et al. (2014) , lan nulis, email cetha cendhak kanggo insinyur ing Google penjelasan masalah lan aturan lan idea saka carane ndandani masalah.

  2. [ medium ] Bollen, Mao, and Zeng (2011) claims sing data saka Twitter bisa digunakake kanggo mrédhiksi pasar Simpenan. Finding mimpin nitahaken saka pager dana-Derwent Capital Markets-kanggo nandur modal ing pasar saham didhasaraké data saka Twitter (Jordan 2010) . Apa bukti bakal pengin ndeleng sadurunge panggolekan dhuwit ing dana sing?

  3. [ gampang ] Nalika sawetara penasehat ukum kesehatan masyarakat becik e-udhut minangka sepindah efektif kanggo nglereni ontran-udud, wong ngelekake bab risiko potensial, kayata-tingkat dhuwur saka nikotin. Mbayangno sing peneliti nemtokaken kanggo sinau karo masyarakat marang e-udhut dening ngempalaken e-udhut-related Twitter kiriman lan nganakake analisis sentimen.

    1. Apa sing telung biases bisa sing paling kuwatir bab ing panaliten iki?
    2. Clark et al. (2016) mlayu mung sinau kuwi. Kawitan, padha diklumpukake 850,000 tweets sing digunakake keywords-e-rokok related saka Januari 2012 liwat Desember 2014. Senadyan nyedhaki pengawasan, padha temen maujud sing akeh tweets iki padha otomatis (IE, ora diprodhuksi dening manungsa) lan akeh iki tweets otomatis padha ateges Komersial. Padha dikembangaké Algoritma Deteksi Human kanggo misahake tweets otomatis saka tweets organik. Nggunakake Human iki Ndeteksi Algoritma padha ketemu sing 80% saka tweets padha otomatis. Ora Finding ngganti jawaban kanggo part (a)?
    3. Nalika padha dibandhingake sentimen ing tweets Organic lan otomatis padha ketemu sing tweets otomatis luwih positif saka tweets organik (6.17 mungsuh 5.84). Ora Finding ngganti jawaban kanggo (b)?
  4. [ gampang ] Ing November 2009, Twitter diganti pitakonan ing kothak tweet saka "Apa sing mengkono?" Kanggo "Apa kedados?" (Https://blog.twitter.com/2009/whats-happening).

    1. Apa kang mikir owah-owahan njedul bakal mengaruhi sing tweet lan / utawa apa padha tweet?
    2. Jeneng project riset siji sing bakal seneng pituduh "Apa sing mengkono?" Nerangake apa.
    3. Jeneng project riset siji sing bakal seneng pituduh "Apa kedados?" Nerangake apa.
  5. [ medium ] Kwak et al. (2010) analisa 41.7 yuta profil panganggo, 1.47 milyar hubungan sosial, 4262 Insightful trending, lan 106 yuta tweets antarane 6 Juni lan 31 Juni 2009. Adhedhasar analisis iki padha rampung sing Twitter serves liyane minangka medium anyar Alexa nuduhake saka jaringan sosial.

    1. Ngelingi nemokake Kwak et al kang, apa jinis riset bakal apa karo data Twitter? Apa sing riset bakal ora karo data Twitter? Apa?
    2. Ing 2010, ditambahake Twitter a Sapa Kanggo Follow layanan nggawe saran ngarang kanggo kedhaftar. Telung Rekomendasi sing ditampilake ing wektu ing kaca utama. Rekomendasi sing asring digambar saka siji "kanca-of-kanca," lan Teknologi kontak sing uga ditampilake ing rujukan. Pangguna bisa refresh kanggo ndeleng pesawat anyar Rekomendasi utawa ngunjungi kaca karo dhaftar maneh saka Rekomendasi. Aja mikir fitur anyar iki bakal ngganti jawaban kanggo bagean)? Apa utawa kok ora?
    3. Su, Sharma, and Goel (2016) mandhiri efek saka Sapa Kanggo Follow layanan lan ketemu sing nalika kedhaftar tengen popularitas spektrum kauntungan saka Rekomendasi, kedhaftar paling populer Malah mesti luwih saka rata-rata. Ora Finding ngganti jawaban kanggo part b)? Apa utawa kok ora?
  6. [ gampang ] "Retweets" asring digunakake kanggo ngukur pengaruh lan nyebar saka pengaruh ing Twitter. Kaping pisanan, kedhaftar kanggo nyalin lan nempel ing tweet padha disenengi, tag penulis asli karo kang / nangani dheweke, lan kanthi manual ngetik "RT" sadurunge tweet kanggo nunjukaké sing iku retweet a. Banjur, ing 2009 Twitter ditambahaké "pRT" tombol. Ing wulan Juni 2016, Twitter digawe iku bisa kanggo kedhaftar kanggo pRT tweets dhewe (https://twitter.com/twitter/status/742749353689780224). Aja mikir owah-owahan kudu mengaruhi cara sampeyan nggunakake "retweet" ing riset? Apa utawa kok ora?

  7. [ medium , koleksi data , mbutuhake werna ] Michel et al. (2011) dibangun corpus berkembang saka gaweyan Google kanggo olèhé digitalisasi berkas buku. Nggunakake versi pisanan ing corpus, kang diterbitake ing 2009 lan sing liwat 5 yuta buku digitized, penulis analisa tembung frekuensi panggunaan kanggo neliti owah-owahan linguistik lan tren budaya. Rauh Google Books Corpus dadi sumber data populer kanggo peneliti, lan versi 2 database iki dirilis ing 2012.

    Nanging, Pechenick, Danforth, and Dodds (2015) sing dielingake peneliti kudu kanthi ciri proses sampling corpus sadurunge nggunakake kanggo drawing Serat amba. Jeksa Agung bisa ngetokake utama iku corpus iku perpustakaan-kaya, ngemot siji saka saben buku. Akibaté, individu, penulis kang produktif bisa noticeably masang phrases anyar menyang lexicon Google Books. Menapa malih, teks ngelmu akehe bagean saya intine saka corpus ing saindhenging taun 1900-an. Kajaba iku, dening mbandingaken loro versi sekumpulan data Fiction Inggris, Pechenick et al. bukti ketemu sing boten cecek nyaring iki digunakake ing prodhuksi versi pisanan. Kabeh saka data needed kanggo kegiatan kasedhiya kene: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Ing Michel et al. Kang kertas asli (2011) , padha digunakake ing versi 1st saka data pesawat Inggris, sekuthon frekuensi panggunaan saka taun "1880", "1912" lan "1973", lan nyimpulaké yèn, "kita dilalekake kita liwat luwih cepet karo saben taun maringaken "(Fig. 3A, Michel et al.). Nurun plot padha nggunakake 1) versi 1st corpus, perlengkapan data Inggris (padha Fig. 3A, Michel et al.)
    2. Saiki nurun plot padha karo versi 1st, perlengkapan data fiction Inggris.
    3. Saiki nurun plot padha karo versi 2 corpus, perlengkapan data Inggris.
    4. Akhire, nurun plot padha karo versi 2, perlengkapan data fiction Inggris.
    5. Njlèntrèhaké beda lan podho antarane papat ngrugekake iki. Kowe setuju karo Michel et al. Kang interpretasi asli saka gaya diamati? (Petunjuk: c) lan d) sing arep padha minangka tokoh 16 ing Pechenick et al).
    6. Saiki sing wis replicated nemokake siji iki nggunakake beda Google Books corpora, milih pangowahan liyane linguistik utawa fénoména kabudayan presented ing Michel et al. Kang kertas asli. Kowe setuju karo interpretasi ing cahya saka watesan presented ing Pechenick et al.? Kanggo nggawe pitakonan Panjenengan kuwat, nyoba nurun graph padha nggunakake versi beda saka data disetel minangka ndhuwur.
  8. [ banget hard , koleksi data , mbutuhake werna , favorit ] Penney (2016) nylidiki apa woro nyebar bab NSA / prisma ndjogo (IE, Revelations Snowden) ing Juni 2013 punika gadhah nyuda cetha lan dumadakan ing lalu lintas menyang artikel Wikipedia ing topik-topik sing mundhakaken uneg-uneg privasi. Yèn mangkono, owah-owahan iki ing prilaku bakal konsisten karo efek chilling asil saka massa ndjogo. Pendekatan Penney (2016) iki kadhangkala disebut desain wektu seri diselani lan gegandhengan karo cedhak ing bab babagan approximating nyobi saka data pangamatan (Section 2.4.3).

    Kanggo milih keywords topik, Penney diarani dhaftar digunakake dening US Department of kelairan Keamanan kanggo nelusuri lan ngawasi media sosial. Dhaptar DHS Kategori digoleki tartamtu menyang sawetara masalah, ie "Concern Health," "Infrastructure Keamanan," lan "Terorisme." Kanggo sinau kelompok, Penney digunakake ing patang puluh wolu keywords related to "Terorisme" (ndeleng Tabel 8 Lampiran). Banjur dikumpulke Wikipedia article view counts ing basis saben wulan kanggo patang puluh wolu artikel Wikipedia sing cocog liwat periode telung puluh loro sasi, saka awal Januari 2012 kanggo mburi Agustus 2014. Kanggo ngiyataken pitakonan kang, uga digawe sawetara comparison kelompok dening nelusuri views artikel ing topik liya.

    Saiki, sing arep kanggo nurun lan ngluwihi Penney (2016) . Kabeh data mentah sing kudu kanggo kegiatan iki kasedhiya saka Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Utawa sampeyan bisa njaluk iku saka wikipediatrend paket R (Meissner and Team 2016) . Nalika nulis-munggah respon Panjenengan, please Wigati data kang sumber sing digunakake. (Note: kegiatan padha uga katon ing Bab 6)

    1. Maca Penney (2016) lan nurun Figure 2 kang nuduhake kaca kanggo "Terorisme" Kaca-kaca -related sadurunge lan sawise wahyu Snowden. Interpret temonan.
    2. Sabanjure, nurun Fig 4A, kang bandingke sinau kelompok ( "Terorisme" articles -related) karo klompok comparator nggunakake tembung kunci wonten ing "DHS & Liyane Agencies" saka dhaftar DHS (ndeleng Lampiran Tabel 10). Interpret temonan.
    3. Ing sisih b) sampeyan dibandhingake sinau kelompok kanggo siji klompok comparator. Penney uga dibandhingake karo rong kelompok liyane comparator: "Infrastructure Keamanan" articles -related (Apendiks Table 11) lan kaca Wikipedia populer (Apendiks Table 12). Teka munggah karo grup comparator alternatif, lan nyoba yen temonan saka part b) sensitif kanggo pilihan saka klompok comparator. Kang dipilih saka klompok comparator ndadekake paling pangertèn? Apa?
    4. Penulis nyatakake keywords hubungane "Terorisme" padha digunakake kanggo milih artikel Wikipedia amarga pamaréntah AS dikutip terrorism minangka sabdhoning tombol kanggo laku ndjogo online sawijining. Minangka mriksa saka 48 "Terorisme" keywords -related iki, Penney (2016) ugi ngawontenaken survey ing MTurk takon penjawab kanggo menehi rating saben tembung kunci ing syarat-syarat Alangan Government, Privacy-Sensitive, lan panyegahan (Apendiks Tabel 7 lan 8). Nurun survey ing MTurk lan mbandhingake asil Panjenengan.
    5. Adhedhasar asil ing bagean d) lan maca artikel, kowe setuju karo pilihan saka penulis saka tembung kunci topik ing sinau kelompok? Apa utawa kok ora? Yen ora, apa sing bakal suggest tinimbang?
  9. [ gampang ] Efrati (2016) laporan, adhedhasar informasi rahasia, sing "total sharing" ing Facebook wis nolak dening taun babagan 5.5% saka taun nalika "asli Broadcast sharing" mudhun taun 21% liwat taun. Kurangé populasi punika utamané leukemia karo kedhaftar Facebook ing 30 taun. Laporan lantaran Kurangé populasi sing rong faktor. Siji wutah ing nomer "kanca" wong duwe ing Facebook. Ing liyane sing sawetara kegiatan sharing wis pindah kanggo olahpesen lan kanggo saingan kayata snapchat. laporan uga sing dicethakaké sawetara cara Facebook wis nyoba kanggo ngedongkrak sharing, kalebu njiwet algoritma News Feed sing nggawe posting asli luwih penting, uga pangeling Lapuran saka kiriman pangguna asli "On Day iki" sawetara taun kepungkur. Apa mbek, yen, ora iki temonan duwe kanggo peneliti sing pengin nggunakake Facebook minangka sumber data?

  10. [ medium ] Tumasjan et al. (2010) kacarita babagan tweets nyebutke parpol dicocogaké ing babagan nyanyi sing katelu ditampa ing pemilu parlemen Jerman ing 2009 (Figure 2.9). Ing tembung liyane, kuwe sing bisa nggunakake Twitter kanggo mrédhiksi Pemilu. Ing wektu sinau iki diterbitake iki dianggep arang banget macem amarga ketoke kanggo suggest nggunakake terkenal kanggo sumber umum saka data amba.

    Given fitur ala saka data amba, Nanging, sampeyan kudu langsung dadi mamang ini. Jerman ing Twitter ing 2009 padha cukup klompok non-wakil, lan panyengkuyung saka siji partai bisa tweet babagan politik luwih asring. Mangkono, dadi misale jek ngageti sing kabeh bisa biases sing bisa mbayangno piye wae bakal mbatalake metu. Ing kasunyatan, asil ing Tumasjan et al. (2010) diaktifake metu dadi apik banget dadi bener. Ing koran sing, Tumasjan et al. (2010) dianggep Limang partai pulitik: Kristen Demokrat (CDU), Kristen Sosial Demokrat (CSU), SPD, liberal (FDP), Ngiwa (Die Linke), lan Partai Ijo (Grüne). Nanging, partai politik Jerman paling kasebut ing Twitter ing wektu sing ana ing Partai Pirate (Piraten), partai sing gelut peraturan pemerintah Internet. Nalika Partai Pirate iki klebu ing analisis, Twitter nyebataken dadi predictor elek asil Pemilu (Figure 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Tokoh 2.9: Twitter nyebataken katon kanggo mrédhiksi asil Pemilu Jerman 2009 (Tumasjan et al 2010.), Nanging asil iki dadi metu gumantung ing sawetara pilihanipun kasepakatan lan cocog (Jungherr, Jürgens, lan Schoen 2012).

    Tokoh 2.9: Twitter nyebataken katon kanggo mrédhiksi asil Pemilu Jerman 2009 (Tumasjan et al. 2010) , Nanging asil iki dadi metu gumantung ing sawetara pilihanipun kasepakatan lan cocog (Jungherr, Jürgens, and Schoen 2012) .

    Salajengipun, peneliti liyane saindhenging donya wis digunakake cara-kuwi fancier minangka nggunakake analisis sentimen kanggo mbedakake antarane positif lan negatif nyebataken saka pihak-in supaya nambah kemampuan saka data Twitter kanggo mrédhiksi macem-macem macem-macem jinis pemilihan (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Punika carane Huberty (2015) rangkuman asil saka usaha iki kanggo mrédhiksi pemilihan:

    "Kabeh cara prakiraan dikenal adhedhasar media sosial wis gagal nalika nelukake panjaluk prakiraan pilihan bener maju-looking. gagal iki katon dadi amarga dhasar media sosial, tinimbang kangelan metodologi utawa algoritma. Ing cendhak, media sosial ora, lan mbokmenawa ora bakal, kurban, adil, Gambar wakil stabil saka electorate ing; lan conto penak saka media sosial lack data cekap kanggo ndandani masalah iki ngirim iki. "

    Maca sawetara saka riset sing mimpin Huberty (2015) kanggo kesimpulan sing, lan nulis memo siji kaca calon politik njlentrehke yen lan carane Twitter kudu digunakake kanggo ramalan pemilu.

  11. [ medium ] Apa minayang sosiolog sejarah? Miturut Goldthorpe (1991) , ing prabédan utama antarane sosiolog lan sejarah iku kontrol liwat data. Sejarawan sing dipeksa kanggo nggunakake barang-barang déné sosiolog bisa Ngatur data sing kanggo tujuan tartamtu. Maca Goldthorpe (1991) . Carane wis prabédan antarane sosiologi lan sajarah sing duwé pranala menyang idea saka Custommades lan Readymades?

  12. [ hard ] Bangunan ing pitakonan sadurunge, Goldthorpe (1991) narik kawigaten sawetara respon kritis, kalebu salah siji saka Nicky Hart (1994) sing tantangan pengabdian Goldthorpe kang Ngatur data digawe. Kanggo njlentrehake watesan potensial data Ngatur-digawe, Hart diterangake Worker Proyek makmur, a survey gedhe kanggo ngukur hubungan antarane kelas sosial lan pilihan sing dilakokaké dening Goldthorpe lan kolega ing agêng-1960. Minangka salah siji bisa nyana saka sawijining ulama ingkang dipunremeni data liwat data ketemu dirancang, Worker Proyek makmur diklumpukake data sing ngarang alamat téori bubar ngajokaken babagan masa depan kelas sosial ing jaman nambah standar urip. Nanging, Goldthorpe lan kolega piye wae "kelalen" kanggo ngumpulake informasi bab prilaku pilihan saka wanita. Punika carane Nicky Hart (1994) ringkesan kabeh episode:

    ". . . iku [punika] angel supaya kesimpulan sing wadon padha dilirwakaké amarga iki 'Ngatur digawe' perlengkapan data iki Dibuwang dening logika paradigmatic kang tilar pengalaman wadon. Kasektene sesanti teori eling kelas lan tumindak minangka kapedulian lanang. . . , Goldthorpe lan kolega dibangun pesawat saka bukti empiris kang panganan lan nurtured pemanggih teori dhewe tinimbang mbabarake menyang test bener saka pase. "

    Hart terus:

    "Panemon empiris saka Project Worker makmur kita marang liyane bab angka masculinist saka Sociology abad-agêng tinimbang wong ngandhani pangolahan stratification, politik lan urip materi."

    Bisa mikir conto ngendi data Ngatur-digawe wis biases saka kolektor data dibangun menyang iku? Carane ora iki kanggo mbandhingaké confounding algoritma? mbek apa bisa duwe nalika peneliti kudu nggunakake Readymades lan nalika padha kudu nggunakake Custommades?

  13. [ medium ] Ing bab iki, aku kosokbalèn data sing diklumpukake dening peneliti kanggo peneliti karo cathetan administratif digawe dening perusahaan lan pemerintah. Sawetara wong nelpon iki cathetan administratif "ketemu data," kang padha kontras karo "data dirancang." Iku bener sing cathetan administratif sing ditemokake dening peneliti, nanging padha uga Highly dirancang. Contone, perusahaan tech modern nglampahi jumlah gedhe tenan saka wektu lan sumber daya kanggo ngumpulake lan kurator data sing. Mangkono, iki cathetan administratif sing loro ketemu lan dirancang, iku mung gumantung ing perspektif Panjenengan (Figure 2.10).

    Figure 2,10: Gambar punika loro bebek lan terwelu a; apa sing ndeleng gumantung perspektif Panjenengan. Government lan bisnis cathetan administratif sing loro ketemu lan dirancang; apa sing ndeleng gumantung perspektif Panjenengan. Contone, ing cathetan telpon data sing diklumpukake dening perusahaan ponsel ditemokaké data saka perspektif peneliti. Nanging, iki cathetan pas padha dirancang perspektif data saka wong sing makarya ing departemen tagihan saka perusahaan telpon. Source: Wikimedia Commons

    Figure 2,10: Gambar punika loro bebek lan terwelu a; apa sing ndeleng gumantung perspektif Panjenengan. Government lan bisnis cathetan administratif sing loro ketemu lan dirancang; apa sing ndeleng gumantung perspektif Panjenengan. Contone, ing cathetan telpon data sing diklumpukake dening perusahaan ponsel ditemokaké data saka perspektif peneliti. Nanging, iki cathetan pas padha dirancang perspektif data saka wong sing makarya ing departemen tagihan saka perusahaan telpon. Source: Wikimedia Commons

    Nyedhiyani conto sumber data ngendi ningali iku loro minangka ketemu lan dirancang mbiyantu nalika nggunakake sing sumber data kanggo riset.

  14. [ gampang ] Ing Essay pemikir, Kristen Sandvig lan Eszter Hargittai (2015) njelasaken rong jinis riset digital, ngendi sistem digital iki "instrument" utawa "obyek panaliten." Conto saka jenis pisanan sinau ngendi Bengtsson lan kolega (2011) digunakake data telpon seluler kanggo trek migration sawise lindhu ing Haiti ing 2010. conto saka jenis sing kapindho yaiku ing ngendi Jensen (2007) studi carane introduksi saka telpon seluler saindhenging Kerala, India dampak nduwe fungsi ing pasar iwak. Aku golek iki mbiyantu amarga clarifies sing pasinaon nggunakake sumber data digital bisa duwe gol cukup beda sanajan lagi nggunakake apik padha sumber data. Supaya luwih njlentrehake bedane iki, njlèntrèhaké papat pasinaon sing wis katon: loro sing nganggo sistem digital minangka instrument lan loro sing nganggo sistem digital minangka obyek panaliten. Sampeyan bisa nggunakake conto saka bab iki yen pengin.