kagiatan

Key:

  • darajat kasulitan: gampang gampil , sedeng sedeng , teuas teuas Pisan teuas pisan teuas
  • merlukeun math ( merlukeun math )
  • merlukeun coding ( merlukeun coding )
  • kumpulan data ( kumpulan data )
  • paporit mah ( anu paling dipikaresep )
  1. [ sedeng , anu paling dipikaresep ] Confounding Algorithmic ieu masalah jeung Google Flu Tren. Maca kertas ku Lazer et al. (2014) , jeung nulis, surelek jelas pondok ka insinyur di Google dijelaskeun masalah jeung ngalamar hiji pamanggih kumaha ngalereskeun masalah.

  2. [ sedeng ] Bollen, Mao, and Zeng (2011) nyebutkeun yén data ti Twitter bisa dipaké pikeun ngaduga pasar stock. Pananjung ieu ngarah ka kreasi tina pager hirup dana-Derwent Capital Pasar-to investasi di pasar stock dumasar kana data nu dikumpulkeun ti Twitter (Jordan 2010) . Naon bukti bakal Anjeun hoyong tempo saméméh putting duit anjeun dina dana nu?

  3. [ gampil ] Sedengkeun sababaraha ngabela kaséhatan masarakat hujan es e-rokok salaku bantuan mujarab pikeun gencatan patempuran udud, batur ngingetkeun ngeunaan resiko poténsial, saperti-tingkat luhur nikotin. Bayangkeun nu panalungtik a megatkeun pikeun diajar pamadegan umum arah e-rokok ku cara ngumpulkeun e-rokok patali Twitter tulisan jeung ngalakonan analisis sentimen.

    1. Naon nu tilu biases mungkin nu paling hariwang ngeunaan dina ulikan ieu?
    2. Clark et al. (2016) lumpat ngan ulikan saperti a. Kahiji, maranehna dikumpulkeun 850,000 tweets nu dipaké konci-e-roko patali ti Januari 2012 ngaliwatan Désémber 2014. Kana pamariksaan deukeut, maranéhanana sadar yén loba tweets kasebut otomatis (ie, teu dihasilkeun ku manusa) jeung loba ieu tweets otomatis éta dasarna commercials. Maranéhanana ngembangkeun hiji Algoritma beungeut manusa pikeun misahkeun tweets otomatis ti tweets organik. Maké manusa ieu ngadeteksi Algoritma maranehna manggihan yén 80% tweets anu otomatis. Teu Pananjung ieu ngarobah jawaban Anjeun ka bagian (a)?
    3. Sabot maranéhanana dibandingkeun anu sentimen dina tweets organik jeung otomatis maranehna manggihan yén tweets otomatis nu leuwih positif ti batan tweets organik (6.17 versus 5.84). Teu Pananjung ieu ngarobah jawaban Anjeun ka (b)?
  4. [ gampil ] Dina Nopémber 2009, Twitter robah Patarosan dina kotak tweet ti "Naon anu anjeun lakukeun?" Ka "Naon nu lumangsung?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kumaha anjeun mikir change of prompts bakal mangaruhan anu tweet jeung / atawa naon anu maranehna tweet?
    2. Ngaran proyék panalungtikan hiji keur nu bakal milih ajakan "Naon anu anjeun lakukeun?" Terangkeun naha.
    3. Ngaran proyék panalungtikan hiji keur nu bakal milih ajakan "Naon nu lumangsung?" Terangkeun naha.
  5. [ sedeng ] Kwak et al. (2010) dianalisis 41.7 juta propil pamaké, 1.47 milyar hubungan sosial, 4262 jejer Trending, sarta 106 juta tweets antara 6 Juni jeung 31st Juni, 2009. Dumasar analisis ieu aranjeunna menyimpulkan yén Twitter fungsi leuwih minangka medium anyar informasi babagi ti jaringan sosial.

    1. Tempo Pananjung Kwak et al urang, naon jenis panalungtikan bakal maneh jeung data Twitter? tipe What panalungtikan Rék teu jeung data Twitter? Naha?
    2. Dina 2010, ditambahkeun Twitter a Anu Pikeun Turutan service nyieun saran tailored pikeun pamaké. Tilu saran dipintonkeun dina waktu dina kaca utama. Saran mindeng dicokot ti hiji sacara "babaturan-of-babaturan," jeung silih kontak ogé dipintonkeun dina rekomendasi teh. Pamaké bisa ngarefresh nempo susunan anyar saran atawa nganjang kaca kalayan daptar deui tina saran. Ulah mikir ciri anyar ieu bakal ngarobah jawaban Anjeun ka bagian a)? Naha atawa naha teu?
    3. Su, Sharma, and Goel (2016) dievaluasi pangaruh Anu Pikeun Turutan jasa jeung manggihan yén bari pamaké sakuliah popularitas spéktrum benefited ti saran, pamaké nu pang populerna kauntungan substansi leuwih ti rata-rata. Teu Pananjung ieu ngarobah jawaban Anjeun ka bagian b)? Naha atawa naha teu?
  6. [ gampil ] "Retweet" mindeng dipaké pikeun ngukur pangaruh jeung sumebar tina pangaruh dina Twitter. Mimitina, pamaké geus nyalin jeung nempelkeun nu tweet maranehna liked, tag panulis asli jeung /-Na cecekelan nya, jeung manual ngetik "RT" saméméh tweet ka nunjukkeun yén éta retweet a. Saterusna, dina 2009 Twitter ditambahkeun a "retweet" tombol. Dina Juni 2016, Twitter dijieun mungkin for nu retweet tweets sorangan (https://twitter.com/twitter/status/742749353689780224). Ulah mikir robah ieu kudu mangaruhan kumaha Anjeun make "retweet" dina panalungtikan anjeun? Naha atawa naha teu?

  7. [ sedeng , kumpulan data , merlukeun coding ] Michel et al. (2011) diwangun hiji korpus munculna ti usaha Google pikeun digitize buku. Nganggo versi kahiji korpus, nu diterbitkeun taun 2009 jeung dikandung leuwih ti 5 juta buku digitized, pangarang dianalisis kecap frekuensi pamakéan pikeun nalungtik robah linguistik jeung tren budaya. Geura-giru Google Buku Corpus jadi sumber data populér pikeun panalungtik, jeung versi 2nd tina database ieu dirilis dina 2012.

    Tapi, Pechenick, Danforth, and Dodds (2015) miélingkeun yén panalungtik kudu nyirikeun prosés sampling tina korpus saméméh ngagunakeun eta kanggo teken conclusions lega. Isu utama nyaeta korpus nyaeta perpustakaan kawas, ngandung salah sahiji unggal buku. Hasilna, hiji individu, pangarang prolific sanggup noticeably nyelapkeun frasa anyar kana léksikon Google Buku. Leuwih ti éta, teks ilmiah mangrupakeun hiji bagian beuki substantive of korpus nu sapanjang 1900. Sajaba ti éta, ku ngabandingkeun dua vérsi ngeunaan datasets Fiksi Inggris, Pechenick et al. bukti manggihan yén cukup panyaring ieu dipaké dina ngahasilkeun versi kahiji. Sakabéh data nu dipikabutuh pikeun aktivitas geus sadia di dieu: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Dina Michel et al. Urang kertas asli (2011) , maranéhanana dipaké versi 1st data set Inggris, plotted frékuénsi pamakéan of taun "1880", "1912" jeung "1973", jeung menyimpulkan yén "urang forgetting katukang urang gancang jeung unggal taun ngalirkeun "(Gbr. 3A, Michel et al.). Ngayakeun réplikasi plot sarua ngagunakeun 1) Vérsi 1st tina korpus, dataset Inggris (sarua jeung Gbr. 3A, Michel et al.)
    2. Ayeuna ngayakeun réplikasi plot sarua jeung versi 1st, dataset fiksi Inggris.
    3. Ayeuna ngayakeun réplikasi plot sarua jeung versi 2nd tina korpus, dataset Inggris.
    4. Ahirna, ngayakeun réplikasi plot sarua jeung 2nd versi, dataset fiksi Inggris.
    5. Ngagambarkeun béda jeung kamiripan antara opat plot ieu. Ulah anjeun satuju jeung Michel et al. Urang interpretasi asli tina trend observasi? (Hint: c) jeung d) kudu sarua jeung Gambar 16 di Pechenick et al).
    6. Ayeuna nu geus replicated Pananjung hiji ieu ngagunakeun beda Google Buku corpora, milih parobahan sejen linguistik atawa fenomena budaya dibere di Michel et al. Urang kertas asli. Ulah anjeun satuju jeung interpretasi maranéhanana di nu caang tina watesan dibere di Pechenick et al.? Pikeun nyieun argumen Anjeun kuat, coba ngayakeun réplikasi grafik nu sami nganggo versi beda data diatur minangka luhur.
  8. [ pisan teuas , kumpulan data , merlukeun coding , anu paling dipikaresep ] Penney (2016) explores naha publisitas nyebar ngeunaan NSA / prisma panjagaan (ie, wahyu Snowden) dina Juni 2013 ieu pakait jeung panurunan seukeut jeung dadakan di lalu lintas ka artikel Wikipedia dina jejer nu ngangkat masalah privasi. Upami kitu, parobahan ieu dina paripolah bakal konsisten jeung éfék chilling dihasilkeun ti panjagaan massa. Pendekatan tina Penney (2016) kadangkala disebut desain time series interrupted sarta patali jeung deukeut dina bab ngeunaan approximating percobaan ti data observational (Bagéan 2.4.3).

    Pikeun milih kecap konci topik, Penney disebut daptar dipaké ku US Dinas NKRI Kaamanan pikeun nyukcruk jeung mantau media sosial. Daptar DHS categorizes istilah panéang nu tangtu kana lingkup isu, nyaéta "Paduli Kaséhatan," "infrasturktur Kaamanan," jeung "terorisme." Pikeun kelompok studi, Penney dipaké opat puluh dalapan kecap konci patali ka "terorisme" (tempo Daptar 8 Lampiran). Anjeunna tuluy aggregated Wikipedia article view diitung dina dasar bulanan pikeun opat puluh dalapan artikel Wikipédia nu pakait leuwih periode tilu puluh dua bulan, ti mimiti Januari 2012 nepi ka ahir Agustus 2014. Pikeun nguatkeun argumen-Na, manéhna ogé dijieun sababaraha ngabandingkeun grup ku nyukcruk pintonan artikel dina jejer sejen.

    Ayeuna, anjeun bade ngayakeun réplikasi jeung ngalegaan Penney (2016) . Sadaya data atah nu bakal kudu pikeun kagiatan ieu geus sadia ti Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Atawa Anjeun bisa meunangkeun eta ti wikipediatrend paket Urang Sunda (Meissner and Team 2016) . Lamun anjeun nulis-up réspon, mangga dicatet data nu sumber anjeun dipaké. (Catetan: aktivitas sarua ieu oge nembongan dina Bab 6)

    1. Baca Penney (2016) jeung ngayakeun réplikasi Gambar 2 nu mintonkeun pintonan kaca pikeun "terorisme" Kaca -related saméméh jeung sanggeus wahyu Snowden. Napsirkeun papanggihan.
    2. Next, ngayakeun réplikasi Gbr 4A, nu compares gugus ulikan ( "terorisme" artikel -related) jeung kelompok comparator ngagunakeun kecap konci categorized dina "DHS & Séjénna Agénsi" ti daptar DHS (tempo Appendix Table 10). Napsirkeun papanggihan.
    3. Dina bagian b) anjeun dibandingkeun gugus ulikan ka hiji group comparator. Penney oge dibandingkeun jeung dua kelompok séjén comparator: "infrasturktur Kaamanan" artikel -related (Appendix Table 11) jeung kaca Wikipedia populér (Appendix Table 12). Datang nepi ka hiji group comparator alternatif, jeung nguji lamun papanggihan ti bagian b) nyaéta sensitip ka pilihan Anjeun group comparator. Nu pilihan group comparator ngajadikeun paling rasa? Naha?
    4. pangarang nyatakeun yén kecap konci patali ka "terorisme" anu dipaké pikeun milih artikel Wikipedia sabab pamaréntah AS dicutat terorisme salaku leresan konci pikeun lila panjagaan online anak. Salaku dipariksa tina 48 "terorisme" kecap konci -related ieu, Penney (2016) ogé dipigawé hiji survéy dina MTurk nanyakeun responden ka meunteun unggal kecap konci dina watesan kasulitan Pamaréntahan, Privasi-sensitip, sarta dijauhkeun (Appendix Table 7 jeung 8). Ngayakeun réplikasi survey dina MTurk jeung ngabandingkeun hasil Anjeun.
    5. Dumasar hasil sabagian d) jeung maca anjeun artikel, anjeun satuju jeung pilihan panulis ngeunaan kecap konci topik dina grup ulikan? Naha atawa naha teu? Lamun henteu, naon anu anjeun nyarankeun gantina?
  9. [ gampil ] Efrati (2016) laporan, dumasar kana informasi rahasia, nu "total babagi" on Facebook geus ditolak ku taun ngeunaan 5,5% leuwih taun bari "asli siaran babagi" ieu turun taun 21% leuwih taun. turunna ieu utamana akut jeung pamaké Facebook dina 30 taun umur. laporan attributed turunna ka dua faktor. Hiji nyaéta tumuwuhna dina jumlah "babaturan" urang boga on Facebook. Nu séjénna nyaéta yén sababaraha aktivitas babagi geus bergeser ka olahtalatah jeung pesaing saperti SnapChat. laporan ogé ngungkabkeun sababaraha taktik Facebook geus usaha naekeun babagi, kaasup tweaks algoritma News Feed nu make tulisan asli leuwih nonjol, kitu ogé panginget periodical tina tulisan pamaké asli "On Poé Ieu" sababaraha taun ka tukang. Naon implikasi, lamun mana wae, teu papanggihan ieu geus keur panalungtik anu hayang make Facebook salaku sumber data?

  10. [ sedeng ] Tumasjan et al. (2010) ngalaporkeun yén saimbang tweets mentioning hiji partéy pulitik loyog proporsi sora nu pihak narima dina pamilihan parlemén Jerman taun 2009 (Gambar 2.9). Dina basa sejen, eta mucunghul nu bisa ngagunakeun Twitter pikeun ngaduga pemilu. Dina waktu ulikan ieu diterbitkeun ieu dianggap pisan seru sabab seemed ngasongkeun make berharga pikeun sumber ilahar data gedé.

    Dibikeun fitur bad data gedé, kumaha oge, Anjeun kudu geura-giru jadi skeptis tina hasil ieu. Germans dina Twitter dina 2009 éta cukup group non-wakil, sarta ngarojong hiji pihak bisa tweet ngeunaan pulitik leuwih sering. Ku kituna, jigana heran sagala mungkin biases anu bisa anjeun dibayangkeun kumaha bae bakal ngabatalkeun kaluar. Kanyataanna, hasil di Tumasjan et al. (2010) tétéla teuing alus jadi bener. Dina kertas maranéhanana, Tumasjan et al. (2010) dianggap genep partéi pulitik: Christian Demokrat (CDU), Christian Sosial Demokrat (CSU), SPD, Liberals (FDP), The kenca (maot Linke), sarta Partéi Green (Grüne). Sanajan kitu, partéy pulitik Jerman paling disebutkeun dina Twitter dina waktu nu Partéi bajak (Piraten), hiji pihak nu gelut pangaturan pamaréntah internét. Lamun Partéi bajak ieu kaasup analisis, Twitter nyebutkeun janten prediktor dahsyat hasil pamilihan (Gambar 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Angka 2.9: Twitter nyebutkeun kaciri ngaduga hasil pamilihan Jerman 2009 (Tumasjan et al 2010.), Tapi hasil ieu tétéla ka gumantung kana sababaraha pilihan sawenang jeung teu dina tempatna (Jungherr, Jürgens, sarta Schoen 2012).

    Angka 2.9: Twitter nyebutkeun kaciri ngaduga hasil pamilihan Jerman 2009 (Tumasjan et al. 2010) , Tapi hasil ieu tétéla ka gumantung kana sababaraha pilihan sawenang jeung teu dina tempatna (Jungherr, Jürgens, and Schoen 2012) .

    Salajengna, panalungtik séjén di sakuliah dunya geus dipaké métode-saperti fancier salaku ngagunakeun analisis sentimen keur ngabedakeun antara positif jeung negatif nyebutkeun tina pihak-guna ngaronjatkeun kamampuh data Twitter pikeun ngaduga rupa-rupa tipena béda Pilkada (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Di dieu nu kumaha Huberty (2015) diringkeskeun hasil usaha ieu pikeun ngaduga pamilu:

    "Sadaya métode forecasting dipikawanoh dumasar kana média sosial geus gagal lamun subjected ka tungtutan forecasting Panwaslu bener maju-néangan. gagal ieu kaciri jadi alatan sipat dasar média sosial, tinimbang ka kasusah metodologis atawa algorithmic. Dina pondok, média sosial teu, sarta meureun moal, nawarkeun, unbiased, gambar wakil stabil tina electorate nu; jeung sampel genah média sosial kakurangan data cukup pikeun ngalereskeun masalah ieu posting hoc. "

    Baca sababaraha panalungtikan nu mingpin Huberty (2015) ka kacindekan éta, jeung nulis mémo hiji kaca ka calon pulitik ngajéntrékeun lamun jeung kumaha Twitter kudu dipaké pikeun ngaramal pamilu.

  11. [ sedeng ] What is beda antara sosiolog jeung sajarah hiji? Nurutkeun Goldthorpe (1991) , beda utama antara sosiolog jeung sajarah nyaéta kadali leuwih kumpulan data. Sajarah kapaksa ngagunakeun titilar sedengkeun ahli sosiologi bisa tukang ngaput kumpulan data maranéhna pikeun tujuan husus. Baca Goldthorpe (1991) . Kumaha ieu beda antara sosiologi jeung sajarah patali jeung pamanggih Custommades jeung Readymades?

  12. [ teuas ] Wangunan di Patarosan saméméhna, Goldthorpe (1991) Drew sababaraha réspon kritis, kaasup saurang ti Nicky Hart (1994) nu ditantang bakti Goldthorpe pikeun tukang ngaput data dijieun. Pikeun netelakeun keterbatasan potensi data tukang ngaput-dijieun, Hart digambarkeun Gelut Project nu makmur, hiji survéy gede pikeun ngukur hubungan antara kelas sosial jeung voting nu dilakukeun ku Goldthorpe sareng kolega di pertengahan 1960-an. Minangka salah bisa ngaharepkeun ti sarjana anu favored data leuwih data kapanggih dirarancang, Gelut Project nu makmur dikumpulkeun data nu tailored nepikeun téori anyar diusulkeun ngeunaan masa depan kelas sosial dina jaman ngaronjatkeun standar hirup. Tapi, Goldthorpe sareng kolega kumaha bae "poho" pikeun ngumpulkeun informasi ngeunaan paripolah voting awéwé. Di dieu nu kumaha Nicky Hart (1994) summaries sakabeh episode:

    ". . . eta [nyaéta] hésé pikeun nyingkahan kacindekan yen awewe anu disingkahkeun sabab ieu 'tukang ngaput dijieun' dataset ieu dipasrahkeun ku logika paradigmatik nu kaasup pangalaman bikangna. Disetir ku visi teoritis tina eling kelas jeung aksi salaku preoccupations jalu. . . , Goldthorpe sareng kolega-Na diwangun susunan proofs empiris nu fed jeung dipupuk asumsi teoritis sorangan tinimbang exposing ka tes valid tina adequacy. "

    Hart terus:

    "The papanggihan empiris tina Project Gelut makmur ngabejaan urang leuwih ngeunaan nilai masculinist tina sosiologi abad patengahan ti maranehna nginpokeun prosés tina stratifikasi, pulitik jeung kahirupan material."

    Dupi anjeun mikir conto lianna dimana kumpulan data tukang ngaput-dijieun boga biases tina collector data diwangun kana eta? Kumaha carana sangkan ieu ngabandingkeun ka confounding algorithmic? implikasi What bisa ieu geus for lamun panalungtik kudu make Readymades jeung lamun maranéhanana kudu make Custommades?

  13. [ sedeng ] Dina bab ieu, kuring contrasted data dikumpulkeun ku panalungtik pikeun panalungtik jeung catetan administratif dijieun ku pausahaan jeung pamaréntah. Sababaraha urang nyebut ieu catetan administratif "kapanggih data," nu maranehna kontras jeung "data dirancang." Memang bener yén catetan administratif kapanggih ku panalungtik, tapi ogé pohara dirancang. Contona, pausahaan tech modern méakkeun jumlah loba pisan waktu jeung sumber pikeun ngumpulkeun jeung milah data maranéhanana. Ku kituna, ieu catetan administratif anu boh kapanggih jeung dirancang, eta ngan gumantung kana sudut pandang Anjeun (Gambar 2.10).

    Gambar 2,10: gambar ieu boh a bebek jeung kelenci; naon nu katingali gumantung kana sudut pandang Anjeun. Pamaréntah jeung bisnis catetan administratif anu boh kapanggih jeung dirarancang; naon nu katingali gumantung kana sudut pandang Anjeun. Contona, catetan telepon data dikumpulkeun ku hiji pausahaan ponsel kapanggih data ti perspektif panalungtik a. Tapi, ieu catetan sarua pasti dirancang sudut pandang data batur digawé di jurusan tagihan tina pausahaan telepon. Sumber: Wikimedia Commons

    Gambar 2,10: gambar ieu boh a bebek jeung kelenci; naon nu katingali gumantung kana sudut pandang Anjeun. Pamaréntah jeung bisnis catetan administratif anu boh kapanggih jeung dirarancang; naon nu katingali gumantung kana sudut pandang Anjeun. Contona, catetan telepon data dikumpulkeun ku hiji pausahaan ponsel kapanggih data ti perspektif panalungtik a. Tapi, ieu catetan sarua pasti dirancang sudut pandang data batur digawé di jurusan tagihan tina pausahaan telepon. Sumber: Wikimedia Commons

    Nyadiakeun conto sumber data mana manéh eta boh salaku kapanggih jeung dirarancang téh mantuan lamun maké nu sumber data pikeun panalungtikan.

  14. [ gampil ] Dina karangan wijaksana, Christian Sandvig jeung Eszter Hargittai (2015) ngagambarkeun dua rupa panalungtikan digital, di mana sistem digital nyaeta "alat" atawa "obyék ulikan." Hiji conto jenis munggaran ulikan ieu mana Bengtsson sareng kolega (2011) dipaké data telepon sélulér ka lagu migrasi sanggeus lini di Haiti dina 2010. Hiji conto jenis kadua mangrupa tempat Jensen (2007) nalungtik kumaha bubuka ponsel sakuliah Kerala, India impacted fungsi tina pasar pikeun lauk. Kuring manggihan ieu mantuan sabab clarifies nu studi ngagunakeun sumber data digital bisa boga gol cukup béda sanajan maranéhanana ngagunakeun jenis sarua sumber data. Dina raraga jang meberkeun netelakeun bedana ieu, ngagambarkeun opat studi nu tos Anjeun ditempo: dua nu make sistem digital salaku alat jeung dua anu ngagunakeun sistem digital jadi hiji obyék ulikan. Anjeun tiasa make conto ti bab ieu upami Anjeun hoyong.