kagiatan

  • gelar tina kasusah: gampang gampil , sedeng sedeng , teuas teuas , Pisan teuas pisan teuas
  • merlukeun math ( merlukeun math )
  • merlukeun coding ( merlukeun coding )
  • pendataan ( pendataan )
  • paporit abdi ( anu paling dipikaresep )
  1. [ sedeng , anu paling dipikaresep ] Confounding Algorithmic éta masalah ku Google Flu Tren. Baca kertas ku Lazer et al. (2014) , sarta nulis, email jelas pondok ka insinyur di Google dijelaskeun masalah na ngalamar hiji pamanggih cara ngalereskeun eta.

  2. [ sedeng ] Bollen, Mao, and Zeng (2011) nyebutkeun yen data ti Twitter bisa dipaké pikeun ngaduga pasar saham. Pananjung Ieu ngakibatkeun kreasi a pager hirup dana-Derwent Capital Pasar-pikeun investasi di pasar saham dumasar kana data nu dikumpulkeun ti Twitter (Jordan 2010) . Naon bukti bakal rék ningali saméméh putting duit anjeun dina dana anu?

  3. [ gampil ] Sedengkeun sababaraha ngabela kaséhatan publik mertimbangkeun e-rokok hiji bantuan mujarab pikeun gencatan patempuran roko, batur ngingetkeun ngeunaan resiko poténsi, kayaning tingkat tinggi nikotin. Ngabayangkeun eta panalungtik a megatkeun diajar pamadegan umum nuju e-rokok ku cara ngumpulkeun e-rokok nu patali Twitter tulisan na ngalakonan analisa sentimen.

    1. Naon anu tilu biases mungkin nu aya paling hariwang ngeunaan dina ulikan ieu?
    2. Clark et al. (2016) lumpat ngan ulikan misalna hiji. Kahiji, aranjeunna dikumpulkeun 850,000 tweets nu dipaké konci-e-roko patali ti Januari 2012 ngaliwatan Désémber 2014. Kana inspeksi ngadeukeutan, maranéhna sadar yén loba tweets kasebut otomatis (ie, teu dihasilkeun ku manusa) jeung loba ieu tweets otomatis éta dasarna commercials. Aranjeunna ngembangkeun hiji algoritma deteksi manusa pikeun misahkeun tweets otomatis tina tweets organik. Ngagunakeun manusa ieu ngadeteksi algoritma maranéhna manggihan yén 80% tweets anu otomatis. Teu Pananjung ieu ngarobah jawaban anjeun ka bagian (a)?
    3. Nalika aranjeunna dibandingkeun nu sentimen dina tweets organik jeung otomatis, maranéhna manggihan yén tweets otomatis éta leuwih positif ti batan tweets organik (6.17 versus 5.84). Teu Pananjung ieu ngarobah jawaban anjeun (b)?
  4. [ gampil ] Dina Nopémber 2009, Twitter robah sual dina kotak tweet ti "Naon anu anjeun lakukeun?" Jadi "Naon nu keur lumangsung?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kumaha saur anjeun nu robah tina prompts bakal mangaruhan anu tweets jeung / atawa naon maranéhna tweet?
    2. Ngaran proyék panalungtikan hiji keur nu bakal resep ka ajakan "Naon anu anjeun lakukeun?" Terangkeun naha.
    3. Ngaran proyék panalungtikan hiji keur nu bakal resep ka ajakan "Naon nu keur lumangsung?" Terangkeun naha.
  5. [ gampil ] "Retweet" anu mindeng dipaké pikeun ngukur pangaruh sarta nyebarkeun pangaruh dina Twitter. Dina awalna, pamaké kapaksa salin di tweet maranéhna resep, tag panulis aslina kalawan / na cecekelan nya, sarta sacara manual ngetik "RT" méméh tweet ka nunjukkeun yén ieu retweet a. Saterusna, dina taun 2009, Twitter ditambahkeun a "retweet" tombol. Dina Juni 2016, Twitter hasil nu mungkin for nu retweet tweets sorangan (https://twitter.com/twitter/status/742749353689780224). Saur anjeun parobahan ieu kedah mangaruhan kumaha anjeun nganggo "retweet" dina ieu panalungtikan anjeun? Naha atawa naha henteu?

  6. [ pisan teuas , pendataan , merlukeun coding , anu paling dipikaresep ] Dina hiji makalah lega dibahas, Michel sareng kolega Anjeun (2011) dianalisis eusi leuwih ti lima juta buku digitized dina usaha pikeun ngaidentipikasi tren budaya jangka panjang. Data nu aranjeunna dipake geus ayeuna geus dileupaskeun salaku dataset Google NGrams, sarta sangkan bisa ngagunakeun data pikeun ngayakeun réplikasi jeung manjangkeun sababaraha karya maranéhanana.

    Dina salah sahiji loba hasilna dina kertas, Michel sareng kolega Anjeun pamadegan yén urang téh forgetting gancang tur gancang. Pikeun taun sababaraha hal, ngomong "1883," aranjeunna diitung proporsi 1-gram diterbitkeun dina unggal taun antara 1875 jeung 1975 nu éta "1883". Aranjeunna reasoned nu saimbang ieu téh ukuran tina minat acara anu lumangsung dina taun éta. Dina inohong 3a maranéhanana, aranjeunna plotted nu trajectories pamakéan pikeun tilu taun: 1883, 1910, jeung 1950. Ieu tilu taun babagi hiji pola umum: saeutik pamakéan saméméh taun éta, teras spike, mangka buruk. Hareup, mun ngitung laju buruk keur unggal taun, Michel sareng kolega Anjeun diitung teh "satengah-hirup" unggal taun pikeun sakabéh taun antara 1875 jeung 1975. Dina inohong 3a maranéhanana (inset), maranéhna némbongkeun yén satengah hirup unggal sataun anu turunna, sarta aranjeunna pamadegan yén ieu ngandung harti yén urang téh forgetting kaliwat gancang tur gancang. Aranjeunna dipaké Vérsi 1 tina basa korpus Inggris, tapi salajengna Google geus ngarilis versi kadua korpus dina. Mangga baca sakabeh bagéan pertanyaan sateuacan Anjeun ngawitan coding.

    aktivitas ieu bakal masihan nu prakték nulis kode reusable, alih basa hasilna, sarta data wrangling (kayaning gawé bareng file kikuk jeung nanganan data leungit). aktivitas ieu ogé bakal mantuan anjeun meunang nepi na ngajalankeun sareng dataset euyeub tur metot.

    1. Meunang data atah ti ramatloka Google Buku NGram Viewer. Dina sababaraha hal, anjeun kudu make versi 2 ti korpus basa Inggris, anu dirilis dina bulan Juli 1, 2012. Uncompressed, file ieu 1.4GB.

    2. Deui ka bagian utama inohong 3a of Michel et al. (2011) . Nyieun deui inohong ieu, anjeun bakal kudu dua file: hiji diundeur di bagian (a) jeung "total diitung" file, nu bisa Anjeun pake pikeun ngarobah éta diitung atah kana babandingan. Catetan yén total file diitung boga struktur nu bisa nyieun bit teuas maca dina. Dupi versi 2 ti data NGram ngahasilkeun hasil sarupa jelema dibere di Michel et al. (2011) , nu dumasar kana versi 1 data?

    3. Ayeuna pariksa grafik anjeun ngalawan grafik dijieun ku NGram Viewer.

    4. Deui inohong 3a (inohong utama), tapi robah dina \(y\) -axis jadi count nyebut atah (teu laju nyebutkeun).

    5. Teu beda antara (b) jeung (d) mingpin anjeun reevaluate salah sahiji hasil Michel et al. (2011). Naha atawa naha henteu?

    6. Ayeuna, ngagunakeun proporsi nyebutkeun, ngayakeun réplikasi nu inset sahiji inohong 3a. Hartina, tiap taun antara 1875 jeung 1975, ngitung satengah hirup tina sataun éta. Satengah-hirup diartikeun janten jumlah taun nu lulus saméméh proporsi nyebutkeun ngahontal satengah nilai puncak na. Catet yén Michel et al. (2011) ngalakukeun hal nu leuwih pajeulit keur estimasi satengah hirup-tingali bagian III.6 tina ngarojong Émbaran-tapi Online maranéhna ngaku yen duanana deukeut ngahasilkeun hasil nu sarupa. Teu versi 2 ti data NGram ngahasilkeun hasil sarupa jelema dibere di Michel et al. (2011) , nu dumasar kana versi 1 data? (Hint: Ulah heran lamun eta henteu.)

    7. Éta aya taun nu éta outlier kayaning taun nya éta poho utamana gancang atawa sabagian lalaunan? Sakeudeung speculate ngeunaan kamungkinan alesan pikeun pola nu na ngajelaskeun kumaha anjeun dicirikeun nu outlier.

    8. Ayeuna ngayakeun réplikasi hasilna ieu versi 2 ti data NGrams di Cina, Perancis, Jerman, Ibrani, Italia, Rusia jeung Spanyol.

    9. Ngabandingkeun peuntas sagala basa, éta aya taun nu éta outlier, kayaning taun nya éta poho utamana gancang atawa sabagian lalaunan? Sakeudeung speculate ngeunaan kamungkinan alesan pikeun pola éta.

  7. [ pisan teuas , pendataan , merlukeun coding , anu paling dipikaresep ] Penney (2016) digali naha publisitas nyebar ngeunaan NSA / prisma panjagaan (ie, wahyu Snowden) dina Juni 2013 ieu pakait sareng panurunan seukeut tur ngadadak di lalulintas keur artikel Wikipedia dina jejer nu ngangkat masalah privacy. Lamun kitu, robah ieu kabiasaan bakal konsisten jeung éfék chilling hasilna tina panjagaan massa. Pendekatan of Penney (2016) anu kadangkala disebut hiji rarancang deret waktu interrupted, sarta eta pakait jeung deukeut digambarkeun dina bagian 2.4.3.

    Pikeun milih kecap konci topik, Penney disebut daptar dipaké ku Dinas AS NKRI Kaamanan pikeun nyukcruk tur ngawaskeun média sosial. Daptar DHS categorizes istilah pilarian tangtu kana rentang isu, nyaéta "Paduli Kaséhatan," "infrasturktur Kaamanan," sarta "terorisme". Pikeun grup pangajian, Penney dipaké dina 48 kecap konci nu patali jeung "terorisme" (tingali tabél lampiran 8 ). Anjeunna lajeng aggregated Wikipedia artikel view diitung dina dasar bulanan keur 48 artikel Wikipédia nu pakait leuwih periode 32-bulan, ti awal Januari 2012 nepi ka ahir Agustus 2014. Pikeun nguatkeun argumen na, manéhna ogé dijieun sababaraha grup ngabandingkeun ku nyukcruk pintonan artikel dina jejer lianna.

    Kiwari, anjeun bade ngayakeun réplikasi jeung manjangkeun Penney (2016) . Sakabéh data atah nu bakal butuh pikeun aktivitas ieu sadia ti Wikipedia. Atawa Anjeun bisa meunangkeun eta ti wikipediatrend Sunda-pakét (Meissner and R Core Team 2016) . Lamun anjeun nulis nepi réspon Anjeun, mangga catetan data anu sumber nu dipaké. (Catetan yen aktivitas sarua ieu oge mucunghul dina bab 6.) aktivitas ieu bakal masihan nu prakték di data wrangling jeung pamikiran ngeunaan percobaan alam di sumber data badag. Ieu ogé bakal meunang anjeun nepi na ngajalankeun sareng sumber data berpotensi metot pikeun proyék-proyék hareup.

    1. Baca Penney (2016) sarta ngayakeun réplikasi inohong na 2 nu mintonkeun pintonan kaca keur "terorisme" Kaca -related saméméh jeung sanggeus wahyu Snowden. Naksir papanggihan.
    2. Salajengna, ngayakeun réplikasi inohong 4A, nu compares grup ulikan ( "terorisme" artikel -related) sareng group comparator ngagunakeun kecap konci categorized sahandapeun "DHS & lianna Agénsi" tina daptar DHS (tingali lampiran tabel 10 sarta footnote 139). Naksir papanggihan.
    3. Dina bagian (b) nu dibandingkeun grup pangajian kalawan hiji group comparator. Penney ogé dibandingkeun kalawan dua grup lianna comparator: "infrasturktur Kaamanan" patali artikel (lampiran tabel 11) jeung kaca Wikipédia populér (lampiran tabel 12). Datang nepi ka hiji grup comparator alternatif, jeung nguji naha papanggihan tina bagian (b) nu sénsitip ka pilihan Anjeun tina grup comparator. pilihan ngajadikeun paling rasa nu? Naha?
    4. Penney nyatakeun yén kecap konci anu patali jeung "terorisme" anu dipaké pikeun pilih artikel Wikipedia sabab pamaréntah AS dicutat térorisme salaku leresan konci pikeun lila panjagaan online na. Salaku dipariksa 48 "terorisme" kecap konci -related ieu, Penney (2016) ogé dipigawé hiji survéy on MTurk, nanyakeun responden kana meunteun unggal kecap konci HT dina watesan gangguan Pamaréntahan, Privasi-sénsitip, sarta dijauhkeun (lampiran tabel 7 na 8 ). Ngayakeun réplikasi survey on MTurk tur dibandingkeun hasil Anjeun.
    5. Dumasar hasil dina bagian (d) jeung bacaan Anjeun artikel, anjeun satuju sareng pilihan Penney ngeunaan konci topik dina kelompok studi? Naha atawa naha henteu? Lamun henteu, naon anu anjeun nyarankeun gantina?
  8. [ gampil ] Efrati (2016) dilaporkeun, dumasar informasi rahasia, éta "total babagi" dina Facebook kungsi ditolak ku ngeunaan 5,5 taun% leuwih sataun bari "aslina siaran babagi" éta handap taun 21% leuwih sataun. turunna ieu utamana akut jeung pamaké Facebook dina 30 taun umur. laporan attributed turunna ka dua faktor. Hiji anu tumuwuhna di Jumlah "babaturan" urang kudu on Facebook. The séjén téh boga sawatara kagiatan babagi geus bergeser ka olahtalatah jeung ka pesaing kayaning Snapchat. laporan oge wangsit ti sababaraha taktik Facebook sempet diusahakeun naekeun babagi, kaasup tweaks algoritma News Feed nu nyieun tulisan aslina beuki nonjol, kitu ogé panginget periodik tina tulisan aslina jeung "Di Poé Ieu" fitur. implikasi Naon, upami wae, ngalakukeun papanggihan ieu geus keur peneliti anu hoyong nganggo Facebook salaku sumber data?

  9. [ sedeng ] Naon nya éta selisih a sosiolog jeung sajarah hiji? Numutkeun Goldthorpe (1991) , anu bédana utama control leuwih pendataan. Sajarah kapaksa ngagunakeun titilar, sedengkeun ahli sosiologi tiasa tukang ngaput pendataan maranéhna pikeun tujuan husus. Baca Goldthorpe (1991) . Kumaha ieu beda antara sosiologi jeung sajarah nu patali jeung pamanggih custommades na readymades?

  10. [ teuas ] Ieu ngawangun dina quesiton saméméhna. Goldthorpe (1991) Drew sababaraha réspon kritis, kaasup salah sahiji tina maung Hart (1994) yén ditantang bakti Goldthorpe urang ka tukang ngaput data dijieun. Netelakeun keterbatasan poténsi data tukang ngaput-dijieun, Hart digambarkeun Gelut Project nu makmur, survéy badag pikeun ngukur hubungan antara kelas sosial jeung voting yén ieu dilakukeun ku Goldthorpe sareng kolega Anjeun di pertengahan 1960-an. Salaku salah sahiji bisa nyangka ti ulama anu favored data ngaliwatan data kapanggih dirancang, Gelut Project nu makmur dikumpulkeun data nya éta tailored ka alamat téori anyar diusulkeun ngeunaan masa depan kelas sosial dina jaman ngaronjatkeun standar hirup. Tapi, Goldthorpe sareng kolega Anjeun kumaha bae "poho" pikeun ngumpulkeun informasi ngeunaan kabiasaan voting ngeunaan awéwé. Di dieu nu kumaha maung Hart (1994) diringkeskeun sakabeh episode:

    "... eta [nyaéta] susah ulah kacindekan yén awéwé anu disingkahkeun kusabab ieu 'tukang ngaput dijieun' dataset ieu dipasrahkeun ku logika paradigmatik nu kaasup pangalaman bikang. Disetir ku visi teoritis ngeunaan eling kelas na Peta sakumaha preoccupations jalu ..., Goldthorpe sareng kolega Anjeun na diwangun susunan proofs empiris nu fed na dipupuk asumsi teoritis sorangan tinimbang exposing aranjeunna ka uji valid of adequacy ".

    Hart dituluykeun:

    "The papanggihan empiris tina Project Gelut makmur ngabejaan urang langkung ngeunaan nilai masculinist tina sosiologi abad patengahan ti aranjeunna ngawartosan prosés stratifikasi, pulitik sarta hirup bahan".

    Dupi anjeun mikir conto sejen dimana pendataan tukang ngaput-dijieun boga biases tina collector data diwangun kana eta? Kumaha carana sangkan ieu ngabandingkeun kana confounding algorithmic? implikasi Naon bisa kieu gaduh keur nalika peneliti kedah nganggo readymades na nalika aranjeunna kedah nganggo custommades?

  11. [ sedeng ] Dina ieu bab, Kuring geus contrasted data dikumpulkeun ku peneliti pikeun peneliti jeung rékaman administrasi dijieun ku pausahaan jeung pamaréntah. Sababaraha urang nelepon ieu rékaman administrasi "kapanggih data," mana maranéhna kontras kalayan "data dirancang". Memang bener yén rékaman administrasi anu kapanggih ku panalungtik, tapi maranéhanana ogé pohara dirancang. Contona, pausahaan tech modern dianggo pisan teuas pikeun ngumpulkeun sarta milah data maranéhanana. Ku kituna, ieu rékaman administrasi duanana kapanggih sarta dirancang, eta ngan gumantung kana sudut pandang anjeun (inohong 2.12).

    Gambar 2,12: gambar ieu duanana a bebek jeung kelenci; naon nu katingali gumantung kana sudut pandang Anjeun. sumber data badag duanana kapanggih na dirancang; deui, naon nu katingali gumantung kana sudut pandang Anjeun. Contona, rékaman panggero data dikumpulkeun ku parusahaan mobile-telepon nu kapanggih data ti perspektif panalungtik a. Tapi, ieu rékaman sarua pasti aya data dirancang ti perspektif batur digawé di jurusan tagihan ti parusahaan telepon. Sumber: Popular Élmu Bulanan (1899) / Wikimedia Commons.

    Gambar 2,12: gambar ieu duanana a bebek jeung kelenci; naon nu katingali gumantung kana sudut pandang Anjeun. sumber data badag duanana kapanggih na dirancang; deui, naon nu katingali gumantung kana sudut pandang Anjeun. Contona, rékaman panggero data dikumpulkeun ku parusahaan mobile-telepon nu kapanggih data ti perspektif panalungtik a. Tapi, ieu rékaman sarua pasti aya data dirancang ti perspektif batur digawé di jurusan tagihan ti parusahaan telepon. Sumber: Popular Élmu Bulanan (1899) / Wikimedia Commons .

    Nyadiakeun conto sumber data dimana ningali eta duanana sakumaha kapanggih na dirancang ieu kacida ngabantu lamun maké éta sumber data pikeun ieu panalungtikan.

  12. [ gampil ] Dina karangan wijaksana, Christian Sandvig na Eszter Hargittai (2015) pamisah panalungtikan digital kana dua kategori lega gumantung naha sistem digital mangrupa "alat" atawa "obyek pangajaran." Hiji conto anu munggaran Jenis-mana sistem anu hiji alat-mangrupakeun hasil panalungtikan ku Bengtsson sareng kolega Anjeun (2011) dina ngagunakeun data mobile-telepon ka lagu migrasi sanggeus gempa di Haiti dina 2010. hiji conto tina kadua jenis-mana sistem nu mangrupa objek ulikan-nyaéta panalungtikan ku Jensen (2007) dina sabaraha bubuka ponsel sakuliah Kerala, India impacted fungsi tina pasar pikeun lauk. Kuring manggihan bedana ieu mantuan sabab clarifies yén studi ngagunakeun sumber data digital bisa boga gol rada béda sanajan maranéhna téh maké jenis sarua sumber data. Dina raraga jang meberkeun netelakeun bedana ieu ngajelaskeun opat studi nu tos Anjeun katingal: dua nu make sistem digital jadi hiji alat sareng dua anu make sistem digital jadi hiji obyék ulikan. Anjeun tiasa make conto ti surah ieu upami anjeun hoyong.