aktiviti

  • darjah kesukaran: mudah mudah , sederhana sederhana , keras keras , sangat susah sangat susah
  • memerlukan matematik ( memerlukan matematik )
  • memerlukan pengekodan ( memerlukan pengekodan )
  • pengumpulan data ( pengumpulan data )
  • kegemaran saya ( kegemaran saya )
  1. [ sederhana , kegemaran saya ] Pengelupasan algoritma adalah masalah dengan Trend Google Flu. Baca karya tulis oleh Lazer et al. (2014) , dan tulis e-mel yang ringkas, jelas kepada seorang jurutera di Google yang menerangkan masalah itu dan menawarkan idea bagaimana untuk memperbaikinya.

  2. [ sederhana ] Bollen, Mao, and Zeng (2011) mendakwa bahawa data dari Twitter boleh digunakan untuk meramalkan pasaran saham. Dapatan ini membawa kepada penciptaan dana lindung nilai-Derwent Capital Markets-untuk melabur dalam pasaran saham berdasarkan data yang dikumpul dari Twitter (Jordan 2010) . Apakah bukti yang ingin anda lihat sebelum meletakkan wang anda dalam dana itu?

  3. [ mudah Walaupun beberapa penyokong kesihatan awam menganggap e-rokok sebagai bantuan yang berkesan untuk berhenti merokok, ada yang memberi amaran mengenai potensi risiko, seperti tahap nikotin yang tinggi. Bayangkan seorang penyelidik memutuskan untuk mengkaji pendapat umum terhadap e-rokok dengan mengumpul jawatan Twitter berkaitan e-rokok dan menjalankan analisis sentimen.

    1. Apakah tiga bias yang mungkin anda bimbangkan dalam kajian ini?
    2. Clark et al. (2016) berlari seperti kajian sedemikian. Pertama, mereka mengumpulkan 850,000 tweet yang menggunakan kata kunci yang berkaitan dengan e-rokok dari Januari 2012 hingga Disember 2014. Setelah pemeriksaan yang lebih dekat, mereka menyedari bahawa banyak tweet ini telah dimuatkan secara automatik (iaitu, tidak dihasilkan oleh manusia) dan banyak tweet automatik itu pada dasarnya iklan. Mereka membangunkan algoritma pengesanan manusia untuk memisahkan tweet automatik dari tweet organik. Menggunakan algoritma pengesan manusia ini, mereka mendapati bahawa 80% daripada tweet telah automatik. Adakah temuan ini mengubah jawapan anda kepada bahagian (a)?
    3. Apabila mereka membandingkan sentimen dalam tweet organik dan automatik, mereka mendapati bahawa tweet automatik lebih positif daripada tweet organik (6.17 berbanding 5.84). Adakah temuan ini mengubah jawapan anda kepada (b)?
  4. [ mudah ] Pada bulan November 2009, Twitter menukar soalan dalam kotak tweet dari "Apa yang anda lakukan?" Kepada "Apa yang berlaku?" (Https://blog.twitter.com/2009/whats-happening).

    1. Bagaimana anda berfikir perubahan gesaan akan mempengaruhi siapa tweet dan / atau apa yang mereka tweet?
    2. Namakan satu projek penyelidikan yang mana anda lebih suka "Apa yang anda lakukan?" Terangkan mengapa.
    3. Namakan satu projek penyelidikan yang mana anda lebih suka "Apa yang sedang terjadi?" Terangkan mengapa.
  5. [ mudah ] "Retweets" sering digunakan untuk mengukur pengaruh dan penyebaran pengaruh di Twitter. Pada mulanya, pengguna perlu menyalin dan menyisipkan tweet yang mereka suka, tandakan pengarang asal dengan pemegangnya, dan taip secara manual "RT" sebelum tweet untuk menunjukkan bahawa ia adalah tweet semula. Kemudian, pada tahun 2009, Twitter menambah butang "retweet". Pada bulan Jun 2016, Twitter membolehkan pengguna untuk membalas tweet mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Adakah anda fikir perubahan ini akan mempengaruhi bagaimana anda menggunakan "mendengarkan" dalam penyelidikan anda? Mengapa atau mengapa tidak?

  6. [ sangat susah , pengumpulan data , memerlukan pengekodan , kegemaran saya Dalam kertas yang dibincangkan secara meluas, Michel dan rakan-rakan (2011) menganalisis kandungan lebih daripada lima juta buku yang didigit dalam usaha untuk mengenal pasti trend budaya jangka panjang. Data yang mereka gunakan kini telah dikeluarkan sebagai dataset Google NGrams, dan oleh itu kita boleh menggunakan data untuk mereplikasi dan memanjangkan beberapa karya mereka.

    Dalam salah satu daripada banyak hasil dalam kertas itu, Michel dan rakan sekerja berpendapat bahawa kita lupa dengan lebih cepat dan lebih cepat. Untuk tahun tertentu, katakan "1883," mereka mengira perkadaran 1-gram yang diterbitkan dalam setiap tahun antara 1875 dan 1975 yang "1883". Mereka berpendapat bahawa bahagian ini adalah ukuran kepentingan dalam peristiwa yang berlaku pada tahun itu. Dalam angka 3a, mereka merancang lintasan penggunaan selama tiga tahun: 1883, 1910, dan 1950. Tiga tahun ini berkongsi corak yang sama: penggunaan sedikit sebelum tahun itu, kemudian lonjakan, kemudian merosot. Seterusnya, untuk mengira kadar kerosakan untuk setiap tahun, Michel dan rakan sekerja mengira "separuh hayat" setiap tahun selama bertahun-tahun antara 1875 dan 1975. Dalam angka 3a (inset), mereka menunjukkan bahawa separuh hayat setiap tahun semakin berkurang, dan mereka berpendapat bahawa ini bermakna bahawa kita melupakan masa lalu lebih pantas dan lebih cepat. Mereka menggunakan Versi 1 korpus bahasa Inggeris, tetapi kemudiannya Google telah mengeluarkan versi kedua korpus. Sila baca semua bahagian soalan sebelum anda memulakan pengekodan.

    Aktiviti ini akan memberi anda amalan menulis kod yang boleh digunakan semula, menafsirkan hasil, dan bertengkar data (seperti bekerja dengan fail yang canggung dan mengendalikan data yang hilang). Aktiviti ini juga akan membantu anda bangun dan menjalankan dengan kumpulan data yang kaya dan menarik.

    1. Dapatkan data mentah dari laman web Google Books NGram Viewer. Khususnya, anda harus menggunakan versi 2 corpus bahasa Inggeris, yang dikeluarkan pada 1 Julai 2012. Tidak dikompresi, fail ini adalah 1.4GB.

    2. Buat semula bahagian utama dalam Rajah 3a Michel et al. (2011) . Untuk mencipta angka ini, anda memerlukan dua fail: yang anda muat turun di bahagian (a) dan fail "jumlah tuduhan", yang anda boleh gunakan untuk menukar tuduhan mentah ke dalam perkadaran. Perhatikan bahawa jumlah tuduhan fail mempunyai struktur yang boleh menjadikannya agak sukar untuk dibaca. Adakah versi 2 data NGram menghasilkan hasil yang sama dengan yang ditunjukkan dalam Michel et al. (2011) , yang berdasarkan data versi 1?

    3. Sekarang periksa graf anda terhadap graf yang dicipta oleh NGram Viewer.

    4. Buat semula angka 3a (angka utama), tetapi tukar \(y\) -kaki menjadi kiraan menyebut mentah (bukan kadar sebutan).

    5. Adakah perbezaan di antara (b) dan (d) membawa anda untuk menilai semula mana-mana keputusan Michel et al. (2011). Mengapa atau mengapa tidak?

    6. Kini, menggunakan perkadaran sebutan, meniru inset angka 3a. Iaitu, untuk setiap tahun antara 1875 dan 1975, hitung separuh hayat tahun itu. Separuh hayat ditakrifkan sebagai bilangan tahun yang berlalu sebelum bahagian menyebut mencapai separuh nilai puncaknya. Perhatikan bahawa Michel et al. (2011) melakukan sesuatu yang lebih rumit untuk menganggarkan bahagian separuh hayat-lihat seksyen III.6 dari Maklumat Sokongan Dalam Talian-tetapi mereka mendakwa bahawa kedua-dua pendekatan menghasilkan hasil yang sama. Adakah versi 2 data NGram menghasilkan hasil yang sama dengan yang ditunjukkan dalam Michel et al. (2011) , yang berdasarkan data versi 1? (Petunjuk: Jangan terkejut jika tidak.)

    7. Adakah terdapat mana-mana tahun yang diluar jangkaan seperti tahun-tahun yang dilupakan terutamanya dengan cepat atau perlahan-lahan? Secara ringkas berspekulasi tentang sebab-sebab yang mungkin untuk corak tersebut dan terangkan bagaimana anda mengenal pasti penyebabnya.

    8. Kini meniru hasil ini untuk versi 2 data NGrams dalam bahasa Cina, Perancis, Jerman, Ibrani, Itali, Rusia dan Sepanyol.

    9. Membandingkan semua bahasa, adakah terdapat tahun-tahun yang berlainan, seperti tahun-tahun yang dilupakan dengan cepat atau amat perlahan? Secara ringkas berspekulasi tentang kemungkinan sebab untuk corak itu.

  7. [ sangat susah , pengumpulan data , memerlukan pengekodan , kegemaran saya Penney (2016) meneroka sama ada publisiti yang meluas mengenai pengawasan NSA / PRISM (iaitu, pendedahan Snowden) pada bulan Jun 2013 dikaitkan dengan penurunan tajam dalam trafik ke artikel Wikipedia mengenai topik yang menimbulkan kebimbangan privasi. Jika ya, perubahan dalam tingkah laku ini akan selaras dengan kesan penyejukan akibat pengawasan massa. Pendekatan Penney (2016) kadangkala dipanggil reka bentuk siri masa yang terganggu , dan ia berkaitan dengan pendekatan yang diterangkan dalam seksyen 2.4.3.

    Untuk memilih kata kunci topik, Penney merujuk kepada senarai yang digunakan oleh Jabatan Keselamatan Dalam Negeri AS untuk mengesan dan mengawasi media sosial. Senarai DHS mengkategorikan istilah pencarian tertentu ke dalam pelbagai isu, iaitu "Keprihatinan Kesihatan," "Keselamatan Infrastruktur," dan "Keganasan." Bagi kumpulan kajian, Penney menggunakan 48 kata kunci yang berkaitan dengan "Keganasan" (lihat Lampiran 8 ). Beliau kemudian mengagregat pandangan artikel artikel Wikipedia secara bulanan untuk 48 artikel Wikipedia yang bersamaan dalam tempoh 32 bulan, dari awal Januari 2012 hingga akhir bulan Ogos 2014. Untuk memperkuat hujahnya, beliau juga membuat beberapa kumpulan perbandingan dengan menjejaki pandangan artikel mengenai topik lain.

    Kini, anda akan meniru dan memperluaskan Penney (2016) . Semua data mentah yang anda perlukan untuk aktiviti ini boleh didapati dari Wikipedia. Atau anda boleh mendapatkannya dari pakej wikipediatrend (Meissner and R Core Team 2016) . Apabila anda menulis jawapan anda, sila perhatikan sumber data yang anda gunakan. (Perhatikan bahawa aktiviti yang sama ini juga terdapat dalam bab 6.) Aktiviti ini akan memberi anda amalan dalam wrangling data dan memikirkan eksperimen semula jadi dalam sumber data besar. Ia juga akan membawa anda dan berjalan dengan sumber data yang berpotensi menarik untuk projek-projek masa depan.

    1. Baca Penney (2016) dan meniru angka 2nya yang menunjukkan paparan halaman untuk halaman "Terorisme" yang berkaitan sebelum dan selepas pendedahan Snowden. Terangkan dapatan.
    2. Seterusnya, tiru angka 4A, yang membandingkan kumpulan kajian (artikel-artikel yang berkaitan dengan "Terorisme") dengan kumpulan pembanding menggunakan kata kunci yang dikategorikan di bawah "DHS & Agensi Lain" dari senarai DHS (lihat lampiran jadual 10 dan nota kaki 139). Terangkan dapatan.
    3. Dalam bahagian (b) anda membandingkan kumpulan kajian dengan satu kumpulan pembanding. Penney juga dibandingkan dengan dua kumpulan komparator lain: artikel berkaitan Keselamatan "Infrastruktur" (lampiran jadual 11) dan halaman Wikipedia yang popular (lampiran jadual 12). Datang dengan kumpulan pembanding alternatif, dan uji sama ada penemuan dari bahagian (b) sensitif kepada pilihan kumpulan pembanding anda. Pilihan mana yang paling masuk akal? Mengapa?
    4. Penney menyatakan bahawa kata kunci yang berkaitan dengan "Keganasan" digunakan untuk memilih artikel Wikipedia kerana kerajaan Amerika mengutuk keganasan sebagai alasan utama untuk amalan pengawasan dalam taliannya. Sebagai pemeriksaan terhadap kata kunci yang berkaitan dengan "Terorisme" ini, Penney (2016) juga melakukan tinjauan mengenai MTurk, meminta responden untuk menilai setiap kata kunci HT dari segi Masalah Kerajaan, Privasi-Sensitif, dan Pengelakan (lampiran meja 7 dan 8 ). Ulangi kajian pada MTurk dan bandingkan keputusan anda.
    5. Berdasarkan keputusan dalam bahagian (d) dan bacaan anda artikel, adakah anda bersetuju dengan pilihan kata kunci Penney dalam kumpulan kajian? Mengapa atau mengapa tidak? Jika tidak, apa yang anda cadangkan sebaliknya?
  8. [ mudah ] Efrati (2016) melaporkan, berdasarkan maklumat rahsia, "jumlah perkongsian" di Facebook telah berkurangan sekitar 5.5% tahun ke tahun sementara "perkongsian siaran asal" turun 21% tahun ke tahun. Penurunan ini amat akut dengan pengguna Facebook di bawah 30 tahun. Laporan itu disebabkan penurunan kepada dua faktor. Satu adalah pertumbuhan bilangan orang "kawan" yang ada di Facebook. Yang lain adalah bahawa beberapa aktiviti perkongsian telah beralih kepada pemesejan dan kepada pesaing seperti Snapchat. Laporan itu juga mendedahkan beberapa taktik Facebook telah cuba meningkatkan perkongsian, termasuk tweak algoritma News Feed yang membuat catatan asal lebih menonjol, serta peringatan berkala dari jawatan yang asal dengan ciri "Pada Hari Ini". Apa implikasi, jika ada, adakah penemuan ini mempunyai untuk penyelidik yang ingin menggunakan Facebook sebagai sumber data?

  9. [ sederhana ] Apakah perbezaan antara sosiologi dan ahli sejarah? Menurut Goldthorpe (1991) , perbezaan utama adalah kawalan ke atas pengumpulan data. Ahli sejarah terpaksa menggunakan peninggalan, sedangkan ahli sosiologi boleh menyesuaikan pengumpulan data mereka dengan tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbezaan antara sosiologi dan sejarah yang berkaitan dengan idea adat dan pembacaan?

  10. [ keras ] Ini dibina pada pertanyaan sebelum ini. Goldthorpe (1991) menarik beberapa tindak balas kritikal, termasuk satu dari Nicky Hart (1994) yang mencabar kesetiaan Goldthorpe untuk menyesuaikan data. Untuk menjelaskan potensi potensi data buatan, Hart menggambarkan Projek Pekerja Kekayaan, sebuah kaji selidik besar untuk mengukur hubungan antara kelas sosial dan pengundian yang dijalankan oleh Goldthorpe dan rakan sekerja pada pertengahan 1960-an. Seperti yang dijangkakan oleh seorang sarjana yang menyukai data yang direka berdasarkan data yang dijumpai, Projek Pekerja Mampukah mengumpul data yang disesuaikan untuk menangani teori yang baru-baru ini yang dicadangkan mengenai masa depan kelas sosial dalam era peningkatan taraf hidup. Tetapi, Goldthorpe dan rakan sekerjanya "lupa" untuk mengumpul maklumat mengenai tingkah laku pengundian wanita. Begini bagaimana Nicky Hart (1994) meringkaskan keseluruhan episodnya:

    "... sukar untuk mengelakkan kesimpulan bahawa wanita dihilangkan kerana dataset 'tailor made' ini dibatasi oleh logika paradigmatic yang tidak termasuk pengalaman perempuan. Didorong oleh wawasan teori kesedaran dan tindakan kelas sebagai kesungguhan lelaki ..., Goldthorpe dan rakan-rakannya membina satu set bukti empirikal yang memberi makan dan menumbuhkan anggapan teori mereka sendiri dan bukannya mendedahkan mereka kepada ujian kecukupan yang sah. "

    Hart meneruskan:

    "Penemuan empiris Projek Pekerja Mampuh memberitahu kami lebih lanjut mengenai nilai-nilai masculin dari sosiologi pertengahan abad daripada mereka memberitahu proses-proses stratifikasi, politik dan kehidupan material."

    Bolehkah anda memikirkan contoh-contoh lain di mana koleksi data yang direka khas mempunyai berat sebelah pemungut data yang dibina ke dalamnya? Bagaimanakah ini berbanding dengan penggabungan algoritma? Apakah implikasi yang mungkin berlaku ketika penyelidik menggunakan readymade dan apabila mereka menggunakan custommades?

  11. [ sederhana ] Dalam bab ini, saya telah membandingkan data yang dikumpul oleh penyelidik untuk penyelidik dengan rekod pentadbiran yang dibuat oleh syarikat dan kerajaan. Sesetengah orang memanggil rekod pentadbiran ini "mendapati data," yang mereka sebaliknya dengan "data yang direka." Memang benar bahawa rekod pentadbiran didapati oleh penyelidik, tetapi mereka juga sangat direka. Sebagai contoh, syarikat-syarikat teknologi moden bekerja keras untuk mengumpul dan mengurus data mereka. Oleh itu, rekod pentadbiran ini kedua-duanya didapati dan direka, ia hanya bergantung kepada perspektif anda (angka 2.12).

    Rajah 2.12: Gambar adalah kedua-dua itik dan arnab; apa yang anda lihat bergantung pada perspektif anda. Sumber data besar didapat dan direka bentuk; Sekali lagi, apa yang anda lihat bergantung pada perspektif anda. Sebagai contoh, rekod data panggilan yang dikutip oleh syarikat telefon mudah alih dijumpai data dari perspektif seorang penyelidik. Tetapi, rekod yang sama ini direka bentuk data dari perspektif seseorang yang bekerja di jabatan bil syarikat telefon. Sumber: Popular Science Monthly (1899) / Wikimedia Commons.

    Rajah 2.12: Gambar adalah kedua-dua itik dan arnab; apa yang anda lihat bergantung pada perspektif anda. Sumber data besar didapat dan direka bentuk; Sekali lagi, apa yang anda lihat bergantung pada perspektif anda. Sebagai contoh, rekod data panggilan yang dikutip oleh syarikat telefon mudah alih dijumpai data dari perspektif seorang penyelidik. Tetapi, rekod yang sama ini direka bentuk data dari perspektif seseorang yang bekerja di jabatan bil syarikat telefon. Sumber: Popular Science Monthly (1899) / Wikimedia Commons .

    Berikan contoh sumber data yang melihatnya sama ada ditemui dan direka dengan baik apabila menggunakan sumber data untuk penyelidikan.

  12. [ mudah Dalam esei yang bijak, Christian Sandvig dan Eszter Hargittai (2015) membahagikan penyelidikan digital ke dalam dua kategori yang luas bergantung kepada sama ada sistem digital adalah "instrumen" atau "objek kajian." Contoh jenis pertama-di mana sistem itu sebuah instrumen adalah penyelidikan oleh Bengtsson dan rakan sekerja (2011) menggunakan data telefon mudah alih untuk mengesan penghijrahan selepas gempa bumi di Haiti pada tahun 2010. Contoh jenis kedua-di mana sistem itu merupakan objek kajian-adalah penyelidikan oleh Jensen (2007) mengenai bagaimana pengenalan telefon mudah alih di seluruh Kerala, India memberi kesan kepada fungsi pasar untuk ikan. Saya mendapati perbezaan ini membantu kerana ia menjelaskan bahawa kajian menggunakan sumber data digital boleh mempunyai matlamat yang agak berbeza walaupun mereka menggunakan sumber data yang sama. Untuk lebih jelaskan perbezaan ini, huraikan empat kajian yang telah anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek kajian. Anda boleh menggunakan contoh dari bab ini jika anda mahu.