Kegiatan

  • tingkat kesulitan: mudah mudah , medium medium , keras keras , sangat keras sangat keras
  • membutuhkan matematika ( membutuhkan matematika )
  • membutuhkan pengkodean ( membutuhkan pengkodean )
  • pengumpulan data ( pengumpulan data )
  • kesukaanku ( kesukaanku )
  1. [ medium , kesukaanku ] Perancah algoritmik adalah masalah pada Google Pantau Flu Dunia. Bacalah makalah oleh Lazer et al. (2014) , dan menulis email singkat yang jelas kepada seorang insinyur di Google yang menjelaskan masalah dan menawarkan gagasan tentang cara memperbaikinya.

  2. [ medium ] Bollen, Mao, and Zeng (2011) mengklaim bahwa data dari Twitter dapat digunakan untuk memprediksi pasar saham. Temuan ini mengarah pada penciptaan hedge fund — Derwent Capital Markets — untuk berinvestasi di pasar saham berdasarkan data yang dikumpulkan dari Twitter (Jordan 2010) . Bukti apa yang ingin Anda lihat sebelum memasukkan uang Anda ke dalam dana itu?

  3. [ mudah ] Sementara beberapa pendukung kesehatan masyarakat menganggap e-rokok sebagai bantuan yang efektif untuk berhenti merokok, yang lain memperingatkan tentang potensi risiko, seperti tingginya tingkat nikotin. Bayangkan bahwa seorang peneliti memutuskan untuk mempelajari opini publik terhadap e-rokok dengan mengumpulkan posting Twitter yang berhubungan dengan e-rokok dan melakukan analisis sentimen.

    1. Apa tiga kemungkinan bias yang paling Anda khawatirkan dalam studi ini?
    2. Clark et al. (2016) hanya melakukan studi semacam itu. Pertama, mereka mengumpulkan 850.000 tweet yang menggunakan kata kunci terkait e-cigarette dari Januari 2012 hingga Desember 2014. Setelah pemeriksaan lebih dekat, mereka menyadari bahwa banyak dari tweet ini diotomatisasi (yaitu, tidak diproduksi oleh manusia) dan banyak dari tweet otomatis ini pada dasarnya iklan. Mereka mengembangkan algoritma pendeteksian manusia untuk memisahkan tweet otomatis dari tweet organik. Dengan menggunakan algoritma deteksi manusia ini mereka menemukan bahwa 80% dari tweet diotomatiskan. Apakah temuan ini mengubah jawaban Anda menjadi bagian (a)?
    3. Ketika mereka membandingkan sentimen dalam tweet organik dan otomatis, mereka menemukan bahwa tweet otomatis lebih positif daripada tweet organik (6.17 versus 5.84). Apakah temuan ini mengubah jawaban Anda ke (b)?
  4. [ mudah ] Pada bulan November 2009, Twitter mengubah pertanyaan di kotak tweet dari “Apa yang Anda lakukan?” Menjadi “Apa yang terjadi?” (Https://blog.twitter.com/2009/whats-happening).

    1. Menurut Anda, bagaimana perubahan petunjuk akan memengaruhi siapa yang tweet dan / atau apa yang mereka tweet?
    2. Sebutkan satu proyek penelitian yang Anda lebih suka meminta “Apa yang Anda lakukan?” Jelaskan mengapa.
    3. Sebutkan satu proyek penelitian yang lebih Anda sukai “Apa yang terjadi?” Jelaskan mengapa.
  5. [ mudah ] "Retweets" sering digunakan untuk mengukur pengaruh dan penyebaran pengaruh di Twitter. Awalnya, pengguna harus menyalin dan menempelkan tweet yang mereka sukai, menandai penulis asli dengan pegangannya, dan mengetik secara manual "RT" sebelum tweet untuk menunjukkan bahwa itu adalah retweet. Kemudian, pada tahun 2009, Twitter menambahkan tombol "retweet". Pada Juni 2016, Twitter memungkinkan pengguna untuk me-retweet tweets mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Apakah menurut Anda perubahan ini akan memengaruhi cara Anda menggunakan "retweets" dalam riset Anda? Mengapa atau mengapa tidak?

  6. [ sangat keras , pengumpulan data , membutuhkan pengkodean , kesukaanku ] Dalam makalah yang banyak dibahas, Michel dan rekan (2011) menganalisis konten lebih dari lima juta buku digital dalam upaya untuk mengidentifikasi tren budaya jangka panjang. Data yang mereka gunakan kini telah dirilis sebagai set data Google NGrams, sehingga kami dapat menggunakan data untuk mereplikasi dan memperluas beberapa pekerjaan mereka.

    Dalam salah satu dari banyak hasil di koran, Michel dan rekannya berpendapat bahwa kita melupakan lebih cepat dan lebih cepat. Untuk tahun tertentu, katakan "1883," mereka menghitung proporsi 1-gram yang diterbitkan setiap tahun antara 1875 dan 1975 yang "1883". Mereka beralasan bahwa proporsi ini adalah ukuran minat dalam peristiwa yang terjadi di tahun itu. Dalam gambar 3a mereka, mereka merencanakan lintasan penggunaan selama tiga tahun: 1883, 1910, dan 1950. Tiga tahun ini berbagi pola umum: sedikit penggunaan sebelum tahun itu, kemudian lonjakan, lalu membusuk. Selanjutnya, untuk mengukur tingkat pembusukan untuk setiap tahun, Michel dan rekan menghitung "paruh" setiap tahun untuk semua tahun antara 1875 dan 1975. Pada gambar 3a (inset), mereka menunjukkan bahwa waktu paruh masing-masing tahun menurun, dan mereka berpendapat bahwa ini berarti bahwa kita melupakan masa lalu lebih cepat dan lebih cepat. Mereka menggunakan Versi 1 dari corpus bahasa Inggris, tetapi kemudian Google telah merilis versi kedua dari corpus. Silakan baca semua bagian pertanyaan sebelum Anda mulai coding.

    Kegiatan ini akan memberi Anda berlatih menulis kode yang dapat digunakan kembali, menafsirkan hasil, dan pertengkaran data (seperti bekerja dengan file canggung dan menangani data yang hilang). Aktivitas ini juga akan membantu Anda memulai dan menjalankan dengan kumpulan data yang kaya dan menarik.

    1. Dapatkan data mentah dari situs web Google Books NGram Viewer. Secara khusus, Anda harus menggunakan versi 2 dari corpus bahasa Inggris, yang dirilis pada 1 Juli 2012. Tidak terkompresi, file ini adalah 1,4 GB.

    2. Menciptakan bagian utama dari gambar 3a Michel et al. (2011) . Untuk membuat ulang angka ini, Anda akan membutuhkan dua file: file yang Anda unduh sebagian (a) dan file "jumlah total", yang dapat Anda gunakan untuk mengonversi jumlah mentah menjadi proporsi. Perhatikan bahwa jumlah total file memiliki struktur yang mungkin membuatnya agak sulit untuk dibaca. Apakah versi 2 dari data NGram menghasilkan hasil yang sama dengan yang disajikan dalam Michel et al. (2011) , yang didasarkan pada data versi 1?

    3. Sekarang periksa grafik Anda terhadap grafik yang dibuat oleh NGram Viewer.

    4. Buat kembali gambar 3a (gambar utama), tetapi ubahlah \(y\) -kecil menjadi hitungan penyebutan mentah (bukan nilai penyebutan).

    5. Apakah perbedaan antara (b) dan (d) menuntun Anda untuk mengevaluasi kembali hasil apa pun dari Michel et al. (2011). Mengapa atau mengapa tidak?

    6. Sekarang, menggunakan proporsi penyebutan, mereplikasi inset gambar 3a. Artinya, untuk setiap tahun antara 1875 dan 1975, hitung waktu paruh tahun itu. Waktu paruh didefinisikan sebagai jumlah tahun yang berlalu sebelum proporsi penyebutan mencapai setengah nilai puncaknya. Perhatikan bahwa Michel et al. (2011) melakukan sesuatu yang lebih rumit untuk memperkirakan waktu paruh - lihat bagian III.6 dari Informasi Online Pendukung — tetapi mereka mengklaim bahwa kedua pendekatan tersebut menghasilkan hasil yang serupa. Apakah versi 2 dari data NGram menghasilkan hasil yang sama dengan yang disajikan dalam Michel et al. (2011) , yang didasarkan pada data versi 1? (Petunjuk: Jangan terkejut jika tidak.)

    7. Apakah ada tahun-tahun yang luar biasa seperti tahun-tahun yang terlupakan dengan sangat cepat atau sangat lambat? Secara singkat spekulasi tentang kemungkinan alasan untuk pola itu dan jelaskan bagaimana Anda mengidentifikasi outlier.

    8. Sekarang ulangi hasil ini untuk versi 2 data NGrams dalam bahasa China, Prancis, Jerman, Ibrani, Italia, Rusia, dan Spanyol.

    9. Membandingkan semua bahasa, apakah ada tahun-tahun yang luar biasa, seperti tahun-tahun yang terlupakan dengan sangat cepat atau sangat lambat? Secara singkat berspekulasi tentang kemungkinan alasan untuk pola itu.

  7. [ sangat keras , pengumpulan data , membutuhkan pengkodean , kesukaanku ] Penney (2016) mengeksplorasi apakah publisitas luas tentang pengawasan NSA / PRISM (yaitu, wahyu Snowden) pada Juni 2013 dikaitkan dengan penurunan tajam dan tiba-tiba dalam lalu lintas ke artikel Wikipedia tentang topik yang meningkatkan kekhawatiran privasi. Jika demikian, perubahan perilaku ini akan konsisten dengan efek dingin yang dihasilkan dari pengawasan massal. Pendekatan Penney (2016) kadang-kadang disebut desain seri waktu terputus , dan ini terkait dengan pendekatan yang dijelaskan pada bagian 2.4.3.

    Untuk memilih kata kunci topik, Penney mengacu pada daftar yang digunakan oleh Departemen Keamanan Dalam Negeri AS untuk melacak dan memantau media sosial. Daftar DHS mengkategorikan istilah pencarian tertentu ke dalam berbagai masalah, yaitu, "Kepedulian Kesehatan," "Keamanan Infrastruktur," dan "Terorisme." Untuk kelompok studi, Penney menggunakan 48 kata kunci yang terkait dengan "Terorisme" (lihat lampiran tabel 8 ). Dia kemudian mengumpulkan artikel Wikipedia dengan jumlah artikel per bulan untuk 48 artikel Wikipedia selama periode 32 bulan, dari awal Januari 2012 hingga akhir Agustus 2014. Untuk memperkuat argumennya, ia juga membuat beberapa kelompok pembanding dengan melacak pandangan artikel tentang topik lain.

    Sekarang, Anda akan mereplikasi dan memperluas Penney (2016) . Semua data mentah yang Anda perlukan untuk kegiatan ini tersedia dari Wikipedia. Atau Anda bisa mendapatkannya dari R-paket wikipediatrend (Meissner and R Core Team 2016) . Ketika Anda menulis tanggapan Anda, harap catat sumber data mana yang Anda gunakan. (Perhatikan bahwa kegiatan yang sama ini juga muncul di bab 6.) Kegiatan ini akan memberi Anda latihan dalam perdebatan data dan berpikir tentang eksperimen alami dalam sumber data besar. Ini juga akan membantu Anda dan berjalan dengan sumber data yang berpotensi menarik untuk proyek-proyek masa depan.

    1. Baca Penney (2016) dan ulangi gambarnya 2 yang menunjukkan tampilan halaman untuk halaman “Terorisme” yang terkait sebelum dan sesudah wahyu Snowden. Menafsirkan temuan.
    2. Selanjutnya, ulangi angka 4A, yang membandingkan kelompok studi (artikel terkait “Terorisme”) dengan kelompok pembanding menggunakan kata kunci yang dikategorikan dalam “DHS & Agensi Lainnya” dari daftar DHS (lihat lampiran tabel 10 dan catatan kaki 139). Menafsirkan temuan.
    3. Pada bagian (b) Anda membandingkan kelompok studi dengan satu kelompok pembanding. Penney juga membandingkan dengan dua kelompok pembanding lainnya: artikel terkait “Keamanan Infrastruktur” (lampiran tabel 11) dan halaman Wikipedia populer (lampiran tabel 12). Datang dengan kelompok pembanding alternatif, dan uji apakah temuan dari bagian (b) sensitif terhadap pilihan Anda dari kelompok pembanding. Pilihan mana yang paling masuk akal? Mengapa?
    4. Penney menyatakan bahwa kata kunci yang berkaitan dengan "Terorisme" digunakan untuk memilih artikel Wikipedia karena pemerintah AS menyebut terorisme sebagai pembenaran kunci untuk praktik pengawasan online. Sebagai cek dari 48 kata kunci “Terorisme” yang terkait ini, Penney (2016) juga melakukan survei pada MTurk, meminta responden untuk menilai setiap kata kunci ht dalam hal Masalah Pemerintah, Privasi-Sensitif, dan Penghindaran (lampiran tabel 7 dan 8 ). Replikasikan survei di MTurk dan bandingkan hasil Anda.
    5. Berdasarkan hasil pada bagian (d) dan pembacaan artikel Anda, apakah Anda setuju dengan pilihan kata kunci topik Penney dalam kelompok studi? Mengapa atau mengapa tidak? Jika tidak, apa yang akan Anda sarankan?
  8. [ mudah ] Efrati (2016) melaporkan, berdasarkan informasi rahasia, bahwa "total berbagi" di Facebook telah menurun sekitar 5,5% dari tahun ke tahun sementara "pembagian siaran asli" turun 21% dari tahun ke tahun. Penurunan ini sangat akut dengan pengguna Facebook di bawah 30 tahun. Laporan tersebut menghubungkan penurunan ke dua faktor. Salah satunya adalah pertumbuhan jumlah "teman" yang dimiliki orang di Facebook. Yang lainnya adalah bahwa beberapa aktivitas berbagi telah bergeser ke pesan dan ke pesaing seperti Snapchat. Laporan ini juga mengungkapkan beberapa taktik yang telah diupayakan Facebook untuk meningkatkan berbagi, termasuk tweak algoritma News Feed yang membuat posting asli lebih menonjol, serta pengingat berkala dari posting asli dengan fitur "On This Day". Apa implikasinya, jika ada, apakah temuan ini bagi para peneliti yang ingin menggunakan Facebook sebagai sumber data?

  9. [ medium ] Apa perbedaan antara seorang sosiolog dan sejarawan? Menurut Goldthorpe (1991) , perbedaan utama adalah kontrol atas pengumpulan data. Para sejarawan dipaksa untuk menggunakan relik, sedangkan sosiolog dapat menyesuaikan pengumpulan data mereka untuk tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbedaan antara sosiologi dan sejarah yang terkait dengan gagasan custommades dan readymades?

  10. [ keras ] Ini dibangun berdasarkan quesiton sebelumnya. Goldthorpe (1991) menarik sejumlah tanggapan kritis, termasuk salah satu dari Nicky Hart (1994) yang menantang pengabdian Goldthorpe terhadap data yang dibuat khusus. Untuk memperjelas batasan potensial data yang dibuat khusus, Hart menggambarkan Proyek Pekerja Afluen, sebuah survei besar untuk mengukur hubungan antara kelas sosial dan pemungutan suara yang dilakukan oleh Goldthorpe dan rekan pada pertengahan 1960-an. Seperti yang bisa diharapkan dari seorang sarjana yang menyukai data yang dirancang berdasarkan data yang ditemukan, Proyek Pekerja Afiliasi mengumpulkan data yang disesuaikan untuk membahas teori yang baru-baru ini diajukan tentang masa depan kelas sosial di era standar hidup yang meningkat. Namun, Goldthorpe dan koleganya entah bagaimana "lupa" untuk mengumpulkan informasi tentang perilaku memilih wanita. Beginilah cara Nicky Hart (1994) meringkas seluruh episode:

    “… Sulit untuk menghindari kesimpulan bahwa perempuan dihilangkan karena dataset 'tailor made' ini dibatasi oleh logika paradigmatik yang tidak mencakup pengalaman perempuan. Didorong oleh visi teoritis kesadaran kelas dan tindakan sebagai keasyikan laki-laki ..., Goldthorpe dan rekan-rekannya membangun seperangkat bukti empiris yang memberi makan dan memelihara asumsi teoritis mereka sendiri dan bukan mengekspos mereka ke uji kecukupan yang sah. ”

    Hart melanjutkan:

    "Temuan empiris Proyek Pekerja Afiliasi memberitahu kita lebih banyak tentang nilai-nilai masculinist sosiologi abad pertengahan daripada mereka menginformasikan proses stratifikasi, politik dan kehidupan material."

    Dapatkah Anda memikirkan contoh lain di mana pengumpulan data yang dibuat khusus memiliki bias pengumpul data yang dibangun di dalamnya? Bagaimana ini dibandingkan dengan pembaur algoritmik? Apa implikasinya terhadap hal ini ketika para peneliti harus menggunakan readymades dan kapan mereka harus menggunakan custommades?

  11. [ medium ] Dalam bab ini, saya telah membandingkan data yang dikumpulkan oleh peneliti untuk peneliti dengan catatan administratif yang dibuat oleh perusahaan dan pemerintah. Beberapa orang menyebut catatan administratif ini sebagai "data yang ditemukan", yang mereka bedakan dengan "data yang dirancang." Memang benar bahwa catatan administratif ditemukan oleh para peneliti, tetapi mereka juga sangat dirancang. Misalnya, perusahaan teknologi modern bekerja sangat keras untuk mengumpulkan dan mengkurasi data mereka. Jadi, catatan administrasi ini ditemukan dan dirancang, itu tergantung pada perspektif Anda (gambar 2.12).

    Gambar 2.12: Gambarnya adalah bebek dan kelinci; apa yang Anda lihat bergantung pada perspektif Anda. Sumber data besar ditemukan dan dirancang; lagi, apa yang Anda lihat tergantung pada perspektif Anda. Sebagai contoh, catatan panggilan data yang dikumpulkan oleh perusahaan telepon seluler ditemukan data dari perspektif seorang peneliti. Namun, catatan yang sama persis ini dirancang data dari perspektif seseorang yang bekerja di departemen penagihan perusahaan telepon. Sumber: Popular Science Monthly (1899) / Wikimedia Commons.

    Gambar 2.12: Gambarnya adalah bebek dan kelinci; apa yang Anda lihat bergantung pada perspektif Anda. Sumber data besar ditemukan dan dirancang; lagi, apa yang Anda lihat tergantung pada perspektif Anda. Sebagai contoh, catatan panggilan data yang dikumpulkan oleh perusahaan telepon seluler ditemukan data dari perspektif seorang peneliti. Namun, catatan yang sama persis ini dirancang data dari perspektif seseorang yang bekerja di departemen penagihan perusahaan telepon. Sumber: Popular Science Monthly (1899) / Wikimedia Commons .

    Berikan contoh sumber data dengan melihatnya sebagai yang ditemukan dan dirancang sangat membantu ketika menggunakan sumber data tersebut untuk penelitian.

  12. [ mudah ] Dalam sebuah esai yang bijaksana, Christian Sandvig dan Eszter Hargittai (2015) membagi penelitian digital menjadi dua kategori besar tergantung pada apakah sistem digital adalah "instrumen" atau "objek studi." Contoh dari jenis pertama - di mana sistem ini instrumen — adalah penelitian oleh Bengtsson dan rekan (2011) tentang penggunaan data ponsel untuk melacak migrasi setelah gempa bumi di Haiti pada tahun 2010. Contoh jenis kedua — di mana sistem merupakan objek penelitian — adalah penelitian oleh Jensen (2007) tentang bagaimana pengenalan ponsel di seluruh Kerala, India berdampak pada fungsi pasar untuk ikan. Saya menemukan perbedaan ini bermanfaat karena menjelaskan bahwa penelitian yang menggunakan sumber data digital dapat memiliki tujuan yang sangat berbeda bahkan jika mereka menggunakan sumber data yang sama. Untuk lebih memperjelas perbedaan ini, jelaskan empat penelitian yang telah Anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek studi. Anda dapat menggunakan contoh dari bab ini jika Anda mau.