[ , ] Perancah algoritmik adalah masalah pada Google Pantau Flu Dunia. Bacalah makalah oleh Lazer et al. (2014) , dan menulis email singkat yang jelas kepada seorang insinyur di Google yang menjelaskan masalah dan menawarkan gagasan tentang cara memperbaikinya.
[ ] Bollen, Mao, and Zeng (2011) mengklaim bahwa data dari Twitter dapat digunakan untuk memprediksi pasar saham. Temuan ini mengarah pada penciptaan hedge fund — Derwent Capital Markets — untuk berinvestasi di pasar saham berdasarkan data yang dikumpulkan dari Twitter (Jordan 2010) . Bukti apa yang ingin Anda lihat sebelum memasukkan uang Anda ke dalam dana itu?
[ ] Sementara beberapa pendukung kesehatan masyarakat menganggap e-rokok sebagai bantuan yang efektif untuk berhenti merokok, yang lain memperingatkan tentang potensi risiko, seperti tingginya tingkat nikotin. Bayangkan bahwa seorang peneliti memutuskan untuk mempelajari opini publik terhadap e-rokok dengan mengumpulkan posting Twitter yang berhubungan dengan e-rokok dan melakukan analisis sentimen.
[ ] Pada bulan November 2009, Twitter mengubah pertanyaan di kotak tweet dari “Apa yang Anda lakukan?” Menjadi “Apa yang terjadi?” (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" sering digunakan untuk mengukur pengaruh dan penyebaran pengaruh di Twitter. Awalnya, pengguna harus menyalin dan menempelkan tweet yang mereka sukai, menandai penulis asli dengan pegangannya, dan mengetik secara manual "RT" sebelum tweet untuk menunjukkan bahwa itu adalah retweet. Kemudian, pada tahun 2009, Twitter menambahkan tombol "retweet". Pada Juni 2016, Twitter memungkinkan pengguna untuk me-retweet tweets mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Apakah menurut Anda perubahan ini akan memengaruhi cara Anda menggunakan "retweets" dalam riset Anda? Mengapa atau mengapa tidak?
[ , , , ] Dalam makalah yang banyak dibahas, Michel dan rekan (2011) menganalisis konten lebih dari lima juta buku digital dalam upaya untuk mengidentifikasi tren budaya jangka panjang. Data yang mereka gunakan kini telah dirilis sebagai set data Google NGrams, sehingga kami dapat menggunakan data untuk mereplikasi dan memperluas beberapa pekerjaan mereka.
Dalam salah satu dari banyak hasil di koran, Michel dan rekannya berpendapat bahwa kita melupakan lebih cepat dan lebih cepat. Untuk tahun tertentu, katakan "1883," mereka menghitung proporsi 1-gram yang diterbitkan setiap tahun antara 1875 dan 1975 yang "1883". Mereka beralasan bahwa proporsi ini adalah ukuran minat dalam peristiwa yang terjadi di tahun itu. Dalam gambar 3a mereka, mereka merencanakan lintasan penggunaan selama tiga tahun: 1883, 1910, dan 1950. Tiga tahun ini berbagi pola umum: sedikit penggunaan sebelum tahun itu, kemudian lonjakan, lalu membusuk. Selanjutnya, untuk mengukur tingkat pembusukan untuk setiap tahun, Michel dan rekan menghitung "paruh" setiap tahun untuk semua tahun antara 1875 dan 1975. Pada gambar 3a (inset), mereka menunjukkan bahwa waktu paruh masing-masing tahun menurun, dan mereka berpendapat bahwa ini berarti bahwa kita melupakan masa lalu lebih cepat dan lebih cepat. Mereka menggunakan Versi 1 dari corpus bahasa Inggris, tetapi kemudian Google telah merilis versi kedua dari corpus. Silakan baca semua bagian pertanyaan sebelum Anda mulai coding.
Kegiatan ini akan memberi Anda berlatih menulis kode yang dapat digunakan kembali, menafsirkan hasil, dan pertengkaran data (seperti bekerja dengan file canggung dan menangani data yang hilang). Aktivitas ini juga akan membantu Anda memulai dan menjalankan dengan kumpulan data yang kaya dan menarik.
Dapatkan data mentah dari situs web Google Books NGram Viewer. Secara khusus, Anda harus menggunakan versi 2 dari corpus bahasa Inggris, yang dirilis pada 1 Juli 2012. Tidak terkompresi, file ini adalah 1,4 GB.
Menciptakan bagian utama dari gambar 3a Michel et al. (2011) . Untuk membuat ulang angka ini, Anda akan membutuhkan dua file: file yang Anda unduh sebagian (a) dan file "jumlah total", yang dapat Anda gunakan untuk mengonversi jumlah mentah menjadi proporsi. Perhatikan bahwa jumlah total file memiliki struktur yang mungkin membuatnya agak sulit untuk dibaca. Apakah versi 2 dari data NGram menghasilkan hasil yang sama dengan yang disajikan dalam Michel et al. (2011) , yang didasarkan pada data versi 1?
Sekarang periksa grafik Anda terhadap grafik yang dibuat oleh NGram Viewer.
Buat kembali gambar 3a (gambar utama), tetapi ubahlah \(y\) -kecil menjadi hitungan penyebutan mentah (bukan nilai penyebutan).
Apakah perbedaan antara (b) dan (d) menuntun Anda untuk mengevaluasi kembali hasil apa pun dari Michel et al. (2011). Mengapa atau mengapa tidak?
Sekarang, menggunakan proporsi penyebutan, mereplikasi inset gambar 3a. Artinya, untuk setiap tahun antara 1875 dan 1975, hitung waktu paruh tahun itu. Waktu paruh didefinisikan sebagai jumlah tahun yang berlalu sebelum proporsi penyebutan mencapai setengah nilai puncaknya. Perhatikan bahwa Michel et al. (2011) melakukan sesuatu yang lebih rumit untuk memperkirakan waktu paruh - lihat bagian III.6 dari Informasi Online Pendukung — tetapi mereka mengklaim bahwa kedua pendekatan tersebut menghasilkan hasil yang serupa. Apakah versi 2 dari data NGram menghasilkan hasil yang sama dengan yang disajikan dalam Michel et al. (2011) , yang didasarkan pada data versi 1? (Petunjuk: Jangan terkejut jika tidak.)
Apakah ada tahun-tahun yang luar biasa seperti tahun-tahun yang terlupakan dengan sangat cepat atau sangat lambat? Secara singkat spekulasi tentang kemungkinan alasan untuk pola itu dan jelaskan bagaimana Anda mengidentifikasi outlier.
Sekarang ulangi hasil ini untuk versi 2 data NGrams dalam bahasa China, Prancis, Jerman, Ibrani, Italia, Rusia, dan Spanyol.
Membandingkan semua bahasa, apakah ada tahun-tahun yang luar biasa, seperti tahun-tahun yang terlupakan dengan sangat cepat atau sangat lambat? Secara singkat berspekulasi tentang kemungkinan alasan untuk pola itu.
[ , , , ] Penney (2016) mengeksplorasi apakah publisitas luas tentang pengawasan NSA / PRISM (yaitu, wahyu Snowden) pada Juni 2013 dikaitkan dengan penurunan tajam dan tiba-tiba dalam lalu lintas ke artikel Wikipedia tentang topik yang meningkatkan kekhawatiran privasi. Jika demikian, perubahan perilaku ini akan konsisten dengan efek dingin yang dihasilkan dari pengawasan massal. Pendekatan Penney (2016) kadang-kadang disebut desain seri waktu terputus , dan ini terkait dengan pendekatan yang dijelaskan pada bagian 2.4.3.
Untuk memilih kata kunci topik, Penney mengacu pada daftar yang digunakan oleh Departemen Keamanan Dalam Negeri AS untuk melacak dan memantau media sosial. Daftar DHS mengkategorikan istilah pencarian tertentu ke dalam berbagai masalah, yaitu, "Kepedulian Kesehatan," "Keamanan Infrastruktur," dan "Terorisme." Untuk kelompok studi, Penney menggunakan 48 kata kunci yang terkait dengan "Terorisme" (lihat lampiran tabel 8 ). Dia kemudian mengumpulkan artikel Wikipedia dengan jumlah artikel per bulan untuk 48 artikel Wikipedia selama periode 32 bulan, dari awal Januari 2012 hingga akhir Agustus 2014. Untuk memperkuat argumennya, ia juga membuat beberapa kelompok pembanding dengan melacak pandangan artikel tentang topik lain.
Sekarang, Anda akan mereplikasi dan memperluas Penney (2016) . Semua data mentah yang Anda perlukan untuk kegiatan ini tersedia dari Wikipedia. Atau Anda bisa mendapatkannya dari R-paket wikipediatrend (Meissner and R Core Team 2016) . Ketika Anda menulis tanggapan Anda, harap catat sumber data mana yang Anda gunakan. (Perhatikan bahwa kegiatan yang sama ini juga muncul di bab 6.) Kegiatan ini akan memberi Anda latihan dalam perdebatan data dan berpikir tentang eksperimen alami dalam sumber data besar. Ini juga akan membantu Anda dan berjalan dengan sumber data yang berpotensi menarik untuk proyek-proyek masa depan.
[ ] Efrati (2016) melaporkan, berdasarkan informasi rahasia, bahwa "total berbagi" di Facebook telah menurun sekitar 5,5% dari tahun ke tahun sementara "pembagian siaran asli" turun 21% dari tahun ke tahun. Penurunan ini sangat akut dengan pengguna Facebook di bawah 30 tahun. Laporan tersebut menghubungkan penurunan ke dua faktor. Salah satunya adalah pertumbuhan jumlah "teman" yang dimiliki orang di Facebook. Yang lainnya adalah bahwa beberapa aktivitas berbagi telah bergeser ke pesan dan ke pesaing seperti Snapchat. Laporan ini juga mengungkapkan beberapa taktik yang telah diupayakan Facebook untuk meningkatkan berbagi, termasuk tweak algoritma News Feed yang membuat posting asli lebih menonjol, serta pengingat berkala dari posting asli dengan fitur "On This Day". Apa implikasinya, jika ada, apakah temuan ini bagi para peneliti yang ingin menggunakan Facebook sebagai sumber data?
[ ] Apa perbedaan antara seorang sosiolog dan sejarawan? Menurut Goldthorpe (1991) , perbedaan utama adalah kontrol atas pengumpulan data. Para sejarawan dipaksa untuk menggunakan relik, sedangkan sosiolog dapat menyesuaikan pengumpulan data mereka untuk tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbedaan antara sosiologi dan sejarah yang terkait dengan gagasan custommades dan readymades?
[ ] Ini dibangun berdasarkan quesiton sebelumnya. Goldthorpe (1991) menarik sejumlah tanggapan kritis, termasuk salah satu dari Nicky Hart (1994) yang menantang pengabdian Goldthorpe terhadap data yang dibuat khusus. Untuk memperjelas batasan potensial data yang dibuat khusus, Hart menggambarkan Proyek Pekerja Afluen, sebuah survei besar untuk mengukur hubungan antara kelas sosial dan pemungutan suara yang dilakukan oleh Goldthorpe dan rekan pada pertengahan 1960-an. Seperti yang bisa diharapkan dari seorang sarjana yang menyukai data yang dirancang berdasarkan data yang ditemukan, Proyek Pekerja Afiliasi mengumpulkan data yang disesuaikan untuk membahas teori yang baru-baru ini diajukan tentang masa depan kelas sosial di era standar hidup yang meningkat. Namun, Goldthorpe dan koleganya entah bagaimana "lupa" untuk mengumpulkan informasi tentang perilaku memilih wanita. Beginilah cara Nicky Hart (1994) meringkas seluruh episode:
“… Sulit untuk menghindari kesimpulan bahwa perempuan dihilangkan karena dataset 'tailor made' ini dibatasi oleh logika paradigmatik yang tidak mencakup pengalaman perempuan. Didorong oleh visi teoritis kesadaran kelas dan tindakan sebagai keasyikan laki-laki ..., Goldthorpe dan rekan-rekannya membangun seperangkat bukti empiris yang memberi makan dan memelihara asumsi teoritis mereka sendiri dan bukan mengekspos mereka ke uji kecukupan yang sah. ”
Hart melanjutkan:
"Temuan empiris Proyek Pekerja Afiliasi memberitahu kita lebih banyak tentang nilai-nilai masculinist sosiologi abad pertengahan daripada mereka menginformasikan proses stratifikasi, politik dan kehidupan material."
Dapatkah Anda memikirkan contoh lain di mana pengumpulan data yang dibuat khusus memiliki bias pengumpul data yang dibangun di dalamnya? Bagaimana ini dibandingkan dengan pembaur algoritmik? Apa implikasinya terhadap hal ini ketika para peneliti harus menggunakan readymades dan kapan mereka harus menggunakan custommades?
[ ] Dalam bab ini, saya telah membandingkan data yang dikumpulkan oleh peneliti untuk peneliti dengan catatan administratif yang dibuat oleh perusahaan dan pemerintah. Beberapa orang menyebut catatan administratif ini sebagai "data yang ditemukan", yang mereka bedakan dengan "data yang dirancang." Memang benar bahwa catatan administratif ditemukan oleh para peneliti, tetapi mereka juga sangat dirancang. Misalnya, perusahaan teknologi modern bekerja sangat keras untuk mengumpulkan dan mengkurasi data mereka. Jadi, catatan administrasi ini ditemukan dan dirancang, itu tergantung pada perspektif Anda (gambar 2.12).
Berikan contoh sumber data dengan melihatnya sebagai yang ditemukan dan dirancang sangat membantu ketika menggunakan sumber data tersebut untuk penelitian.
[ ] Dalam sebuah esai yang bijaksana, Christian Sandvig dan Eszter Hargittai (2015) membagi penelitian digital menjadi dua kategori besar tergantung pada apakah sistem digital adalah "instrumen" atau "objek studi." Contoh dari jenis pertama - di mana sistem ini instrumen — adalah penelitian oleh Bengtsson dan rekan (2011) tentang penggunaan data ponsel untuk melacak migrasi setelah gempa bumi di Haiti pada tahun 2010. Contoh jenis kedua — di mana sistem merupakan objek penelitian — adalah penelitian oleh Jensen (2007) tentang bagaimana pengenalan ponsel di seluruh Kerala, India berdampak pada fungsi pasar untuk ikan. Saya menemukan perbedaan ini bermanfaat karena menjelaskan bahwa penelitian yang menggunakan sumber data digital dapat memiliki tujuan yang sangat berbeda bahkan jika mereka menggunakan sumber data yang sama. Untuk lebih memperjelas perbedaan ini, jelaskan empat penelitian yang telah Anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek studi. Anda dapat menggunakan contoh dari bab ini jika Anda mau.