Kegiatan

Terjemahan ini diciptakan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

Kegiatan

Kunci:

tingkat kesulitan: mudah , medium , hard , sangat keras
membutuhkan matematika ( $membutuhkan matematika$ )
membutuhkan coding ( )
pengumpulan data ( )
kesukaanku ( )

[ . ] Pengganggu algorithmic masalah dengan Google Flu Trends. Membaca koran oleh Lazer et al. (2014) , dan menulis, email yang jelas singkat untuk seorang insinyur di Google menjelaskan masalah dan menawarkan ide tentang bagaimana untuk memperbaiki masalah.
[ ] Bollen, Mao, and Zeng (2011) menyatakan bahwa data dari Twitter dapat digunakan untuk memprediksi pasar saham. Temuan ini menyebabkan penciptaan dari hedge fund-Derwent Capital Markets-untuk berinvestasi di pasar saham berdasarkan data yang dikumpulkan dari Twitter (Jordan 2010) . Bukti apa yang akan Anda ingin melihat sebelum meletakkan uang Anda dalam dana itu?
[ ] Sementara beberapa advokat kesehatan masyarakat hail e-rokok sebagai bantuan efektif untuk berhenti merokok, orang lain memperingatkan tentang risiko potensial, seperti-tingkat tinggi nikotin. Bayangkan bahwa seorang peneliti memutuskan untuk belajar opini publik ke arah e-rokok dengan mengumpulkan e-rokok terkait Twitter posting dan melakukan analisis sentimen.
1. Apakah tiga bias mungkin bahwa Anda yang paling khawatir tentang dalam penelitian ini?
2. Clark et al. (2016) berlari hanya studi tersebut. Pertama, mereka mengumpulkan 850.000 tweet yang digunakan kata kunci-e-rokok terkait dari Januari 2012 sampai Desember 2014. Setelah pemeriksaan lebih dekat, mereka menyadari bahwa banyak dari tweet tersebut otomatis (yaitu, tidak diproduksi oleh manusia) dan banyak dari tweet otomatis pada dasarnya iklan. Mereka mengembangkan Algoritma Deteksi Manusia untuk memisahkan tweet otomatis dari tweet organik. Menggunakan Manusia ini Mendeteksi Algoritma mereka menemukan bahwa 80% dari tweet yang otomatis. Apakah temuan ini mengubah jawaban Anda untuk bagian (a)?
3. Ketika mereka dibandingkan sentimen di tweet organik dan otomatis mereka menemukan bahwa tweets otomatis lebih positif daripada tweet organik (6.17 vs 5.84). Apakah temuan ini mengubah jawaban Anda untuk (b)?
[ ] Pada bulan November 2009, Twitter mengubah pertanyaan di kotak tweet dari "Apa yang kau lakukan?" Untuk "Apa yang terjadi?" (Https://blog.twitter.com/2009/whats-happening).
1. Bagaimana menurut Anda perubahan petunjuknya akan mempengaruhi yang tweet dan / atau apa yang mereka tweet?
2. Nama proyek penelitian satu yang Anda akan memilih prompt "Apa yang kamu lakukan?" Jelaskan mengapa.
3. Nama proyek penelitian satu yang Anda akan memilih prompt "Apa yang terjadi?" Jelaskan mengapa.
[ ] Kwak et al. (2010) menganalisis 41,7 juta profil pengguna, 1,47 miliar hubungan sosial, 4262 trending topics, dan 106 juta tweet antara 6 Juni dan 31 Juni 2009. Berdasarkan analisis ini mereka menyimpulkan bahwa Twitter melayani lebih sebagai media baru berbagi informasi dari satu jaringan sosial.
1. Mengingat temuan Kwak et al, apa jenis penelitian yang akan Anda lakukan dengan data Twitter? Apa jenis penelitian yang akan Anda tidak dengan data Twitter? Mengapa?
2. Pada tahun 2010, menambahkan Twitter Who Untuk Ikuti layanan membuat saran disesuaikan dengan pengguna. Tiga rekomendasi akan ditampilkan pada waktu pada halaman utama. Rekomendasi sering diambil dari seseorang "teman-of-teman," dan saling kontak juga ditampilkan dalam rekomendasi. Pengguna dapat menyegarkan untuk melihat satu set baru rekomendasi atau kunjungi halaman dengan daftar panjang rekomendasi. Apakah Anda pikir fitur baru ini akan mengubah jawaban Anda untuk bagian a)? Mengapa atau mengapa tidak?
3. Su, Sharma, and Goel (2016) mengevaluasi efek dari Siapa Untuk Ikuti layanan dan menemukan bahwa sementara pengguna di seluruh popularitas spektrum manfaat dari rekomendasi, pengguna paling populer keuntungan substansial lebih dari rata-rata. Apakah temuan ini mengubah jawaban Anda untuk bagian b)? Mengapa atau mengapa tidak?
[ ] "Retweet" sering digunakan untuk mengukur pengaruh dan menyebarkan pengaruh di Twitter. Awalnya, pengguna harus copy dan paste tweet mereka menyukai, tag penulis asli dengan / pegangan, dan secara manual ketik "RT" sebelum tweet untuk menunjukkan bahwa itu retweet. Kemudian, pada tahun 2009 Twitter menambahkan "retweet" tombol. Pada bulan Juni 2016, Twitter memungkinkan bagi pengguna untuk retweet tweet mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Apakah Anda pikir perubahan ini akan mempengaruhi bagaimana Anda menggunakan "retweets" dalam penelitian Anda? Mengapa atau mengapa tidak?
[ . . ] Michel et al. (2011) dibangun sebuah korpus yang muncul dari upaya Google untuk mendigitalkan buku. Menggunakan versi pertama dari corpus, yang diterbitkan pada tahun 2009 dan berisi lebih dari 5 juta buku digital, penulis menganalisis kata frekuensi penggunaan untuk menyelidiki perubahan linguistik dan tren budaya. Segera Google Books Corpus menjadi sumber data yang populer bagi para peneliti, dan versi 2 dari database dirilis pada tahun 2012.

Namun, Pechenick, Danforth, and Dodds (2015) memperingatkan bahwa peneliti perlu untuk sepenuhnya ciri proses sampling corpus sebelum menggunakannya untuk menarik kesimpulan yang luas. Masalah utama adalah bahwa corpus adalah perpustakaan-seperti, yang mengandung satu dari setiap buku. Akibatnya, individu, penulis produktif mampu terasa memasukkan frasa baru ke dalam leksikon Google Books. Selain itu, teks-teks ilmiah merupakan suatu bagian yang semakin substantif korpus seluruh 1900. Selain itu, dengan membandingkan dua versi dari dataset Fiksi Inggris, Pechenick et al. ditemukan bukti bahwa tidak cukup filtering digunakan dalam memproduksi versi pertama. Semua data yang dibutuhkan untuk kegiatan tersedia di sini: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. Dalam Michel et al. Kertas asli (2011) , mereka menggunakan versi 1 dari kumpulan data Inggris, diplot frekuensi penggunaan dari tahun "1880", "1912" dan "1973", dan menyimpulkan bahwa "kita melupakan masa lalu kita lebih cepat setiap tahun "(Gambar. 3A, Michel et al.). Meniru plot yang sama menggunakan 1) versi 1 dari corpus, dataset Inggris (sama seperti Gambar. 3A, Michel et al.)
2. Sekarang meniru plot yang sama dengan versi 1, dataset fiksi Inggris.
3. Sekarang meniru plot yang sama dengan versi 2 dari corpus, dataset Inggris.
4. Akhirnya, meniru plot yang sama dengan 2 versi, dataset fiksi Inggris.
5. Jelaskan perbedaan dan persamaan antara empat plot tersebut. Apakah Anda setuju dengan Michel et al. Interpretasi asli dari tren yang diamati? (Petunjuk: c) dan d) harus sama seperti Gambar 16 di Pechenick et al).
6. Sekarang bahwa Anda telah direplikasi temuan satu ini menggunakan berbagai Google Books corpora, pilih perubahan lain bahasa atau fenomena budaya yang disajikan dalam Michel et al. Kertas asli. Apakah Anda setuju dengan interpretasi mereka dalam terang keterbatasan disajikan dalam Pechenick et al.? Untuk membuat argumen Anda kuat, cobalah meniru grafik yang sama menggunakan versi yang berbeda dari kumpulan data seperti di atas.
[ . . . ] Penney (2016) mengeksplorasi apakah publisitas luas tentang NSA / PRISM pengawasan (yaitu, wahyu Snowden) Juni 2013 dikaitkan dengan penurunan tajam dan tiba-tiba lalu lintas ke artikel Wikipedia tentang topik yang mengangkat masalah privasi. Jika demikian, perubahan dalam perilaku akan konsisten dengan efek dingin yang dihasilkan dari pengawasan massa. Pendekatan Penney (2016) kadang-kadang disebut desain time series terganggu dan terkait dengan pendekatan dalam bab tentang mendekati eksperimen dari data pengamatan (Bagian 2.4.3).

Memilih kata kunci topik, Penney mengacu pada daftar yang digunakan oleh US Department of Homeland Security untuk pelacakan dan pemantauan media sosial. Daftar DHS mengkategorikan istilah pencarian tertentu ke berbagai isu, yaitu "Kepedulian Kesehatan," "Infrastruktur Keamanan," dan "Terorisme." Untuk kelompok studi, Penney menggunakan empat puluh delapan kata kunci yang terkait dengan "Terorisme" (lihat Tabel 8 Lampiran). Dia kemudian dikumpulkan artikel Wikipedia jumlah penayangan secara bulanan selama empat puluh delapan artikel Wikipedia yang sesuai selama tiga puluh dua bulan, dari awal Januari 2012 hingga akhir Agustus 2014. Untuk memperkuat argumennya, ia juga menciptakan beberapa perbandingan kelompok dengan melacak pandangan artikel tentang topik lain.

Sekarang, Anda akan meniru dan memperluas Penney (2016) . Semua data mentah yang akan Anda butuhkan untuk kegiatan ini tersedia dari Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Atau Anda bisa mendapatkannya dari wikipediatrend paket R (Meissner and Team 2016) . Ketika Anda menulis-up tanggapan Anda, harap dicatat Data yang sumber yang digunakan. (Catatan: Kegiatan yang sama ini juga muncul dalam Bab 6)
1. Baca Penney (2016) dan mereplikasi Gambar 2 yang menunjukkan tampilan halaman untuk "Terorisme" halaman -terkait sebelum dan setelah wahyu Snowden. Menginterpretasikan temuan.
2. Berikutnya, meniru Gambar 4A, yang membandingkan kelompok studi ( "Terorisme" artikel -terkait) dengan kelompok pembanding menggunakan kata kunci dikategorikan di bawah "DHS & lain Agen" dari daftar DHS (lihat Lampiran Tabel 10). Menginterpretasikan temuan.
3. Pada bagian b) Anda dibandingkan kelompok studi untuk satu kelompok pembanding. Penney juga dibandingkan dengan dua kelompok lainnya pembanding: "Infrastruktur Keamanan" artikel -terkait (Lampiran Tabel 11) dan halaman Wikipedia populer (Lampiran Tabel 12). Datang dengan kelompok pembanding alternatif, dan menguji apakah temuan dari bagian b) sensitif terhadap pilihan Anda kelompok pembanding. Yang pilihan kelompok pembanding yang paling masuk akal? Mengapa?
4. Penulis menyatakan bahwa kata kunci yang berkaitan dengan "Terorisme" yang digunakan untuk memilih artikel Wikipedia karena pemerintah AS dikutip terorisme sebagai pembenaran utama untuk praktek pengawasan online. Sebagai cek dari 48 "Terorisme" kata kunci -terkait tersebut, Penney (2016) juga melakukan survei pada MTurk meminta responden untuk menilai setiap kata kunci dalam hal Masalah Pemerintah, Privasi-Sensitif, dan Penghindaran (Lampiran Tabel 7 dan 8). Meniru survei MTurk dan membandingkan hasil Anda.
5. Berdasarkan hasil di bagian d) dan membaca artikel, apakah Anda setuju dengan pilihan penulis kata kunci topik dalam kelompok studi? Mengapa atau mengapa tidak? Jika tidak, apa yang akan Anda sarankan bukan?
[ ] Efrati (2016) laporan, berdasarkan informasi rahasia, bahwa "total berbagi" di Facebook telah menurun tahun sekitar 5,5% dari tahun sedangkan "asli siaran berbagi" turun tahun 21% dari tahun. Penurunan ini sangat akut dengan pengguna Facebook di bawah usia 30 tahun. Laporan ini disebabkan penurunan untuk dua faktor. Salah satunya adalah pertumbuhan jumlah "teman" orang di Facebook. Yang lainnya adalah bahwa beberapa kegiatan berbagi telah bergeser ke pesan dan pesaing seperti SnapChat. Laporan itu juga mengungkapkan beberapa taktik Facebook telah mencoba untuk meningkatkan berbagi, termasuk tweaks algoritma News Feed yang membuat tulisan asli lebih menonjol, serta pengingat berkala posting pengguna asli "Pada hari ini" beberapa tahun yang lalu. Apa implikasi, jika ada, apakah temuan ini memiliki bagi para peneliti yang ingin menggunakan Facebook sebagai sumber data?
[ ] Tumasjan et al. (2010) melaporkan bahwa proporsi tweet menyebutkan partai politik cocok proporsi penilaian bahwa partai menerima dalam pemilihan parlemen Jerman pada tahun 2009 (Gambar 2.9). Dengan kata lain, ternyata Anda bisa menggunakan Twitter untuk memprediksi pemilu. Pada saat penelitian ini diterbitkan dianggap sangat menarik karena tampaknya menyarankan penggunaan berharga bagi sumber umum dari data yang besar.

Mengingat fitur buruk data besar, namun, Anda harus segera menjadi skeptis hasil ini. Jerman di Twitter pada tahun 2009 cukup kelompok non-perwakilan, dan pendukung salah satu pihak mungkin tweet tentang politik lebih sering. Dengan demikian, tampaknya mengejutkan bahwa semua kemungkinan bias yang dapat Anda bayangkan entah bagaimana akan membatalkan. Bahkan, hasil di Tumasjan et al. (2010) ternyata terlalu bagus untuk menjadi kenyataan. Dalam tulisan mereka, Tumasjan et al. (2010) dianggap enam partai politik: Kristen Demokrat (CDU), Christian Sosial Demokrat (CSU), SPD, Liberal (FDP), The Left (Die Linke), dan Partai Hijau (Grüne). Namun, partai politik Jerman yang paling disebutkan di Twitter pada saat itu adalah Partai Bajak Laut (Piraten), pihak yang melawan peraturan pemerintah dari Internet. Ketika Partai Bajak Laut termasuk dalam analisis, Twitter menyebutkan menjadi prediktor yang mengerikan dari hasil pemilu (Gambar 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Gambar 2.9: Twitter menyebutkan muncul untuk memprediksi hasil pemilu Jerman 2009 (Tumasjan et al. 2010) , Tapi hasil ini ternyata tergantung pada beberapa pilihan sewenang-wenang dan dibenarkan (Jungherr, Jürgens, and Schoen 2012) .

Selanjutnya, peneliti lain di seluruh dunia telah menggunakan metode-seperti pengujian dengan menggunakan analisis sentimen untuk membedakan antara positif dan negatif menyebutkan dari pihak-dalam rangka meningkatkan kemampuan data Twitter untuk memprediksi berbagai jenis pemilihan (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Berikut adalah cara Huberty (2015) merangkum hasil dari upaya ini untuk memprediksi pemilihan:

"Semua metode peramalan diketahui berdasarkan media sosial telah gagal ketika mengalami tuntutan peramalan pemilu benar melihat ke depan. kegagalan ini tampaknya karena sifat dasar media sosial, bukan untuk kesulitan metodologis atau algoritmik. Singkatnya, media sosial tidak, dan mungkin tidak akan pernah, menawarkan, berisi, gambar perwakilan stabil pemilih; dan sampel kenyamanan media sosial tidak memiliki data yang cukup untuk memperbaiki masalah ini posting hoc. "

Membaca beberapa penelitian yang mengarah Huberty (2015) menyimpulkan bahwa, dan menulis memo satu halaman ke halaman kandidat politik menggambarkan jika dan bagaimana Twitter harus digunakan untuk meramalkan pemilu.
[ ] Apa perbedaan antara seorang sosiolog dan sejarawan? Menurut Goldthorpe (1991) , perbedaan utama antara seorang sosiolog dan sejarawan adalah kontrol atas pengumpulan data. Sejarawan terpaksa menggunakan peninggalan sedangkan sosiolog dapat menyesuaikan pengumpulan data mereka untuk tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbedaan antara sosiologi dan sejarah yang terkait dengan ide Custommades dan readymades?
[ ] Bangunan pada pertanyaan sebelumnya, Goldthorpe (1991) menarik sejumlah tanggapan kritis, termasuk salah satu dari Nicky Hart (1994) yang menantang pengabdian Goldthorpe untuk menyesuaikan data yang dibuat. Untuk memperjelas potensi keterbatasan data dibuat, Hart dijelaskan Pekerja Proyek Affluent, survei besar untuk mengukur hubungan antara kelas sosial dan voting yang dilakukan oleh Goldthorpe dan rekan-rekan di pertengahan 1960-an. Seperti yang diharapkan dari seorang ulama yang disukai data melalui data yang ditemukan dirancang, Pekerja Proyek Affluent mengumpulkan data yang disesuaikan untuk mengatasi teori baru yang diusulkan tentang masa depan kelas sosial di era meningkatkan standar hidup. Tapi, Goldthorpe dan rekan entah bagaimana "lupa" untuk mengumpulkan informasi tentang perilaku pemilih perempuan. Berikut adalah cara Nicky Hart (1994) meringkas seluruh episode:

". . . itu [adalah] sulit untuk menghindari kesimpulan bahwa perempuan dihilangkan karena ini 'dibuat' dataset terbatas oleh logika paradigmatik yang dikecualikan pengalaman perempuan. Didorong oleh visi teoritis kesadaran kelas dan tindakan sebagai keasyikan laki-laki. . . , Goldthorpe dan rekan-rekannya membangun sebuah set bukti empiris yang diberi makan dan dipelihara asumsi teoritis mereka sendiri bukannya mengekspos mereka untuk tes valid kecukupan. "

Hart melanjutkan:

"Temuan empiris dari Proyek Pekerja Affluent ceritakan lebih lanjut tentang nilai-nilai maskulin sosiologi abad pertengahan daripada mereka menginformasikan proses stratifikasi, politik dan kehidupan material."

Dapatkah Anda memikirkan contoh lain dimana pengumpulan data dibuat memiliki bias dari kolektor data dibangun ke dalamnya? Bagaimana hal ini dibandingkan dengan pembaur algoritmik? implikasi apa yang mungkin ini ketika para peneliti harus menggunakan readymades dan ketika mereka harus menggunakan Custommades?
[ ] Dalam bab ini, saya kontras data yang dikumpulkan oleh peneliti untuk peneliti dengan catatan administrasi yang dibuat oleh perusahaan dan pemerintah. Beberapa orang menyebutnya catatan administrasi "ditemukan data," yang mereka kontras dengan "data yang dirancang." Memang benar bahwa catatan administrasi ditemukan oleh para peneliti, tetapi mereka juga sangat dirancang. Sebagai contoh, perusahaan teknologi modern yang menghabiskan sejumlah besar waktu dan sumber daya untuk mengumpulkan dan pendeta data mereka. Dengan demikian, catatan-catatan administrasi keduanya ditemukan dan dirancang, itu hanya tergantung pada perspektif Anda (Gambar 2.10).

Gambar 2.10: Gambar adalah baik bebek dan kelinci; apa yang Anda lihat tergantung pada perspektif Anda. Pemerintah dan bisnis catatan administrasi keduanya ditemukan dan dirancang; apa yang Anda lihat tergantung pada perspektif Anda. Misalnya, catatan panggilan data yang dikumpulkan oleh perusahaan ponsel yang ditemukan data dari perspektif seorang peneliti. Tapi, catatan-catatan yang sama persis dirancang perspektif data seseorang yang bekerja di departemen penagihan dari perusahaan telepon. Sumber: Wikimedia Commons

Memberikan contoh sumber data mana melihatnya baik seperti yang ditemukan dan dirancang adalah membantu ketika menggunakan sumber data untuk penelitian.
[ ] Dalam esai bijaksana, Kristen Sandvig dan Eszter Hargittai (2015) menjelaskan dua jenis penelitian digital, di mana sistem digital adalah "alat" atau "objek penelitian." Sebuah contoh dari jenis pertama studi di mana Bengtsson dan rekan (2011) menggunakan data ponsel untuk melacak migrasi setelah gempa di Haiti pada tahun 2010. contoh dari jenis kedua adalah di mana Jensen (2007) studi bagaimana pengenalan ponsel di seluruh Kerala, India berdampak pada fungsi pasar untuk ikan. Saya menemukan ini bermanfaat karena menjelaskan bahwa penelitian menggunakan sumber data digital dapat memiliki tujuan yang sangat berbeda bahkan jika mereka menggunakan jenis yang sama dari sumber data. Dalam rangka untuk lebih memperjelas perbedaan ini, menggambarkan empat studi yang telah Anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek studi. Anda dapat menggunakan contoh-contoh dari bab ini jika Anda ingin.