aktiviti

terjemahan ini dihasilkan oleh komputer. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

aktiviti

Kunci:

tahap kesukaran: mudah , sederhana , keras , sangat susah
memerlukan matematik ( $memerlukan matematik$ )
memerlukan pengekodan ( )
pengumpulan data ( )
kegemaran saya ( )

[ , ] Membaurkan Algorithmic masalah dengan Google Trend Flu. Membaca akhbar oleh Lazer et al. (2014) , dan menulis, e-mel yang jelas yang singkat untuk seorang jurutera di Google berkenaan masalah ini dan menawarkan idea bagaimana untuk menyelesaikan masalah.
[ ] Bollen, Mao, and Zeng (2011) mendakwa bahawa data dari Twitter boleh digunakan untuk meramalkan pasaran saham. Penemuan ini membawa kepada penciptaan lindung nilai dana Derwent Capital Markets-untuk melabur dalam pasaran saham berdasarkan data yang dikumpul daripada Twitter (Jordan 2010) . Apakah bukti yang anda akan mahu melihat sebelum meletakkan wang anda dalam dana itu?
[ ] Walaupun beberapa penyokong kesihatan awam hujan batu e-rokok sebagai bantuan yang berkesan untuk berhenti merokok, yang lain memberi amaran tentang risiko yang berpotensi, seperti the-tahap nikotin. Bayangkan seorang penyelidik memutuskan untuk mengkaji pendapat umum terhadap e-rokok dengan mengumpul catatan Twitter e-rokok yang berkaitan dan menjalankan analisis sentimen.
1. Apakah tiga berat sebelah mungkin yang anda paling bimbang kira-kira dalam kajian ini?
2. Clark et al. (2016) berlari hanya seperti kajian. Pertama, mereka mengumpul 850,000 tweet yang menggunakan kata kunci yang berkaitan e-rokok dari Januari 2012 hingga Disember 2014. Setelah pemeriksaan lebih dekat, mereka sedar bahawa banyak tweet ini telah automatik (iaitu, tidak dihasilkan oleh manusia) dan kebanyakan tweet automatik pada dasarnya iklan. Mereka membangunkan Pengesanan Algoritma Manusia untuk memisahkan tweet automatik dari tweet organik. Menggunakan Manusia ini Mengesan Algoritma mereka mendapati bahawa 80% daripada tweets telah automatik. Adakah penemuan ini menukar jawapan kepada bahagian (a)?
3. Apabila mereka berbanding sentimen di tweet organik dan automatik mereka mendapati bahawa tweet automatik yang lebih positif daripada tweet organik (6.17 berbanding 5.84). Adakah penemuan ini menukar jawapan kepada (b)?
[ ] Pada bulan November 2009, Twitter berubah soalan ini dalam kotak tweet dari "Apa yang kamu buat?" Kepada "Apa yang berlaku?" (Https://blog.twitter.com/2009/whats-happening).
1. Bagaimana anda berfikir perubahan arahan akan memberi kesan yang tweet dan / atau apa yang mereka tweet?
2. Namakan satu projek penyelidikan yang mana anda lebih suka segera "Apa yang kamu buat?" Terangkan mengapa.
3. Namakan satu projek penyelidikan yang mana anda lebih suka segera "Apa yang berlaku?" Terangkan mengapa.
[ ] Kwak et al. (2010) dianalisis 41.7 juta pengguna profil, 1.47 bilion hubungan sosial, 4262 topik trending, dan 106 juta tweet antara Jun 6 dan 31 Jun 2009. Berdasarkan analisis ini, mereka membuat kesimpulan bahawa Twitter berfungsi lebih sebagai medium baru perkongsian maklumat daripada rangkaian sosial.
1. Memandangkan Kwak et al dapatan, jenis penyelidikan yang akan anda lakukan dengan data Twitter? Apakah jenis penyelidikan yang akan anda tidak lakukan dengan data Twitter? Mengapa?
2. Pada tahun 2010, Twitter menambah Siapa Untuk Ikut perkhidmatan membuat cadangan disesuaikan kepada pengguna. Tiga cadangan ditunjukkan pada satu masa pada laman utama. Saranan sering diambil daripada seseorang "kawan-of-kawan," dan kenalan bersama juga dipaparkan dalam syor itu. Pengguna boleh menyegarkan untuk melihat satu set baru cadangan atau melawat halaman dengan senarai yang lebih panjang cadangan. Adakah anda fikir ciri baru ini akan menukar jawapan kepada bahagian a)? Mengapa atau mengapa tidak?
3. Su, Sharma, and Goel (2016) menilai kesan yang mengikuti perkhidmatan dan mendapati bahawa walaupun pengguna di seluruh spektrum populariti yang mendapat manfaat daripada cadangan, pengguna yang paling popular keuntungan ketara lebih daripada purata. Adakah penemuan ini menukar jawapan kepada bahagian b)? Mengapa atau mengapa tidak?
[ ] "Semula" sering digunakan untuk mengukur pengaruh dan menyebarkan pengaruh di Twitter. Pada mulanya, pengguna terpaksa copy dan paste tweet yang mereka suka, tag penulis asal dengan / mengendalikan beliau, dan secara manual menaip "RT" sebelum tweet untuk menunjukkan bahawa itu semula a. Kemudian, pada tahun 2009 Twitter menambah butang "retweet". Pada bulan Jun 2016, Twitter memungkinkan pengguna untuk retweet tweet mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Adakah anda fikir perubahan ini harus menjejas cara anda menggunakan "semula" dalam penyelidikan anda? Mengapa atau mengapa tidak?
[ , , ] Michel et al. (2011) telah membentuk satu corpus muncul daripada usaha Google untuk mendigitalkan buku. Menggunakan versi pertama corpus itu, yang diterbitkan pada tahun 2009 dan mengandungi lebih 5 juta buku digital, penulis dianalisis perkataan penggunaan frekuensi untuk menyiasat perubahan linguistik dan trend budaya. Tidak lama selepas itu Buku Corpus Google menjadi sumber data popular bagi para penyelidik, dan versi ke-2 pangkalan data telah dikeluarkan pada tahun 2012.

Walau bagaimanapun, Pechenick, Danforth, and Dodds (2015) memberi amaran bahawa penyelidik perlu mencirikan sepenuhnya proses pensampelan corpus sebelum menggunakannya untuk membuat kesimpulan yang luas. Isu utama ialah korpus adalah perpustakaan-suka, yang mengandungi salah satu daripada setiap buku. Akibatnya, individu, penulis prolifik mampu untuk nyata memasukkan frasa baru ke dalam leksikon Buku Google. Selain itu, teks saintifik merupakan bahagian yang semakin substantif corpus sepanjang tahun 1900-an. Di samping itu, dengan membandingkan dua versi dataset Matematik Bahasa Inggeris, Pechenick et al. bukti mendapati bahawa tidak mencukupi penapisan telah digunakan dalam menghasilkan versi pertama. Semua data yang diperlukan untuk aktiviti boleh didapati di sini: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. Dalam kertas asal Michel et al. (2011) , mereka menggunakan versi 1 set data Inggeris, diplotkan kekerapan penggunaan tahun "1880", "1912" dan "1973", dan membuat kesimpulan bahawa "kita melupakan masa lalu kita lebih cepat dengan setiap tahun berlalu "(Gamb. 3A, Michel et al.). Meniru plot yang sama dengan menggunakan 1) versi 1hb corpus, dataset English (sama seperti Rajah. 3A, Michel et al.)
2. Sekarang meniru plot yang sama dengan versi 1, English fiksyen set data.
3. Sekarang meniru plot yang sama dengan versi ke-2 corpus, dataset Inggeris.
4. Akhir sekali, meniru plot yang sama dengan versi ke-2, Bahasa Inggeris fiksyen set data.
5. Huraikan perbezaan dan persamaan antara empat plot. Adakah anda bersetuju dengan Michel et al. Tafsiran asal trend yang diperhatikan? (Petunjuk: c) dan d) hendaklah sama seperti dalam Rajah 16 di Pechenick et al).
6. Sekarang anda telah ditiru satu penemuan ini menggunakan berbeza Buku Google corpora, pilih satu lagi perubahan linguistik atau fenomena budaya dibentangkan dalam kertas asal Michel et al.. Adakah anda bersetuju dengan tafsiran mereka berdasarkan batasan dibentangkan dalam Pechenick et al.? Untuk membuat hujah anda lebih kuat, cuba meniru graf yang sama menggunakan pelbagai versi set data seperti di atas.
[ , , , ] Penney (2016) meneroka sama ada publisiti meluas tentang NSA / PRISM pengawasan (iaitu, ayat-ayat Snowden) pada bulan Jun 2013 yang berkaitan dengan penurunan mendadak dan tiba-tiba trafik ke rencana Wikipedia mengenai topik-topik yang meningkatkan kebimbangan privasi. Jika ya, perubahan dalam tingkah laku adalah konsisten dengan kesan penyejukan yang disebabkan oleh pengawasan besar-besaran. Pendekatan Penney (2016) kadang-kadang dipanggil reka bentuk siri masa terganggu dan adalah berkaitan dengan pendekatan dalam bab mengenai yang hampir eksperimen daripada data pemerhatian (Seksyen 2.4.3).

Untuk memilih kata kunci topik, Penney dirujuk ke senarai yang digunakan oleh Amerika Syarikat Jabatan Keselamatan Dalam Negeri untuk mengesan dan memantau media sosial. Senarai DHS mengkategorikan istilah carian tertentu ke dalam pelbagai isu, iaitu "Kebimbangan Kesihatan," "Keselamatan Infrastruktur," dan "Keganasan." Bagi kumpulan kajian, Penney menggunakan empat puluh lapan kata kunci yang berkaitan dengan "Keganasan" (lihat Jadual 8 Lampiran). Beliau kemudiannya diagregatkan Wikipedia kiraan tontonan artikel pada setiap bulan untuk empat puluh lapan artikel Wikipedia yang sama dalam tempoh tiga puluh dua bulan, dari awal Januari 2012 hingga akhir bulan Ogos 2014. Bagi mengukuhkan hujahnya, beliau juga mencipta beberapa perbandingan kumpulan dengan menjejaki paparan artikel mengenai topik-topik lain.

Sekarang, anda akan meniru dan memanjangkan Penney (2016) . Semua data mentah yang anda perlu untuk aktiviti ini boleh didapati daripada Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Atau anda boleh mendapatkannya dari wikipediatrend pakej R (Meissner and Team 2016) . Apabila anda menulis-up jawapan anda, sila ambil perhatian yang sumber data yang anda gunakan. (Nota: Aktiviti yang sama juga muncul dalam Bab 6)
1. Baca Penney (2016) dan meniru Rajah 2 yang menunjukkan paparan halaman untuk "Keganasan" halaman -related sebelum dan selepas wahyu Snowden. Mentafsirkan penemuan.
2. Seterusnya, meniru Rajah 4A, yang membandingkan kumpulan kajian ( "Keganasan" artikel -related) dengan kumpulan bandingan menggunakan kata kunci dikategorikan di bawah "DHS & Lain-lain Agensi" daripada senarai DHS (lihat Lampiran Jadual 10). Mentafsirkan penemuan.
3. Dalam bahagian b) anda berbanding kumpulan belajar kepada satu kumpulan bandingan. Penney juga berbanding dengan dua kumpulan lain comparator: "Infrastruktur Keselamatan" artikel -related (Lampiran Jadual 11) dan halaman Wikipedia popular (Lampiran Jadual 12). Datang dengan kumpulan comparator alternatif, dan menguji jika penemuan daripada bahagian b) adalah sensitif kepada pilihan anda kumpulan bandingan. Mana pilihan kumpulan comparator menjadikan paling masuk akal? Mengapa?
4. Penulis menyatakan bahawa kata kunci yang berkaitan dengan "Keganasan" telah digunakan untuk memilih artikel Wikipedia kerana kerajaan Amerika dinamakan keganasan sebagai justifikasi utama bagi amalan pengawasan dalam taliannya. Sebagai cek ini 48 "Keganasan" kata kunci -related, Penney (2016) juga telah menjalankan kajian mengenai MTurk meminta responden untuk mengadar setiap kata kunci dari segi Trouble Kerajaan, Privasi Sensitif dan Pengelakan (Lampiran Jadual 7 dan 8). Meniru kajian ke atas MTurk dan bandingkan keputusan anda.
5. Berdasarkan keputusan di bahagian d) dan pembacaan anda artikel itu, adakah anda bersetuju dengan pilihan pengarang kata kunci topik dalam kumpulan kajian? Mengapa atau mengapa tidak? Jika tidak, apa yang anda akan mencadangkan sebaliknya?
[ ] Efrati (2016) laporan, berdasarkan maklumat sulit, bahawa "jumlah perkongsian" di Facebook telah merosot tahun kira-kira 5.5% berbanding tahun manakala "perkongsian siaran asal" susut tahun 21% sepanjang tahun. Penurunan ini adalah meruncing dengan pengguna Facebook di bawah 30 tahun. Laporan itu mengaitkan kemerosotan itu kepada dua faktor. Satu ialah pertumbuhan dalam bilangan "kawan" orang ada di Facebook. Yang lain adalah bahawa beberapa aktiviti perkongsian telah beralih kepada mesej dan kepada pesaing seperti SnapChat. Laporan itu juga mendedahkan beberapa taktik Facebook telah cuba untuk meningkatkan perkongsian, termasuk News Feed tweak algoritma yang membuat post asal lebih menonjol, serta peringatan berkala mengenai pengguna jawatan asal "Pada Hari Ini" beberapa tahun lalu. Apa implikasi, jika ada, yang penemuan ini mempunyai penyelidik yang mahu menggunakan Facebook sebagai sumber data?
[ ] Tumasjan et al. (2010) melaporkan bahawa bahagian tweet menyebut sebuah parti politik dipadankan bahagian undi parti yang diterima pada pilihan raya Parlimen Jerman pada tahun 2009 (Rajah 2.9). Dalam erti kata lain, ia kelihatan bahawa anda boleh menggunakan Twitter untuk meramalkan pilihan raya. Pada masa kajian ini telah diterbitkan ia dianggap amat menarik kerana ia seolah-olah mencadangkan penggunaan berharga untuk sumber yang sama data besar.

Memandangkan ciri-ciri buruk data yang besar, bagaimanapun, anda perlu segera menjadi sangsi dengan keputusan ini. Jerman di Twitter pada tahun 2009 adalah agak kumpulan bukan wakil, dan penyokong satu pihak mungkin tweet mengenai politik lebih kerap. Oleh itu, ia seolah-olah mengejutkan bahawa semua berat sebelah mungkin bahawa anda boleh bayangkan entah bagaimana akan membatalkan. Malah, keputusan dalam Tumasjan et al. (2010) ternyata menjadi terlalu baik untuk menjadi kenyataan. Dalam kertas kerja mereka, Tumasjan et al. (2010) dianggap enam parti politik: Demokrat Kristian (CDU), Christian Demokrat Sosial (CSU), SPD, Liberal (FDP), The Left (Die Linke), dan Parti Hijau (Grüne). Walau bagaimanapun, kebanyakan disebut Jerman parti politik di Twitter pada masa itu adalah Parti Pirate (Piraten), sebuah parti yang memperjuangkan peraturan kerajaan Internet. Apabila Parti Pirate telah dimasukkan dalam analisis, Twitter menyebut menjadi peramal dahsyat keputusan pilihan raya (Rajah 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Rajah 2.9: Twitter menyebut kelihatan meramalkan keputusan pilihan raya Jerman 2009 (Tumasjan et al. 2010) , Tetapi keputusan ini ternyata bergantung kepada beberapa pilihan sewenang-wenangnya dan tidak wajar (Jungherr, Jürgens, and Schoen 2012) .

Selepas itu, penyelidik lain di seluruh dunia telah menggunakan pelamun kaedah-seperti menggunakan analisis sentimen untuk membezakan antara positif dan negatif daripada pihak-pihak dalam usaha untuk meningkatkan keupayaan data Twitter untuk meramalkan pelbagai jenis pilihan raya (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Berikut adalah cara Huberty (2015) diringkaskan keputusan percubaan ini untuk meramalkan pilihan raya:

"Semua kaedah peramalan dikenali berdasarkan media sosial telah gagal apabila dikenakan tuntutan benar ramalan pilihan raya yang berpandangan ke hadapan. kegagalan ini kelihatan kerana sifat-sifat asas media sosial, dan bukannya untuk metodologi atau algoritma kesukaran. Pendek kata, media sosial tidak, dan mungkin tidak akan, menawarkan stabil, tidak berat sebelah, picture wakil daripada pengundi; dan sampel kemudahan media sosial tidak mempunyai data yang mencukupi untuk menetapkan masalah-masalah ini post hoc. "

Baca beberapa penyelidikan yang membawa Huberty (2015) membuat kesimpulan itu, dan menulis memo satu halaman untuk calon politik menggambarkan jika dan bagaimana Twitter boleh digunakan untuk meramal pilihan raya.
[ ] Apakah perbezaan di antara seorang ahli sosiologi dan ahli sejarah? Menurut Goldthorpe (1991) , perbezaan utama antara seorang ahli sosiologi dan ahli sejarah adalah kawalan ke atas pengumpulan data. Ahli-ahli sejarah terpaksa menggunakan peninggalan sedangkan sosiologi boleh menyesuaikan pengumpulan data mereka untuk tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbezaan antara sosiologi dan sejarah yang berkaitan dengan idea Custommades dan Readymades?
[ ] Membina soalan sebelumnya, Goldthorpe (1991) menarik beberapa jawapan kritikal, termasuk satu dari Nicky Hart (1994) yang mencabar kesetiaan Goldthorpe untuk menyesuaikan data dibuat. Untuk menjelaskan batasan potensi data khusus dibuat, Hart menyifatkan Projek Pekerja Affluent, kajian yang besar untuk mengukur hubungan antara kelas sosial dan pengundian yang dijalankan oleh Goldthorpe dan rakan-rakan pada pertengahan 1960-an. Sebagai salah satu jangkakan dari seorang ulama yang disukai direka data melalui data ditemui, Pekerja Project Affluent mengumpul data yang telah disesuaikan untuk menangani teori yang dicadangkan baru-baru mengenai masa depan kelas sosial dalam era meningkatkan taraf hidup. Tetapi, Goldthorpe dan rakan-entah bagaimana "terlupa" untuk mengumpul maklumat mengenai tingkah laku pengundian wanita. Berikut adalah cara Nicky Hart (1994) meringkaskan seluruh episod ini:

". . . ia [adalah] sukar untuk mengelakkan kesimpulan bahawa wanita telah ditinggalkan kerana ini 'tailor made' dataset terhad oleh logik paradigmatik yang mengecualikan pengalaman wanita. Didorong oleh wawasan teori kesedaran kelas dan tindakan sebagai keasyikan lelaki. . . , Goldthorpe dan rakan-rakannya membina sebuah set bukti-bukti empirikal yang diberi makan dan dipupuk andaian teori mereka sendiri dan bukannya mendedahkan mereka kepada ujian yang sah kecukupan. "

Hart meneruskan:

"Hasil kajian empirikal Pekerja Projek Affluent ceritakan lebih lanjut mengenai nilai masculinist sosiologi abad pertengahan daripada mereka memberitahu proses stratifikasi, politik dan kehidupan material."

Bolehkah anda memikirkan contoh lain di mana pengumpulan data yang direka khas mempunyai berat sebelah pengumpul data yang dibina ke dalamnya? Bagaimana ini berbanding dengan membaurkan algoritma? Apa implikasi mungkin ini mempunyai apabila penyelidik perlu menggunakan Readymades dan apabila mereka perlu menggunakan Custommades?
[ ] Dalam bab ini, saya dibandingkan data yang dikumpul oleh penyelidik penyelidik dengan rekod pentadbiran dicipta oleh syarikat-syarikat dan kerajaan. Sesetengah orang memanggil rekod-rekod pentadbiran "mendapati data", yang mereka berbeza dengan "data direka." Memang benar bahawa rekod pentadbiran yang ditemui oleh penyelidik, tetapi mereka juga sangat direka. Sebagai contoh, syarikat-syarikat teknologi moden menghabiskan sejumlah besar masa dan sumber untuk mengumpul dan pendita pembantu data mereka. Oleh itu, rekod-rekod pentadbiran kedua-duanya ditemui dan direka, ia hanya bergantung kepada perspektif anda (Rajah 2.10).

Rajah 2.10: Gambar adalah kedua-dua itik dan arnab; apa yang anda lihat bergantung kepada perspektif anda. Kerajaan dan perniagaan rekod pentadbiran kedua-duanya ditemui dan direka; apa yang anda lihat bergantung kepada perspektif anda. Sebagai contoh, rekod panggilan data yang dikumpul oleh syarikat telefon bimbit terdapat data dari perspektif penyelidik. Tetapi, rekod-rekod yang tepat sama direka perspektif data seseorang yang bekerja di jabatan bil syarikat telefon. Sumber: Wikimedia Commons

Berikan contoh sumber data di mana ia melihat kedua-dua seperti yang terdapat dan direka membantu apabila menggunakan sumber data untuk penyelidikan.
[ ] Dalam esei yang bernas, Christian Sandvig dan Eszter Hargittai (2015) menggambarkan dua jenis penyelidikan digital, di mana sistem digital adalah "surat cara" atau "objek kajian." Contoh jenis pertama pengajian di mana Bengtsson dan rakan-rakan (2011) menggunakan data telefon bimbit untuk mengesan penghijrahan selepas gempa bumi di Haiti pada tahun 2010. contoh dari jenis yang kedua adalah di mana Jensen (2007) kajian bagaimana pengenalan telefon mudah alih di seluruh Kerala, India memberi kesan kepada fungsi pasaran untuk ikan. Saya mendapati ini berguna kerana ia menjelaskan bahawa kajian menggunakan sumber data digital boleh mempunyai matlamat yang agak berbeza walaupun mereka menggunakan jenis yang sama sumber data. Dalam usaha untuk menjelaskan lagi perbezaan ini, terangkan empat kajian yang anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek kajian. Anda boleh menggunakan contoh-contoh daripada bab ini jika anda mahu.