Kunci:
[ , ] Membaurkan Algorithmic masalah dengan Google Trend Flu. Membaca akhbar oleh Lazer et al. (2014) , dan menulis, e-mel yang jelas yang singkat untuk seorang jurutera di Google berkenaan masalah ini dan menawarkan idea bagaimana untuk menyelesaikan masalah.
[ ] Bollen, Mao, and Zeng (2011) mendakwa bahawa data dari Twitter boleh digunakan untuk meramalkan pasaran saham. Penemuan ini membawa kepada penciptaan lindung nilai dana Derwent Capital Markets-untuk melabur dalam pasaran saham berdasarkan data yang dikumpul daripada Twitter (Jordan 2010) . Apakah bukti yang anda akan mahu melihat sebelum meletakkan wang anda dalam dana itu?
[ ] Walaupun beberapa penyokong kesihatan awam hujan batu e-rokok sebagai bantuan yang berkesan untuk berhenti merokok, yang lain memberi amaran tentang risiko yang berpotensi, seperti the-tahap nikotin. Bayangkan seorang penyelidik memutuskan untuk mengkaji pendapat umum terhadap e-rokok dengan mengumpul catatan Twitter e-rokok yang berkaitan dan menjalankan analisis sentimen.
[ ] Pada bulan November 2009, Twitter berubah soalan ini dalam kotak tweet dari "Apa yang kamu buat?" Kepada "Apa yang berlaku?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) dianalisis 41.7 juta pengguna profil, 1.47 bilion hubungan sosial, 4262 topik trending, dan 106 juta tweet antara Jun 6 dan 31 Jun 2009. Berdasarkan analisis ini, mereka membuat kesimpulan bahawa Twitter berfungsi lebih sebagai medium baru perkongsian maklumat daripada rangkaian sosial.
[ ] "Semula" sering digunakan untuk mengukur pengaruh dan menyebarkan pengaruh di Twitter. Pada mulanya, pengguna terpaksa copy dan paste tweet yang mereka suka, tag penulis asal dengan / mengendalikan beliau, dan secara manual menaip "RT" sebelum tweet untuk menunjukkan bahawa itu semula a. Kemudian, pada tahun 2009 Twitter menambah butang "retweet". Pada bulan Jun 2016, Twitter memungkinkan pengguna untuk retweet tweet mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Adakah anda fikir perubahan ini harus menjejas cara anda menggunakan "semula" dalam penyelidikan anda? Mengapa atau mengapa tidak?
[ , , ] Michel et al. (2011) telah membentuk satu corpus muncul daripada usaha Google untuk mendigitalkan buku. Menggunakan versi pertama corpus itu, yang diterbitkan pada tahun 2009 dan mengandungi lebih 5 juta buku digital, penulis dianalisis perkataan penggunaan frekuensi untuk menyiasat perubahan linguistik dan trend budaya. Tidak lama selepas itu Buku Corpus Google menjadi sumber data popular bagi para penyelidik, dan versi ke-2 pangkalan data telah dikeluarkan pada tahun 2012.
Walau bagaimanapun, Pechenick, Danforth, and Dodds (2015) memberi amaran bahawa penyelidik perlu mencirikan sepenuhnya proses pensampelan corpus sebelum menggunakannya untuk membuat kesimpulan yang luas. Isu utama ialah korpus adalah perpustakaan-suka, yang mengandungi salah satu daripada setiap buku. Akibatnya, individu, penulis prolifik mampu untuk nyata memasukkan frasa baru ke dalam leksikon Buku Google. Selain itu, teks saintifik merupakan bahagian yang semakin substantif corpus sepanjang tahun 1900-an. Di samping itu, dengan membandingkan dua versi dataset Matematik Bahasa Inggeris, Pechenick et al. bukti mendapati bahawa tidak mencukupi penapisan telah digunakan dalam menghasilkan versi pertama. Semua data yang diperlukan untuk aktiviti boleh didapati di sini: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) meneroka sama ada publisiti meluas tentang NSA / PRISM pengawasan (iaitu, ayat-ayat Snowden) pada bulan Jun 2013 yang berkaitan dengan penurunan mendadak dan tiba-tiba trafik ke rencana Wikipedia mengenai topik-topik yang meningkatkan kebimbangan privasi. Jika ya, perubahan dalam tingkah laku adalah konsisten dengan kesan penyejukan yang disebabkan oleh pengawasan besar-besaran. Pendekatan Penney (2016) kadang-kadang dipanggil reka bentuk siri masa terganggu dan adalah berkaitan dengan pendekatan dalam bab mengenai yang hampir eksperimen daripada data pemerhatian (Seksyen 2.4.3).
Untuk memilih kata kunci topik, Penney dirujuk ke senarai yang digunakan oleh Amerika Syarikat Jabatan Keselamatan Dalam Negeri untuk mengesan dan memantau media sosial. Senarai DHS mengkategorikan istilah carian tertentu ke dalam pelbagai isu, iaitu "Kebimbangan Kesihatan," "Keselamatan Infrastruktur," dan "Keganasan." Bagi kumpulan kajian, Penney menggunakan empat puluh lapan kata kunci yang berkaitan dengan "Keganasan" (lihat Jadual 8 Lampiran). Beliau kemudiannya diagregatkan Wikipedia kiraan tontonan artikel pada setiap bulan untuk empat puluh lapan artikel Wikipedia yang sama dalam tempoh tiga puluh dua bulan, dari awal Januari 2012 hingga akhir bulan Ogos 2014. Bagi mengukuhkan hujahnya, beliau juga mencipta beberapa perbandingan kumpulan dengan menjejaki paparan artikel mengenai topik-topik lain.
Sekarang, anda akan meniru dan memanjangkan Penney (2016) . Semua data mentah yang anda perlu untuk aktiviti ini boleh didapati daripada Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Atau anda boleh mendapatkannya dari wikipediatrend pakej R (Meissner and Team 2016) . Apabila anda menulis-up jawapan anda, sila ambil perhatian yang sumber data yang anda gunakan. (Nota: Aktiviti yang sama juga muncul dalam Bab 6)
[ ] Efrati (2016) laporan, berdasarkan maklumat sulit, bahawa "jumlah perkongsian" di Facebook telah merosot tahun kira-kira 5.5% berbanding tahun manakala "perkongsian siaran asal" susut tahun 21% sepanjang tahun. Penurunan ini adalah meruncing dengan pengguna Facebook di bawah 30 tahun. Laporan itu mengaitkan kemerosotan itu kepada dua faktor. Satu ialah pertumbuhan dalam bilangan "kawan" orang ada di Facebook. Yang lain adalah bahawa beberapa aktiviti perkongsian telah beralih kepada mesej dan kepada pesaing seperti SnapChat. Laporan itu juga mendedahkan beberapa taktik Facebook telah cuba untuk meningkatkan perkongsian, termasuk News Feed tweak algoritma yang membuat post asal lebih menonjol, serta peringatan berkala mengenai pengguna jawatan asal "Pada Hari Ini" beberapa tahun lalu. Apa implikasi, jika ada, yang penemuan ini mempunyai penyelidik yang mahu menggunakan Facebook sebagai sumber data?
[ ] Tumasjan et al. (2010) melaporkan bahawa bahagian tweet menyebut sebuah parti politik dipadankan bahagian undi parti yang diterima pada pilihan raya Parlimen Jerman pada tahun 2009 (Rajah 2.9). Dalam erti kata lain, ia kelihatan bahawa anda boleh menggunakan Twitter untuk meramalkan pilihan raya. Pada masa kajian ini telah diterbitkan ia dianggap amat menarik kerana ia seolah-olah mencadangkan penggunaan berharga untuk sumber yang sama data besar.
Memandangkan ciri-ciri buruk data yang besar, bagaimanapun, anda perlu segera menjadi sangsi dengan keputusan ini. Jerman di Twitter pada tahun 2009 adalah agak kumpulan bukan wakil, dan penyokong satu pihak mungkin tweet mengenai politik lebih kerap. Oleh itu, ia seolah-olah mengejutkan bahawa semua berat sebelah mungkin bahawa anda boleh bayangkan entah bagaimana akan membatalkan. Malah, keputusan dalam Tumasjan et al. (2010) ternyata menjadi terlalu baik untuk menjadi kenyataan. Dalam kertas kerja mereka, Tumasjan et al. (2010) dianggap enam parti politik: Demokrat Kristian (CDU), Christian Demokrat Sosial (CSU), SPD, Liberal (FDP), The Left (Die Linke), dan Parti Hijau (Grüne). Walau bagaimanapun, kebanyakan disebut Jerman parti politik di Twitter pada masa itu adalah Parti Pirate (Piraten), sebuah parti yang memperjuangkan peraturan kerajaan Internet. Apabila Parti Pirate telah dimasukkan dalam analisis, Twitter menyebut menjadi peramal dahsyat keputusan pilihan raya (Rajah 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Selepas itu, penyelidik lain di seluruh dunia telah menggunakan pelamun kaedah-seperti menggunakan analisis sentimen untuk membezakan antara positif dan negatif daripada pihak-pihak dalam usaha untuk meningkatkan keupayaan data Twitter untuk meramalkan pelbagai jenis pilihan raya (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Berikut adalah cara Huberty (2015) diringkaskan keputusan percubaan ini untuk meramalkan pilihan raya:
"Semua kaedah peramalan dikenali berdasarkan media sosial telah gagal apabila dikenakan tuntutan benar ramalan pilihan raya yang berpandangan ke hadapan. kegagalan ini kelihatan kerana sifat-sifat asas media sosial, dan bukannya untuk metodologi atau algoritma kesukaran. Pendek kata, media sosial tidak, dan mungkin tidak akan, menawarkan stabil, tidak berat sebelah, picture wakil daripada pengundi; dan sampel kemudahan media sosial tidak mempunyai data yang mencukupi untuk menetapkan masalah-masalah ini post hoc. "
Baca beberapa penyelidikan yang membawa Huberty (2015) membuat kesimpulan itu, dan menulis memo satu halaman untuk calon politik menggambarkan jika dan bagaimana Twitter boleh digunakan untuk meramal pilihan raya.
[ ] Apakah perbezaan di antara seorang ahli sosiologi dan ahli sejarah? Menurut Goldthorpe (1991) , perbezaan utama antara seorang ahli sosiologi dan ahli sejarah adalah kawalan ke atas pengumpulan data. Ahli-ahli sejarah terpaksa menggunakan peninggalan sedangkan sosiologi boleh menyesuaikan pengumpulan data mereka untuk tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbezaan antara sosiologi dan sejarah yang berkaitan dengan idea Custommades dan Readymades?
[ ] Membina soalan sebelumnya, Goldthorpe (1991) menarik beberapa jawapan kritikal, termasuk satu dari Nicky Hart (1994) yang mencabar kesetiaan Goldthorpe untuk menyesuaikan data dibuat. Untuk menjelaskan batasan potensi data khusus dibuat, Hart menyifatkan Projek Pekerja Affluent, kajian yang besar untuk mengukur hubungan antara kelas sosial dan pengundian yang dijalankan oleh Goldthorpe dan rakan-rakan pada pertengahan 1960-an. Sebagai salah satu jangkakan dari seorang ulama yang disukai direka data melalui data ditemui, Pekerja Project Affluent mengumpul data yang telah disesuaikan untuk menangani teori yang dicadangkan baru-baru mengenai masa depan kelas sosial dalam era meningkatkan taraf hidup. Tetapi, Goldthorpe dan rakan-entah bagaimana "terlupa" untuk mengumpul maklumat mengenai tingkah laku pengundian wanita. Berikut adalah cara Nicky Hart (1994) meringkaskan seluruh episod ini:
". . . ia [adalah] sukar untuk mengelakkan kesimpulan bahawa wanita telah ditinggalkan kerana ini 'tailor made' dataset terhad oleh logik paradigmatik yang mengecualikan pengalaman wanita. Didorong oleh wawasan teori kesedaran kelas dan tindakan sebagai keasyikan lelaki. . . , Goldthorpe dan rakan-rakannya membina sebuah set bukti-bukti empirikal yang diberi makan dan dipupuk andaian teori mereka sendiri dan bukannya mendedahkan mereka kepada ujian yang sah kecukupan. "
Hart meneruskan:
"Hasil kajian empirikal Pekerja Projek Affluent ceritakan lebih lanjut mengenai nilai masculinist sosiologi abad pertengahan daripada mereka memberitahu proses stratifikasi, politik dan kehidupan material."
Bolehkah anda memikirkan contoh lain di mana pengumpulan data yang direka khas mempunyai berat sebelah pengumpul data yang dibina ke dalamnya? Bagaimana ini berbanding dengan membaurkan algoritma? Apa implikasi mungkin ini mempunyai apabila penyelidik perlu menggunakan Readymades dan apabila mereka perlu menggunakan Custommades?
[ ] Dalam bab ini, saya dibandingkan data yang dikumpul oleh penyelidik penyelidik dengan rekod pentadbiran dicipta oleh syarikat-syarikat dan kerajaan. Sesetengah orang memanggil rekod-rekod pentadbiran "mendapati data", yang mereka berbeza dengan "data direka." Memang benar bahawa rekod pentadbiran yang ditemui oleh penyelidik, tetapi mereka juga sangat direka. Sebagai contoh, syarikat-syarikat teknologi moden menghabiskan sejumlah besar masa dan sumber untuk mengumpul dan pendita pembantu data mereka. Oleh itu, rekod-rekod pentadbiran kedua-duanya ditemui dan direka, ia hanya bergantung kepada perspektif anda (Rajah 2.10).
Berikan contoh sumber data di mana ia melihat kedua-dua seperti yang terdapat dan direka membantu apabila menggunakan sumber data untuk penyelidikan.
[ ] Dalam esei yang bernas, Christian Sandvig dan Eszter Hargittai (2015) menggambarkan dua jenis penyelidikan digital, di mana sistem digital adalah "surat cara" atau "objek kajian." Contoh jenis pertama pengajian di mana Bengtsson dan rakan-rakan (2011) menggunakan data telefon bimbit untuk mengesan penghijrahan selepas gempa bumi di Haiti pada tahun 2010. contoh dari jenis yang kedua adalah di mana Jensen (2007) kajian bagaimana pengenalan telefon mudah alih di seluruh Kerala, India memberi kesan kepada fungsi pasaran untuk ikan. Saya mendapati ini berguna kerana ia menjelaskan bahawa kajian menggunakan sumber data digital boleh mempunyai matlamat yang agak berbeza walaupun mereka menggunakan jenis yang sama sumber data. Dalam usaha untuk menjelaskan lagi perbezaan ini, terangkan empat kajian yang anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek kajian. Anda boleh menggunakan contoh-contoh daripada bab ini jika anda mahu.