Kunci:
[ . ] Pengganggu algorithmic masalah dengan Google Flu Trends. Membaca koran oleh Lazer et al. (2014) , dan menulis, email yang jelas singkat untuk seorang insinyur di Google menjelaskan masalah dan menawarkan ide tentang bagaimana untuk memperbaiki masalah.
[ ] Bollen, Mao, and Zeng (2011) menyatakan bahwa data dari Twitter dapat digunakan untuk memprediksi pasar saham. Temuan ini menyebabkan penciptaan dari hedge fund-Derwent Capital Markets-untuk berinvestasi di pasar saham berdasarkan data yang dikumpulkan dari Twitter (Jordan 2010) . Bukti apa yang akan Anda ingin melihat sebelum meletakkan uang Anda dalam dana itu?
[ ] Sementara beberapa advokat kesehatan masyarakat hail e-rokok sebagai bantuan efektif untuk berhenti merokok, orang lain memperingatkan tentang risiko potensial, seperti-tingkat tinggi nikotin. Bayangkan bahwa seorang peneliti memutuskan untuk belajar opini publik ke arah e-rokok dengan mengumpulkan e-rokok terkait Twitter posting dan melakukan analisis sentimen.
[ ] Pada bulan November 2009, Twitter mengubah pertanyaan di kotak tweet dari "Apa yang kau lakukan?" Untuk "Apa yang terjadi?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) menganalisis 41,7 juta profil pengguna, 1,47 miliar hubungan sosial, 4262 trending topics, dan 106 juta tweet antara 6 Juni dan 31 Juni 2009. Berdasarkan analisis ini mereka menyimpulkan bahwa Twitter melayani lebih sebagai media baru berbagi informasi dari satu jaringan sosial.
[ ] "Retweet" sering digunakan untuk mengukur pengaruh dan menyebarkan pengaruh di Twitter. Awalnya, pengguna harus copy dan paste tweet mereka menyukai, tag penulis asli dengan / pegangan, dan secara manual ketik "RT" sebelum tweet untuk menunjukkan bahwa itu retweet. Kemudian, pada tahun 2009 Twitter menambahkan "retweet" tombol. Pada bulan Juni 2016, Twitter memungkinkan bagi pengguna untuk retweet tweet mereka sendiri (https://twitter.com/twitter/status/742749353689780224). Apakah Anda pikir perubahan ini akan mempengaruhi bagaimana Anda menggunakan "retweets" dalam penelitian Anda? Mengapa atau mengapa tidak?
[ . . ] Michel et al. (2011) dibangun sebuah korpus yang muncul dari upaya Google untuk mendigitalkan buku. Menggunakan versi pertama dari corpus, yang diterbitkan pada tahun 2009 dan berisi lebih dari 5 juta buku digital, penulis menganalisis kata frekuensi penggunaan untuk menyelidiki perubahan linguistik dan tren budaya. Segera Google Books Corpus menjadi sumber data yang populer bagi para peneliti, dan versi 2 dari database dirilis pada tahun 2012.
Namun, Pechenick, Danforth, and Dodds (2015) memperingatkan bahwa peneliti perlu untuk sepenuhnya ciri proses sampling corpus sebelum menggunakannya untuk menarik kesimpulan yang luas. Masalah utama adalah bahwa corpus adalah perpustakaan-seperti, yang mengandung satu dari setiap buku. Akibatnya, individu, penulis produktif mampu terasa memasukkan frasa baru ke dalam leksikon Google Books. Selain itu, teks-teks ilmiah merupakan suatu bagian yang semakin substantif korpus seluruh 1900. Selain itu, dengan membandingkan dua versi dari dataset Fiksi Inggris, Pechenick et al. ditemukan bukti bahwa tidak cukup filtering digunakan dalam memproduksi versi pertama. Semua data yang dibutuhkan untuk kegiatan tersedia di sini: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ . . . ] Penney (2016) mengeksplorasi apakah publisitas luas tentang NSA / PRISM pengawasan (yaitu, wahyu Snowden) Juni 2013 dikaitkan dengan penurunan tajam dan tiba-tiba lalu lintas ke artikel Wikipedia tentang topik yang mengangkat masalah privasi. Jika demikian, perubahan dalam perilaku akan konsisten dengan efek dingin yang dihasilkan dari pengawasan massa. Pendekatan Penney (2016) kadang-kadang disebut desain time series terganggu dan terkait dengan pendekatan dalam bab tentang mendekati eksperimen dari data pengamatan (Bagian 2.4.3).
Memilih kata kunci topik, Penney mengacu pada daftar yang digunakan oleh US Department of Homeland Security untuk pelacakan dan pemantauan media sosial. Daftar DHS mengkategorikan istilah pencarian tertentu ke berbagai isu, yaitu "Kepedulian Kesehatan," "Infrastruktur Keamanan," dan "Terorisme." Untuk kelompok studi, Penney menggunakan empat puluh delapan kata kunci yang terkait dengan "Terorisme" (lihat Tabel 8 Lampiran). Dia kemudian dikumpulkan artikel Wikipedia jumlah penayangan secara bulanan selama empat puluh delapan artikel Wikipedia yang sesuai selama tiga puluh dua bulan, dari awal Januari 2012 hingga akhir Agustus 2014. Untuk memperkuat argumennya, ia juga menciptakan beberapa perbandingan kelompok dengan melacak pandangan artikel tentang topik lain.
Sekarang, Anda akan meniru dan memperluas Penney (2016) . Semua data mentah yang akan Anda butuhkan untuk kegiatan ini tersedia dari Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Atau Anda bisa mendapatkannya dari wikipediatrend paket R (Meissner and Team 2016) . Ketika Anda menulis-up tanggapan Anda, harap dicatat Data yang sumber yang digunakan. (Catatan: Kegiatan yang sama ini juga muncul dalam Bab 6)
[ ] Efrati (2016) laporan, berdasarkan informasi rahasia, bahwa "total berbagi" di Facebook telah menurun tahun sekitar 5,5% dari tahun sedangkan "asli siaran berbagi" turun tahun 21% dari tahun. Penurunan ini sangat akut dengan pengguna Facebook di bawah usia 30 tahun. Laporan ini disebabkan penurunan untuk dua faktor. Salah satunya adalah pertumbuhan jumlah "teman" orang di Facebook. Yang lainnya adalah bahwa beberapa kegiatan berbagi telah bergeser ke pesan dan pesaing seperti SnapChat. Laporan itu juga mengungkapkan beberapa taktik Facebook telah mencoba untuk meningkatkan berbagi, termasuk tweaks algoritma News Feed yang membuat tulisan asli lebih menonjol, serta pengingat berkala posting pengguna asli "Pada hari ini" beberapa tahun yang lalu. Apa implikasi, jika ada, apakah temuan ini memiliki bagi para peneliti yang ingin menggunakan Facebook sebagai sumber data?
[ ] Tumasjan et al. (2010) melaporkan bahwa proporsi tweet menyebutkan partai politik cocok proporsi penilaian bahwa partai menerima dalam pemilihan parlemen Jerman pada tahun 2009 (Gambar 2.9). Dengan kata lain, ternyata Anda bisa menggunakan Twitter untuk memprediksi pemilu. Pada saat penelitian ini diterbitkan dianggap sangat menarik karena tampaknya menyarankan penggunaan berharga bagi sumber umum dari data yang besar.
Mengingat fitur buruk data besar, namun, Anda harus segera menjadi skeptis hasil ini. Jerman di Twitter pada tahun 2009 cukup kelompok non-perwakilan, dan pendukung salah satu pihak mungkin tweet tentang politik lebih sering. Dengan demikian, tampaknya mengejutkan bahwa semua kemungkinan bias yang dapat Anda bayangkan entah bagaimana akan membatalkan. Bahkan, hasil di Tumasjan et al. (2010) ternyata terlalu bagus untuk menjadi kenyataan. Dalam tulisan mereka, Tumasjan et al. (2010) dianggap enam partai politik: Kristen Demokrat (CDU), Christian Sosial Demokrat (CSU), SPD, Liberal (FDP), The Left (Die Linke), dan Partai Hijau (Grüne). Namun, partai politik Jerman yang paling disebutkan di Twitter pada saat itu adalah Partai Bajak Laut (Piraten), pihak yang melawan peraturan pemerintah dari Internet. Ketika Partai Bajak Laut termasuk dalam analisis, Twitter menyebutkan menjadi prediktor yang mengerikan dari hasil pemilu (Gambar 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Selanjutnya, peneliti lain di seluruh dunia telah menggunakan metode-seperti pengujian dengan menggunakan analisis sentimen untuk membedakan antara positif dan negatif menyebutkan dari pihak-dalam rangka meningkatkan kemampuan data Twitter untuk memprediksi berbagai jenis pemilihan (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Berikut adalah cara Huberty (2015) merangkum hasil dari upaya ini untuk memprediksi pemilihan:
"Semua metode peramalan diketahui berdasarkan media sosial telah gagal ketika mengalami tuntutan peramalan pemilu benar melihat ke depan. kegagalan ini tampaknya karena sifat dasar media sosial, bukan untuk kesulitan metodologis atau algoritmik. Singkatnya, media sosial tidak, dan mungkin tidak akan pernah, menawarkan, berisi, gambar perwakilan stabil pemilih; dan sampel kenyamanan media sosial tidak memiliki data yang cukup untuk memperbaiki masalah ini posting hoc. "
Membaca beberapa penelitian yang mengarah Huberty (2015) menyimpulkan bahwa, dan menulis memo satu halaman ke halaman kandidat politik menggambarkan jika dan bagaimana Twitter harus digunakan untuk meramalkan pemilu.
[ ] Apa perbedaan antara seorang sosiolog dan sejarawan? Menurut Goldthorpe (1991) , perbedaan utama antara seorang sosiolog dan sejarawan adalah kontrol atas pengumpulan data. Sejarawan terpaksa menggunakan peninggalan sedangkan sosiolog dapat menyesuaikan pengumpulan data mereka untuk tujuan tertentu. Baca Goldthorpe (1991) . Bagaimana perbedaan antara sosiologi dan sejarah yang terkait dengan ide Custommades dan readymades?
[ ] Bangunan pada pertanyaan sebelumnya, Goldthorpe (1991) menarik sejumlah tanggapan kritis, termasuk salah satu dari Nicky Hart (1994) yang menantang pengabdian Goldthorpe untuk menyesuaikan data yang dibuat. Untuk memperjelas potensi keterbatasan data dibuat, Hart dijelaskan Pekerja Proyek Affluent, survei besar untuk mengukur hubungan antara kelas sosial dan voting yang dilakukan oleh Goldthorpe dan rekan-rekan di pertengahan 1960-an. Seperti yang diharapkan dari seorang ulama yang disukai data melalui data yang ditemukan dirancang, Pekerja Proyek Affluent mengumpulkan data yang disesuaikan untuk mengatasi teori baru yang diusulkan tentang masa depan kelas sosial di era meningkatkan standar hidup. Tapi, Goldthorpe dan rekan entah bagaimana "lupa" untuk mengumpulkan informasi tentang perilaku pemilih perempuan. Berikut adalah cara Nicky Hart (1994) meringkas seluruh episode:
". . . itu [adalah] sulit untuk menghindari kesimpulan bahwa perempuan dihilangkan karena ini 'dibuat' dataset terbatas oleh logika paradigmatik yang dikecualikan pengalaman perempuan. Didorong oleh visi teoritis kesadaran kelas dan tindakan sebagai keasyikan laki-laki. . . , Goldthorpe dan rekan-rekannya membangun sebuah set bukti empiris yang diberi makan dan dipelihara asumsi teoritis mereka sendiri bukannya mengekspos mereka untuk tes valid kecukupan. "
Hart melanjutkan:
"Temuan empiris dari Proyek Pekerja Affluent ceritakan lebih lanjut tentang nilai-nilai maskulin sosiologi abad pertengahan daripada mereka menginformasikan proses stratifikasi, politik dan kehidupan material."
Dapatkah Anda memikirkan contoh lain dimana pengumpulan data dibuat memiliki bias dari kolektor data dibangun ke dalamnya? Bagaimana hal ini dibandingkan dengan pembaur algoritmik? implikasi apa yang mungkin ini ketika para peneliti harus menggunakan readymades dan ketika mereka harus menggunakan Custommades?
[ ] Dalam bab ini, saya kontras data yang dikumpulkan oleh peneliti untuk peneliti dengan catatan administrasi yang dibuat oleh perusahaan dan pemerintah. Beberapa orang menyebutnya catatan administrasi "ditemukan data," yang mereka kontras dengan "data yang dirancang." Memang benar bahwa catatan administrasi ditemukan oleh para peneliti, tetapi mereka juga sangat dirancang. Sebagai contoh, perusahaan teknologi modern yang menghabiskan sejumlah besar waktu dan sumber daya untuk mengumpulkan dan pendeta data mereka. Dengan demikian, catatan-catatan administrasi keduanya ditemukan dan dirancang, itu hanya tergantung pada perspektif Anda (Gambar 2.10).
Memberikan contoh sumber data mana melihatnya baik seperti yang ditemukan dan dirancang adalah membantu ketika menggunakan sumber data untuk penelitian.
[ ] Dalam esai bijaksana, Kristen Sandvig dan Eszter Hargittai (2015) menjelaskan dua jenis penelitian digital, di mana sistem digital adalah "alat" atau "objek penelitian." Sebuah contoh dari jenis pertama studi di mana Bengtsson dan rekan (2011) menggunakan data ponsel untuk melacak migrasi setelah gempa di Haiti pada tahun 2010. contoh dari jenis kedua adalah di mana Jensen (2007) studi bagaimana pengenalan ponsel di seluruh Kerala, India berdampak pada fungsi pasar untuk ikan. Saya menemukan ini bermanfaat karena menjelaskan bahwa penelitian menggunakan sumber data digital dapat memiliki tujuan yang sangat berbeda bahkan jika mereka menggunakan jenis yang sama dari sumber data. Dalam rangka untuk lebih memperjelas perbedaan ini, menggambarkan empat studi yang telah Anda lihat: dua yang menggunakan sistem digital sebagai instrumen dan dua yang menggunakan sistem digital sebagai objek studi. Anda dapat menggunakan contoh-contoh dari bab ini jika Anda ingin.