ulasan lanjut

Seksyen ini direka untuk digunakan sebagai rujukan, dan bukannya untuk dibaca sebagai cerita.

  • Pengenalan (Seksyen 2.1)

Satu jenis memerhatikan bahawa tidak termasuk dalam bab ini adalah etnografi. Untuk maklumat lanjut mengenai etnografi dalam ruang digital melihat Boellstorff et al. (2012) , dan untuk lebih lanjut mengenai etnografi dalam ruang digital dan fizikal campuran melihat Lane (2016) .

  • Data yang besar (Bahagian 2.2)

Apabila anda tujuan semula data, terdapat dua helah mental yang boleh membantu anda memahami masalah yang mungkin yang mungkin anda hadapi. Pertama, anda boleh cuba untuk membayangkan set data yang sesuai untuk masalah anda dan bandingkan bahawa set data yang anda gunakan. Bagaimana mereka sama dan bagaimana mereka berbeza? Jika anda tidak mengumpul data anda sendiri, ada mungkin menjadi perbezaan antara apa yang anda mahu dan apa yang anda ada. Tetapi, anda perlu membuat keputusan jika perbezaan ini adalah kecil atau besar.

Kedua, ingat bahawa seseorang diwujudkan dan mengumpul data anda untuk sebab-sebab tertentu. Anda harus cuba untuk memahami pemikiran mereka. Ini jenis terbalik-kejuruteraan boleh membantu anda mengenal pasti masalah yang mungkin dan berat sebelah dalam data dibuat semula anda.

Tidak ada definisi konsensus tunggal "data yang besar", tetapi banyak definisi seolah-olah memberi tumpuan kepada 3 Vs: (contohnya, jumlah, kepelbagaian, dan halaju Japec et al. (2015) ). Dan bukannya memberi tumpuan kepada ciri-ciri data, definisi saya lebih tertumpu mengapa data yang telah dicipta.

kemasukan saya data pentadbiran kerajaan dalam kategori data yang besar agak luar biasa. Yang lain telah menjadikan kes ini, termasuk Legewie (2015) , Connelly et al. (2016) , dan Einav and Levin (2014) . Untuk maklumat lanjut mengenai nilai data pentadbiran kerajaan untuk penyelidikan, lihat Card et al. (2010) , Taskforce (2012) , dan Grusky, Smeeding, and Snipp (2015) .

Untuk tujuan penyelidikan pentadbiran dari dalam sistem statistik kerajaan, terutamanya Biro Banci Amerika Syarikat, melihat Jarmin and O'Hara (2016) . Untuk rawatan panjang buku penyelidikan rekod pentadbiran, Statistik Sweden, lihat Wallgren and Wallgren (2007) .

Dalam bab ini, saya secara ringkas berbanding kajian tradisional seperti Tinjauan Umum Sosial (GSS) kepada sumber data media sosial seperti Twitter. Untuk perbandingan yang teliti dan berhati-hati di antara kajian tradisional dan data media sosial, lihat Schober et al. (2016) .

  • Ciri-ciri biasa data yang besar (Seksyen 2.3)

Ini 10 ciri-ciri data besar telah digambarkan dalam pelbagai cara yang berbeza oleh pelbagai penulis yang berbeza. Penulisan yang mempengaruhi pemikiran saya mengenai isu-isu termasuk: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , dan Goldstone and Lupyan (2016) .

Dalam bab ini, saya telah menggunakan kesan digital jangka, yang saya fikir adalah agak neutral. Istilah lain yang popular untuk kesan digital adalah tapak kaki digital (Golder and Macy 2014) , tetapi sebagai Hal Abelson, Ken Ledeen, dan Harry Lewis (2008) menunjukkan, istilah yang lebih sesuai mungkin cap jari digital. Apabila anda membuat tapak kaki, anda sedar apa yang berlaku dan kesan tapak kaki anda tidak boleh biasanya dikesan kepada anda secara peribadi. Perkara yang sama tidak benar untuk kesan digital anda. Malah, anda meninggalkan kesan sepanjang masa kira-kira yang anda mempunyai pengetahuan yang sangat sedikit. Dan, walaupun kesan ini tidak mempunyai nama anda pada mereka, mereka boleh sering dikaitkan kembali kepada anda. Dalam erti kata lain, mereka lebih seperti cap jari: kelihatan dan mengenal pasti secara peribadi.

Besar

Untuk maklumat lanjut mengenai mengapa set data yang besar, menyebabkan ujian statistik bermasalah, lihat Lin, Lucas, and Shmueli (2013) dan McFarland and McFarland (2015) . Isu-isu ini perlu membawa penyelidik untuk memberi tumpuan kepada kepentingan praktikal bukannya kepentingan statistik.

Sentiasa hidup

Apabila menimbangkan sentiasa ke data, ia adalah penting untuk mempertimbangkan sama ada anda membandingkan orang yang sama yang tepat dari semasa ke semasa atau sama ada anda membandingkan beberapa kumpulan berubah-bangsa; lihat sebagai contoh, Diaz et al. (2016) .

Tidak reaktif

Sebuah buku klasik di atas langkah-langkah bukan reaktif adalah Webb et al. (1966) . Contoh-contoh dalam buku pra-tarikh era digital, tetapi mereka masih menerangi. Untuk contoh-contoh orang mengubah tingkah laku mereka kerana kehadiran pengawasan besar-besaran, lihat Penney (2016) dan Brayne (2014) .

tidak lengkap

Untuk maklumat lanjut mengenai rekod hubungan, lihat Dunn (1946) dan Fellegi and Sunter (1969) (historical) dan Larsen and Winkler (2014) (moden). Sama mendekati juga telah dibangunkan dalam bidang sains komputer di bawah nama-nama seperti deduplication data, pengenalan contoh, nama yang hampir sama, salinan pengesanan, dan salinan pengesanan rekod (Elmagarmid, Ipeirotis, and Verykios 2007) . Terdapat juga privasi memelihara pendekatan untuk merakam hubungan yang tidak memerlukan penghantaran maklumat pengenalan peribadi (Schnell 2013) . Facebook juga telah membangunkan meneruskan untuk menghubungkan rekod mereka kepada tingkah laku mengundi; ini dilakukan untuk menilai satu eksperimen yang saya akan memberitahu anda kira-kira dalam Bab 4 (Bond et al. 2012; Jones et al. 2013) .

Untuk maklumat lanjut mengenai kesahihan konstruk, lihat Shadish, Cook, and Campbell (2001) , Bab 3.

tidak boleh diakses

Untuk maklumat lanjut mengenai AOL search kejatuhan, lihat Ohm (2010) . Saya menawarkan nasihat mengenai kerjasama dengan syarikat-syarikat dan kerajaan dalam Bab 4 apabila saya menerangkan eksperimen. Beberapa penulis telah menyatakan kebimbangan mengenai penyelidikan yang bergantung kepada data tidak boleh diakses, lihat Huberman (2012) dan boyd and Crawford (2012) .

Satu cara yang baik untuk penyelidik universiti untuk memperoleh akses data adalah untuk bekerja di sebuah syarikat sebagai pelatih atau melawat penyelidik. Selain membolehkan akses data, proses ini juga akan membantu penyelidik mengetahui lebih lanjut mengenai bagaimana data yang telah diwujudkan, yang penting untuk analisis.

Bukan wakil

Bukan kerepresentatifan adalah masalah utama bagi penyelidik dan kerajaan yang ingin membuat kenyataan mengenai keseluruhan populasi. Ini adalah kurang daripada kebimbangan untuk syarikat-syarikat yang biasanya memberi tumpuan kepada pengguna mereka. Untuk maklumat lanjut mengenai bagaimana Statistik Belanda menganggap isu keengganan kerepresentatifan data besar perniagaan, lihat Buelens et al. (2014) .

Dalam Bab 3, saya akan menerangkan pensampelan dan dianggarkan dengan banyak lebih terperinci. Walaupun data adalah bukan wakil, di bawah syarat-syarat tertentu, mereka akan diberatkan untuk menghasilkan anggaran yang baik.

Drifting

Sistem drift adalah sangat sukar untuk melihat dari luar. Walau bagaimanapun, projek MovieLens yang (dibincangkan lebih dalam Bab 4) telah berjalan selama lebih daripada 15 tahun oleh kumpulan penyelidikan akademik. Oleh itu, mereka telah didokumenkan dan maklumat tentang cara bahawa sistem ini telah berkembang dari masa ke masa dan bagaimana berkongsi ini mungkin memberi kesan kepada analisis (Harper and Konstan 2015) .

Beberapa sarjana telah memberi tumpuan kepada drift di Twitter: Liu, Kliman-Silver, and Mislove (2014) dan Tufekci (2014) .

algorithmically digagalkan

Saya pertama kali mendengar istilah "algorithmically digagalkan" yang digunakan oleh Jon Kleinberg dalam ceramah. Idea utama di sebalik performativity adalah bahawa beberapa teori sains sosial adalah "enjin tidak kamera" (Mackenzie 2008) . Iaitu, mereka benar-benar membentuk dunia bukan hanya menangkap.

Kotor

Agensi statistik kerajaan memanggil pembersihan data, menyunting data statistik. De Waal, Puts, and Daas (2014) menerangkan teknik editing data statistik dibangunkan untuk data kajian dan memeriksa mana tahap mereka boleh digunakan untuk sumber data yang besar, dan Puts, Daas, and Waal (2015) membentangkan beberapa idea-idea yang sama untuk penonton yang lebih umum.

Untuk beberapa contoh kajian yang memberi tumpuan kepada spam di Twitter, Clark et al. (2016) dan Chu et al. (2012) . Akhir sekali, Subrahmanian et al. (2016) menerangkan keputusan DARPA Twitter Bot Challenge.

sensitif

Ohm (2015) mengkaji penyelidikan awal pada idea maklumat sensitif dan menawarkan ujian pelbagai faktor. Empat faktor dia bercadang ialah: kebarangkalian bahaya; kebarangkalian bahaya; kehadiran hubungan sulit; dan sama ada risiko yang mencerminkan kebimbangan majoritarian.

  • Mengira perkara (Seksyen 2.4.1)

Kajian Farber ini teksi di New York adalah berdasarkan kajian yang lebih awal oleh Camerer et al. (1997) yang menggunakan tiga sampel kemudahan yang berbeza perjalanan kertas bentuk helaian kertas yang digunakan oleh pemandu untuk merakam perjalanan masa mula, masa tamat dan makanan. Kajian ini awal mendapati pemandu seolah-olah menjadi golongan sasaran: mereka bekerja kurang pada hari-hari di mana gaji mereka adalah lebih tinggi.

Kossinets and Watts (2009) telah memberi tumpuan kepada asal-usul homophily dalam rangkaian sosial. Lihat Wimmer and Lewis (2010) pendekatan yang berbeza untuk masalah yang sama yang menggunakan data daripada Facebook.

Dalam kerja-kerja berikutnya, Raja dan rakan-rakan telah diterokai lagi talian penapisan di China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Untuk pendekatan yang berkaitan dengan mengukur talian penapisan di China, lihat Bamman, O'Connor, and Smith (2012) . Untuk maklumat lanjut mengenai kaedah statistik seperti yang digunakan di King, Pan, and Roberts (2013) untuk menganggarkan sentimen daripada 11 juta jawatan, lihat Hopkins and King (2010) . Untuk maklumat lanjut mengenai pembelajaran diselia, lihat James et al. (2013) (kurang teknikal) dan Hastie, Tibshirani, and Friedman (2009) (lebih teknikal).

  • Ramalan (Seksyen 2.4.2)

Ramalan adalah sebahagian besar sains data industri (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Salah satu jenis ramalan yang biasa dilakukan oleh penyelidik sosial adalah ramalan demografi, misalnya Raftery et al. (2012) .

Google Trend Selesema tidak adalah projek pertama yang menggunakan data carian untuk nowcast influenza kelaziman. Malah, penyelidik di Amerika Syarikat (Polgreen et al. 2008; Ginsberg et al. 2009) dan Sweden (Hulth, Rydevik, and Linde 2009) mendapati bahawa istilah carian tertentu (contohnya, "flu") meramalkan pengawasan kesihatan awam negara data sebelum ia dikeluarkan. Selepas itu, banyak projek-projek lain telah cuba menggunakan data surih digital untuk mengesan pengawasan penyakit, lihat Althouse et al. (2015) untuk ulasan.

Selain menggunakan data surih digital untuk meramalkan hasil kesihatan, terdapat juga sejumlah besar kerja menggunakan data Twitter untuk meramalkan hasil pilihan raya; kerana ulasan melihat Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), dan Huberty (2015) .

Dengan menggunakan data carian untuk meramalkan influenza kelaziman dan menggunakan data Twitter untuk meramalkan pilihan raya kedua-duanya adalah contoh menggunakan beberapa jenis kesan digital untuk meramalkan beberapa jenis acara di dunia. Terdapat sejumlah besar kajian yang mempunyai struktur umum ini. Jadual 2.5 termasuk beberapa contoh lain.

Jadual 2.5: Senarai separa kajian menggunakan beberapa jejak digital untuk meramalkan beberapa peristiwa.
jejak digital hasil Citation
Twitter Box pendapatan pejabat filem di Amerika Syarikat Asur and Huberman (2010)
Cari kayu balak Jualan, filem, muzik buku, dan permainan video di Amerika Syarikat Goel et al. (2010)
Twitter Dow Jones Industrial Average (pasaran saham AS) Bollen, Mao, and Zeng (2011)
  • Eksperimen yang hampir (Seksyen 2.4.3)

Jurnal PS Political Science mempunyai simposium mengenai data yang besar, kesimpulan sebab dan akibat, dan teori formal, dan Clark and Golder (2015) meringkaskan setiap sumbangan. Prosiding jurnal Akademi Sains Kebangsaan Amerika Syarikat of America mempunyai simposium mengenai kesimpulan sebab dan akibat dan data yang besar, dan Shiffrin (2016) meringkaskan setiap sumbangan.

Dari segi eksperimen semula jadi, Dunning (2012) menyediakan rawatan panjang buku yang sangat baik. Untuk maklumat lanjut mengenai menggunakan Vietnam draf loteri sebagai eksperimen semula jadi, melihat Berinsky and Chatfield (2015) . Pendekatan pembelajaran mesin yang cuba untuk mencari eksperimen semula jadi di dalam sumber data yang besar secara automatik, lihat Jensen et al. (2008) dan Sharma, Hofman, and Watts (2015) .

Dari segi yang hampir sama, untuk kajian yakin, lihat Stuart (2010) , dan untuk semakan pesimis melihat Sekhon (2009) . Untuk maklumat lanjut mengenai hampir sama sebagai sejenis mencantas, melihat Ho et al. (2007) . Bagi buku yang menyediakan rawatan yang sangat baik yang hampir sama, lihat Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , dan Imbens and Rubin (2015) .