Satu jenis pemerhatian yang tidak termasuk dalam bab ini adalah etnografi. Untuk lebih lanjut mengenai etnografi dalam ruang digital, lihat Boellstorff et al. (2012) , dan untuk lebih lanjut mengenai etnografi dalam ruang bercampur digital dan fizikal, lihat Lane (2016) .
Tidak ada satu definisi konsensus mengenai "data besar", tetapi banyak definisi nampaknya menumpukan pada "3 Vs": jumlah, variasi, dan halaju (contohnya, Japec et al. (2015) ). Lihat De Mauro et al. (2015) untuk mengkaji semula definisi.
Kemasukan data pentadbiran kerajaan saya dalam kategori data besar agak tidak biasa, walaupun yang lain juga membuat kes ini, termasuk Legewie (2015) , Connelly et al. (2016) , dan Einav and Levin (2014) . Untuk lebih lanjut mengenai nilai data pentadbiran kerajaan untuk penyelidikan, lihat Card et al. (2010) , Adminstrative Data Taskforce (2012) , dan Grusky, Smeeding, and Snipp (2015) .
Untuk melihat penyelidikan pentadbiran dari dalam sistem statistik kerajaan, terutamanya Biro Banci AS, lihat Jarmin and O'Hara (2016) . Untuk rawatan panjang buku penyelidikan rekod pentadbiran di Statistik Sweden, lihat Wallgren and Wallgren (2007) .
Dalam bab ini, saya secara ringkas membandingkan kaji selidik tradisional seperti Kajian Sosial Umum (GSS) dengan sumber data media sosial seperti Twitter. Untuk perbandingan teliti dan teliti antara tinjauan tradisional dan data media sosial, lihat Schober et al. (2016) .
10 ciri-ciri data besar ini telah diterangkan dalam pelbagai cara yang berbeza oleh pelbagai penulis yang berbeza. Penulisan yang mempengaruhi pemikiran saya terhadap isu-isu ini termasuk Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , dan Goldstone and Lupyan (2016) .
Sepanjang bab ini, saya telah menggunakan istilah jejak digital , yang saya fikir agak neutral. Istilah lain yang digunakan untuk jejak digital adalah jejak digital (Golder and Macy 2014) , tetapi seperti Hal Abelson, Ken Ledeen, dan Harry Lewis (2008) menunjukkan, istilah yang lebih sesuai adalah mungkin cap jari digital . Apabila anda membuat jejak kaki, anda menyedari apa yang sedang berlaku dan tapak kaki anda tidak boleh ditelusuri secara peribadi kepada anda secara peribadi. Perkara yang sama tidak benar untuk kesan digital anda. Sebenarnya, anda akan meninggalkan jejak sepanjang masa yang anda mempunyai pengetahuan yang sangat sedikit. Dan, walaupun jejak ini tidak mempunyai nama anda pada mereka, mereka sering boleh dikaitkan kembali kepada anda. Dengan kata lain, mereka lebih seperti cap jari: tidak dapat dilihat dan mengenali secara peribadi.
Untuk lebih lanjut mengenai mengapa dataset besar membuat ujian statistik bermasalah, lihat M. Lin, Lucas, and Shmueli (2013) dan McFarland and McFarland (2015) . Isu-isu ini harus membawa para penyelidik untuk memberi tumpuan kepada kepentingan praktikal dan bukannya kepentingan statistik.
Untuk lebih lanjut mengenai bagaimana Raj Chetty dan rakannya memperoleh akses kepada rekod cukai, lihat Mervis (2014) .
Set data besar juga boleh membuat masalah pengiraan yang pada umumnya melebihi kemampuan komputer tunggal. Oleh itu, penyelidik yang membuat perhitungan pada dataset besar sering menyebarkan kerja ke atas banyak komputer, suatu proses yang kadang-kadang dipanggil pengaturcaraan selari . Untuk pengenalan kepada pengaturcaraan selari, khususnya bahasa yang dipanggil Hadoop, lihat Vo and Silvia (2016) .
Apabila mempertimbangkan data selalu, penting untuk mempertimbangkan sama ada anda membandingkan orang yang sama dari masa ke masa atau sama ada anda membandingkan beberapa kumpulan yang berubah; lihat contohnya, Diaz et al. (2016) .
Buku klasik mengenai langkah-langkah tidak aktif adalah Webb et al. (1966) . Contoh-contoh dalam buku itu mendahului umur digital, tetapi mereka masih menerangi. Contoh-contoh orang yang mengubah tingkah laku mereka kerana kehadiran pengawasan massa, lihat Penney (2016) dan Brayne (2014) .
Reaktiviti berkait rapat dengan apa yang dikatakan penyelidik tentang kesan permintaan (Orne 1962; Zizzo 2010) dan kesan Hawthorne (Adair 1984; Levitt and List 2011) .
Untuk lebih lanjut mengenai hubungan rakaman, lihat Dunn (1946) dan Fellegi and Sunter (1969) (sejarah) dan Larsen and Winkler (2014) (moden). Pendekatan yang serupa juga telah dibangunkan dalam sains komputer di bawah nama-nama seperti deduplikasi data, pengenalpastian contoh, padanan nama, pendua pendua, dan pengesanan rekod pendua (Elmagarmid, Ipeirotis, and Verykios 2007) . Terdapat juga pendekatan pemeliharaan privasi untuk merakam hubungan yang tidak memerlukan penghantaran maklumat mengenal pasti secara peribadi (Schnell 2013) . Facebook juga telah membangunkan satu proses untuk menghubungkan rekod mereka ke tingkah laku pengundian; ini dilakukan untuk menilai satu percubaan yang akan saya sampaikan pada bab 4 (Bond et al. 2012; Jones et al. 2013) .
Untuk lebih lanjut mengenai kesahihan membina, lihat Bab 3 Shadish, Cook, and Campbell (2001) .
Untuk maklumat lebih lanjut tentang kebocoran log carian AOL, lihat Ohm (2010) . Saya menawarkan nasihat tentang bekerjasama dengan syarikat dan kerajaan dalam bab 4 apabila saya menerangkan eksperimen. Beberapa penulis telah menyatakan kebimbangan mengenai penyelidikan yang bergantung pada data yang tidak dapat diakses, lihat Huberman (2012) dan boyd and Crawford (2012) .
Satu cara yang baik untuk penyelidik universiti untuk memperoleh akses data adalah untuk bekerja di sebuah syarikat sebagai pelatih atau melawat penyelidik. Selain membolehkan akses data, proses ini juga akan membantu penyelidik mengetahui lebih lanjut mengenai bagaimana data yang telah diwujudkan, yang penting untuk analisis.
Dari segi mendapatkan akses kepada data kerajaan, Mervis (2014) membincangkan bagaimana Raj Chetty dan rakan-rakannya memperoleh akses kepada rekod cukai yang digunakan dalam penyelidikan mereka mengenai mobiliti sosial.
Untuk lebih banyak lagi mengenai sejarah "mewakili" sebagai konsep, lihat Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , dan Kruskal and Mosteller (1980) .
Ringkasan saya mengenai kerja Salji dan karya Doll and Hill adalah ringkas. Untuk lebih lanjut mengenai kerja Salju pada kolera, lihat Freedman (1991) . Untuk lebih lanjut mengenai Kajian Doktor British melihat Doll et al. (2004) dan Keating (2014) .
Ramai penyelidik akan terkejut apabila mengetahui bahawa walaupun Doll dan Hill telah mengumpul data daripada doktor wanita dan dari doktor di bawah umur 35 tahun, mereka sengaja tidak menggunakan data ini dalam analisis pertama mereka. Seperti yang mereka katakan: "Sejak kanser paru-paru agak jarang berlaku pada wanita dan lelaki di bawah 35 tahun, angka yang berguna tidak mungkin diperoleh dalam kumpulan ini untuk beberapa tahun akan datang. Dalam laporan awal ini, kami telah mengurung perhatian kami kepada lelaki berumur 35 tahun ke atas. " Rothman, Gallacher, and Hatch (2013) , yang mempunyai tajuk provokatif" Mengapa mewakilkan harus dielakkan, "membuat argumen yang lebih umum untuk nilai dengan sengaja mencipta data bukan perwakilan.
Ketidakhadiran bukan masalah utama bagi penyelidik dan kerajaan yang ingin membuat kenyataan tentang seluruh penduduk. Ini adalah kurang kebimbangan bagi syarikat, yang biasanya tertumpu pada pengguna mereka. Untuk lebih lanjut mengenai bagaimana Statistik Belanda menganggap isu tidak mewakili data besar perniagaan, lihat Buelens et al. (2014) .
Contoh-contoh penyelidik menyatakan keprihatinan mengenai sifat bukan perwakilan sumber data besar, lihat boyd and Crawford (2012) , K. Lewis (2015b) , dan Hargittai (2015) .
Untuk perbandingan yang lebih terperinci mengenai matlamat tinjauan sosial dan penyelidikan epidemiologi, lihat Keiding and Louis (2016) .
Untuk lebih banyak percubaan menggunakan Twitter untuk membuat pengumuman umum tentang pengundi, terutamanya kes dari pilihan raya Jerman 2009, lihat Jungherr (2013) dan Jungherr (2015) . Berikutan kerja Tumasjan et al. (2010) penyelidik di seluruh dunia telah menggunakan kaedah-kaedah pelukis-seperti menggunakan analisis sentimen untuk membezakan antara positif dan negatif dari pihak-pihak-untuk meningkatkan keupayaan data Twitter untuk meramalkan pelbagai jenis pemilihan (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Inilah caranya Huberty (2015) merumuskan keputusan percubaan ini untuk meramalkan pemilihan:
"Semua kaedah peramalan yang diketahui berdasarkan media sosial telah gagal apabila tertakluk kepada tuntutan ramalan pemilihan berpandangan ke hadapan yang benar. Kegagalan ini kelihatan disebabkan oleh sifat-sifat asas media sosial, dan bukannya kesukaran metodologi atau algoritma. Singkatnya, media sosial tidak, dan mungkin tidak akan, menawarkan gambar yang stabil, tidak berat sebelah, wakil pengundi; dan sampel kemudahan media sosial tidak mempunyai data yang mencukupi untuk menyelesaikan masalah ini selepas hoc. "
Dalam bab 3, saya akan menghuraikan pensampelan dan anggaran dengan lebih terperinci. Walaupun data bukan perwakilan, dalam keadaan tertentu, mereka boleh diberi bobot untuk menghasilkan anggaran yang baik.
Sistem drift sangat sukar untuk dilihat dari luar. Walau bagaimanapun, projek MovieLens (dibincangkan lebih lanjut dalam bab 4) telah dijalankan selama lebih daripada 15 tahun oleh kumpulan penyelidikan akademik. Oleh itu, mereka dapat mendokumen dan berkongsi maklumat mengenai cara sistem telah berkembang dari semasa ke semasa dan bagaimana ini boleh memberi kesan kepada analisis (Harper and Konstan 2015) .
Sejumlah cendekiawan telah menumpukan perhatian kepada drift di Twitter: Liu, Kliman-Silver, and Mislove (2014) dan Tufekci (2014) .
Satu pendekatan untuk menangani hanyut penduduk adalah untuk mewujudkan panel pengguna, yang membolehkan para penyelidik mempelajari orang yang sama dari masa ke masa, lihat Diaz et al. (2016) .
Saya pertama kali mendengar istilah "terkejut secara algoritma" yang digunakan oleh Jon Kleinberg dalam ceramah, tetapi malangnya saya tidak ingat bila atau di mana ceramah itu diberikan. Kali pertama saya melihat istilah yang dicetak adalah dalam Anderson et al. (2015) , yang merupakan perbincangan yang menarik tentang bagaimana algoritma yang digunakan oleh laman temu janji boleh merumitkan keupayaan penyelidik untuk menggunakan data dari laman web ini untuk mengkaji pilihan sosial. Kebimbangan ini dibangkitkan oleh K. Lewis (2015a) sebagai tindak balas kepada Anderson et al. (2014) .
Sebagai tambahan kepada Facebook, Twitter juga mencadangkan pengguna untuk mengikutinya berdasarkan idea penutupan triad; lihat Su, Sharma, and Goel (2016) . Jadi tahap penutupan triad di Twitter adalah gabungan beberapa kecenderungan manusia ke arah penutupan triad dan beberapa kecenderungan algoritma untuk mempromosikan penutupan triad.
Untuk lebih banyak lagi tentang performativity-khususnya idea bahawa beberapa teori sains sosial adalah "enjin tidak kamera" (iaitu, mereka membentuk dunia dan bukannya hanya menggambarkannya) -see Mackenzie (2008) .
Agensi statistik kerajaan memanggil pembersihan data statistik data pembersihan. De Waal, Puts, and Daas (2014) menerangkan teknik penyuntingan data statistik yang dibangunkan untuk data tinjauan dan meneliti sejauh mana ia terpakai kepada sumber data besar, dan Puts, Daas, and Waal (2015) membentangkan beberapa idea yang sama untuk penonton yang lebih umum.
Untuk gambaran keseluruhan bot sosial, lihat Ferrara et al. (2016) . Untuk beberapa contoh kajian yang difokuskan untuk mencari spam di Twitter, lihat Clark et al. (2016) dan Chu et al. (2012) . Akhirnya, Subrahmanian et al. (2016) menerangkan keputusan DARPA Twitter Bot Challenge, kolaborasi massa yang direka untuk membandingkan pendekatan untuk mengesan bot di Twitter.
Ohm (2015) mengkaji semula kajian awal tentang idea maklumat sensitif dan menawarkan ujian pelbagai faktor. Keempat faktor yang dicadangkan adalah magnitud kecederaan, kebarangkalian kemudaratan, kehadiran hubungan sulit, dan sama ada risiko mencerminkan kebimbangan majoriti.
Kajian Farber mengenai teksi di New York berdasarkan kajian awal oleh Camerer et al. (1997) yang menggunakan tiga sampel kemudahan kertas perjalanan kertas yang berbeza. Kajian terdahulu ini mendapati bahawa pemandu seolah-olah menjadi golongan sasaran: mereka bekerja kurang pada hari-hari di mana upah mereka lebih tinggi.
Dalam kerja-kerja seterusnya, Raja dan rakan-rakan lebih lanjut meneroka penapisan dalam talian di China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Untuk pendekatan yang berkaitan untuk mengukur penapisan dalam talian di China, lihat Bamman, O'Connor, and Smith (2012) . Untuk lebih lanjut mengenai kaedah statistik seperti yang digunakan dalam King, Pan, and Roberts (2013) untuk menganggarkan sentimen daripada 11 juta jawatan, lihat Hopkins and King (2010) . Untuk maklumat lanjut mengenai pembelajaran yang diselia, lihat James et al. (2013) (kurang teknikal) dan Hastie, Tibshirani, and Friedman (2009) (lebih teknikal).
Peramalan adalah sebahagian besar sains data industri (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Satu jenis ramalan yang biasanya dilakukan oleh penyelidik sosial ialah ramalan demografik; lihat, sebagai contoh, Raftery et al. (2012) .
Trend Google Flu bukanlah projek pertama yang menggunakan data carian untuk mengabarkan masa berlakunya influenza. Malah, para penyelidik di Amerika Syarikat (Polgreen et al. 2008; Ginsberg et al. 2009) dan Sweden (Hulth, Rydevik, and Linde 2009) mendapati bahawa istilah carian tertentu (misalnya, "selesema") meramalkan pengawasan kesihatan awam nasional data sebelum ia dikeluarkan. Seterusnya banyak, banyak projek lain telah cuba menggunakan data jejak digital untuk pengesanan pengawasan penyakit; lihat Althouse et al. (2015) untuk semakan.
Selain menggunakan data jejak digital untuk meramalkan hasil kesihatan, terdapat juga sejumlah besar kerja menggunakan data Twitter untuk meramalkan hasil pilihan raya; untuk ulasan lihat Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (bab 7), dan Huberty (2015) . Penandaan petunjuk ekonomi, seperti keluaran dalam negeri kasar (KDNK), juga biasa di bank-bank pusat, lihat Bańbura et al. (2013) . Jadual 2.8 merangkumi beberapa contoh kajian yang menggunakan beberapa jenis jejak digital untuk meramalkan beberapa jenis peristiwa di dunia.
Jejak digital | Hasilnya | Petikan |
---|---|---|
Pendapatan Box office filem di Amerika Syarikat | Asur and Huberman (2010) | |
Cari log | Jualan filem, muzik, buku, dan permainan video di Amerika Syarikat | Goel et al. (2010) |
Purata Perindustrian Dow Jones (pasaran saham AS) | Bollen, Mao, and Zeng (2011) | |
Media sosial dan log carian | Survei sentimen pelabur dan pasaran saham di Amerika Syarikat, United Kingdom, Kanada, dan China | Mao et al. (2015) |
Cari log | Kekerapan demam denggi di Singapura dan Bangkok | Althouse, Ng, and Cummings (2011) |
Akhirnya, Jon Kleinberg dan rakan-rakan (2015) menegaskan bahawa masalah ramalan merangkumi dua kategori yang sangat berbeza dan saintis sosial cenderung memberi tumpuan kepada satu dan mengabaikan yang lain. Bayangkan satu pembuat dasar, saya akan memanggilnya Anna, yang menghadapi kemarau dan mesti membuat keputusan sama ada untuk mengambil seorang dukun untuk melakukan tarian hujan untuk meningkatkan peluang hujan. Seorang lagi pembuat dasar, saya akan panggilnya Betty, mesti memutuskan sama ada hendak mengambil payung untuk bekerja untuk mengelakkan daripada basah di rumah. Kedua-dua Anna dan Betty dapat membuat keputusan yang lebih baik jika mereka memahami cuaca, tetapi mereka perlu mengetahui perkara yang berbeza. Anna perlu memahami sama ada tarian hujan menyebabkan hujan. Betty, sebaliknya, tidak perlu memahami apa-apa mengenai kausa; dia hanya memerlukan ramalan yang tepat. Penyelidik sosial sering menumpukan pada masalah seperti yang dihadapi oleh Anna-yang Kleinberg dan rakan-rakannya menamakan masalah dasar "hujan seperti tarian" kerana mereka melibatkan persoalan kausalitas. Soalan-soalan seperti yang dihadapi oleh Betty-yang Kleinberg dan rakan-rakannya memanggil masalah dasar "payung seperti"-boleh menjadi terlalu penting, tetapi telah mendapat perhatian yang kurang dari para penyelidik sosial.
Jurnal Sains Politik PS mempunyai simposium mengenai data besar, kesimpulan kausal, dan teori formal, dan Clark and Golder (2015) meringkaskan setiap sumbangan. Prosiding jurnal Akademi Sains Nasional Amerika Syarikat mempunyai simposium mengenai kesimpulan kausal dan data besar, dan Shiffrin (2016) meringkaskan setiap sumbangan. Untuk pendekatan pembelajaran mesin yang cuba secara automatik menemui eksperimen semula jadi di dalam sumber data besar, lihat Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , dan Sharma, Hofman, and Watts (2016) .
Dari segi eksperimen semulajadi, Dunning (2012) menyediakan pengenalan, rawatan panjang buku dengan banyak contoh. Untuk pandangan skeptikal eksperimen semula jadi, lihat Rosenzweig and Wolpin (2000) (ekonomi) atau Sekhon and Titiunik (2012) (sains politik). Deaton (2010) dan Heckman and Urzúa (2010) berhujah bahawa memberi tumpuan kepada eksperimen semula jadi boleh menyebabkan para penyelidik menumpukan perhatian untuk menganggarkan kesan kausal yang tidak penting; Imbens (2010) mengimbangi hujah-hujah ini dengan pandangan yang lebih optimis mengenai nilai eksperimen semula jadi.
Apabila menerangkan bagaimana seorang penyelidik boleh pergi dari menganggarkan kesan yang dirangka untuk kesan berkhidmat, saya menerangkan teknik yang disebut pemboleh ubah instrumental . Imbens and Rubin (2015) , dalam bab 23 dan 24 mereka, memberikan pengenalan dan menggunakan loteri draf sebagai contoh. Kesan perkhidmatan ketenteraan pada penggubah kadang-kadang dipanggil kesan purata kesan kausal (CAcE) dan kadang-kadang kesan rawatan purata tempatan (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , dan Bollen (2012) menawarkan ulasan tentang penggunaan pembolehubah instrumental dalam sains politik, ekonomi, dan sosiologi, dan Sovey and Green (2011) menyediakan "daftar semak pembaca" menilai kajian menggunakan pemboleh ubah instrumental.
Ternyata bahawa undian draf tahun 1970 tidak, secara rawak sebenarnya rawak; terdapat penyimpangan kecil dari (Fienberg 1971) murni (Fienberg 1971) . Berinsky and Chatfield (2015) berpendapat bahawa penyelewengan kecil ini tidak begitu penting dan membincangkan kepentingan rawak yang dilakukan dengan betul.
Dari segi pencocokan, lihat Stuart (2010) untuk semakan optimistik, dan Sekhon (2009) untuk kajian pesimis. Untuk lebih banyak padanan sebagai pemangkasan, lihat Ho et al. (2007) . Menemukan satu perlawanan sempurna untuk setiap orang sering sukar, dan ini memperkenalkan beberapa kerumitan. Pertama, apabila padanan tepat tidak tersedia, para penyelidik perlu menentukan cara mengukur jarak antara dua unit dan jika jarak tertentu cukup dekat. Kerumitan kedua timbul jika para penyelidik ingin menggunakan beberapa padanan untuk setiap kes dalam kumpulan rawatan, kerana ini boleh membawa kepada perkiraan yang lebih tepat. Kedua-dua isu ini, serta yang lain, diterangkan secara terperinci dalam Bab 18 Imbens and Rubin (2015) . Lihat juga Bahagian II ( ??? ) .
Lihat Dehejia and Wahba (1999) untuk contoh di mana kaedah sepadan dapat menghasilkan anggaran yang sama dengan yang dari percubaan terkawal rawak. Tetapi, lihat Arceneaux, Gerber, and Green (2006) dan Arceneaux, Gerber, and Green (2010) untuk contoh-contoh di mana kaedah sepadan gagal menghasilkan penanda aras eksperimen.
Rosenbaum (2015) dan Hernán and Robins (2016) menawarkan nasihat lain untuk menemui perbandingan yang berguna dalam sumber data besar.