Salah satu jenis pengamatan yang tidak termasuk dalam bab ini adalah etnografi. Untuk lebih lanjut tentang etnografi di ruang digital, lihat Boellstorff et al. (2012) , dan untuk lebih lanjut tentang etnografi dalam ruang digital dan fisik campuran, lihat Lane (2016) .
Tidak ada definisi konsensus tunggal "big data," tetapi banyak definisi tampaknya fokus pada "3 Vs": volume, variasi, dan kecepatan (misalnya, Japec et al. (2015) ). Lihat De Mauro et al. (2015) untuk peninjauan definisi.
Dimasukkannya data administrasi pemerintah dalam kategori data besar agak sedikit tidak biasa, meskipun yang lain juga telah membuat kasus ini, termasuk Legewie (2015) , Connelly et al. (2016) , dan Einav and Levin (2014) . Untuk lebih lanjut tentang nilai data administrasi pemerintah untuk penelitian, lihat Card et al. (2010) , Adminstrative Data Taskforce (2012) , dan Grusky, Smeeding, and Snipp (2015) .
Untuk pandangan penelitian administratif dari dalam sistem statistik pemerintah, khususnya Biro Sensus AS, lihat Jarmin and O'Hara (2016) . Untuk pengobatan buku-panjang dari catatan administrasi penelitian di Statistik Swedia, lihat Wallgren and Wallgren (2007) .
Dalam bab ini, saya secara singkat membandingkan survei tradisional seperti Survei Sosial Umum (GSS) dengan sumber data media sosial seperti Twitter. Untuk perbandingan menyeluruh dan cermat antara survei tradisional dan data media sosial, lihat Schober et al. (2016) .
10 karakteristik data besar ini telah dijelaskan dalam berbagai cara yang berbeda oleh berbagai penulis yang berbeda. Menulis yang memengaruhi pemikiran saya tentang isu-isu ini termasuk Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , dan Goldstone and Lupyan (2016) .
Sepanjang bab ini, saya telah menggunakan istilah jejak digital , yang menurut saya relatif netral. Istilah populer lainnya untuk jejak digital adalah jejak digital (Golder and Macy 2014) , tetapi seperti Hal Abelson, Ken Ledeen, dan Harry Lewis (2008) tunjukkan, istilah yang lebih tepat mungkin adalah sidik jari digital . Ketika Anda membuat jejak kaki, Anda menyadari apa yang terjadi dan jejak kaki Anda pada umumnya tidak dapat dilacak kepada Anda secara pribadi. Hal yang sama tidak berlaku untuk jejak digital Anda. Bahkan, Anda meninggalkan jejak sepanjang waktu yang pengetahuannya sangat sedikit. Dan, meskipun jejak ini tidak memiliki nama Anda pada mereka, mereka sering dapat dihubungkan kembali kepada Anda. Dengan kata lain, mereka lebih seperti sidik jari: tidak terlihat dan secara pribadi mengidentifikasi.
Untuk lebih lanjut tentang mengapa dataset besar membuat tes statistik bermasalah, lihat M. Lin, Lucas, and Shmueli (2013) dan McFarland and McFarland (2015) . Masalah-masalah ini harus mengarahkan para peneliti untuk fokus pada makna praktis daripada signifikansi statistik.
Untuk lebih lanjut tentang bagaimana Raj Chetty dan rekan memperoleh akses ke catatan pajak, lihat Mervis (2014) .
Dataset besar juga dapat membuat masalah komputasi yang umumnya berada di luar kemampuan satu komputer. Oleh karena itu, peneliti membuat perhitungan pada dataset besar sering menyebarkan pekerjaan melalui banyak komputer, suatu proses yang kadang disebut pemrograman paralel . Untuk pengantar pemrograman paralel, khususnya bahasa yang disebut Hadoop, lihat Vo and Silvia (2016) .
Ketika mempertimbangkan data yang selalu aktif, penting untuk mempertimbangkan apakah Anda membandingkan orang yang sama dari waktu ke waktu atau apakah Anda membandingkan beberapa kelompok orang yang berubah; lihat misalnya, Diaz et al. (2016) .
Buku klasik tentang tindakan nonreaktif adalah Webb et al. (1966) . Contoh-contoh dalam buku itu mendahului era digital, tetapi mereka masih menyala. Untuk contoh orang yang mengubah perilaku mereka karena adanya pengawasan massal, lihat Penney (2016) dan Brayne (2014) .
Reaktivitas terkait erat dengan apa yang peneliti sebut efek permintaan (Orne 1962; Zizzo 2010) dan efek Hawthorne (Adair 1984; Levitt and List 2011) .
Untuk lebih lanjut tentang hubungan rekaman, lihat Dunn (1946) dan Fellegi and Sunter (1969) (historical) dan Larsen and Winkler (2014) (modern). Pendekatan serupa juga telah dikembangkan dalam ilmu komputer di bawah nama-nama seperti deduplication data, identifikasi instance, pencocokan nama, deteksi duplikat, dan deteksi duplikat catatan (Elmagarmid, Ipeirotis, and Verykios 2007) . Ada juga pendekatan pelestarian privasi untuk merekam tautan yang tidak memerlukan transmisi informasi identifikasi pribadi (Schnell 2013) . Facebook juga telah mengembangkan proses untuk menghubungkan catatan mereka dengan perilaku memilih; ini dilakukan untuk mengevaluasi eksperimen yang akan saya ceritakan di bab 4 (Bond et al. 2012; Jones et al. 2013) .
Untuk lebih lanjut tentang validitas konstruk, lihat bab 3 dari Shadish, Cook, and Campbell (2001) .
Untuk lebih lanjut tentang bencana log pencarian AOL, lihat Ohm (2010) . Saya menawarkan saran tentang bermitra dengan perusahaan dan pemerintah di bab 4 ketika saya mendeskripsikan eksperimen. Sejumlah penulis menyatakan keprihatinan tentang penelitian yang bergantung pada data yang tidak dapat diakses, lihat Huberman (2012) dan boyd and Crawford (2012) .
Salah satu cara yang baik bagi para peneliti universitas untuk memperoleh akses data adalah untuk bekerja di sebuah perusahaan sebagai magang atau mengunjungi peneliti. Selain memungkinkan akses data, proses ini juga akan membantu peneliti mempelajari lebih lanjut tentang bagaimana data itu dibuat, yang penting untuk analisis.
Dalam hal mendapatkan akses ke data pemerintah, Mervis (2014) membahas bagaimana Raj Chetty dan rekan memperoleh akses ke catatan pajak yang digunakan dalam penelitian mereka tentang mobilitas sosial.
Untuk lebih lanjut tentang sejarah "keterwakilan" sebagai konsep, lihat Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , dan Kruskal and Mosteller (1980) .
Ringkasan saya tentang karya Salju dan karya Doll and Hill singkat. Untuk lebih lanjut tentang pekerjaan Snow pada kolera, lihat Freedman (1991) . Untuk lebih lanjut tentang Studi Dokter Inggris, lihat Doll et al. (2004) dan Keating (2014) .
Banyak peneliti akan terkejut ketika mengetahui bahwa meskipun Doll dan Hill telah mengumpulkan data dari dokter wanita dan dari dokter di bawah usia 35 tahun, mereka dengan sengaja tidak menggunakan data ini dalam analisis pertama mereka. Seperti yang mereka berargumen: “Karena kanker paru relatif jarang terjadi pada wanita dan pria di bawah 35 tahun, angka yang berguna tidak mungkin diperoleh dalam kelompok ini untuk beberapa tahun mendatang. Dalam laporan pendahuluan ini kami membatasi perhatian kami pada pria berusia 35 tahun ke atas. ” Rothman, Gallacher, and Hatch (2013) , yang memiliki judul provokatif“ Mengapa keterwakilan harus dihindari, ”buat argumen yang lebih umum untuk nilai sengaja membuat data non-representatif.
Ketidakpresentrikan adalah masalah besar bagi para peneliti dan pemerintah yang ingin membuat pernyataan tentang seluruh populasi. Ini kurang menjadi perhatian bagi perusahaan, yang biasanya difokuskan pada penggunanya. Untuk lebih lanjut tentang bagaimana Statistik Belanda menganggap masalah tidak Buelens et al. (2014) big data bisnis, lihat Buelens et al. (2014) .
Untuk contoh peneliti yang menyatakan keprihatinan tentang sifat sumber data besar yang tidak representatif, lihat boyd and Crawford (2012) , K. Lewis (2015b) , dan Hargittai (2015) .
Untuk perbandingan yang lebih rinci tentang tujuan survei sosial dan penelitian epidemiologi, lihat Keiding and Louis (2016) .
Untuk lebih lanjut tentang upaya menggunakan Twitter untuk membuat generalisasi out-of-sample tentang pemilih, terutama kasus dari pemilu Jerman 2009, lihat Jungherr (2013) dan Jungherr (2015) . Setelah pekerjaan Tumasjan et al. (2010) peneliti di seluruh dunia telah menggunakan metode yang lebih bagus - seperti menggunakan analisis sentimen untuk membedakan antara penyebutan positif dan negatif dari para pihak - untuk meningkatkan kemampuan data Twitter untuk memprediksi berbagai jenis pemilihan yang berbeda (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Begini cara Huberty (2015) meringkas hasil dari upaya-upaya ini untuk memprediksi pemilihan:
“Semua metode peramalan yang diketahui berdasarkan pada media sosial telah gagal ketika mengalami tuntutan perkiraan pemilihan yang benar ke depan. Kegagalan ini tampaknya karena sifat dasar media sosial, bukan kesulitan metodologis atau algoritmik. Singkatnya, media sosial tidak, dan mungkin tidak akan pernah, menawarkan gambaran representatif yang stabil, tidak bias dan representatif; dan contoh-contoh kenyamanan dari media sosial tidak memiliki cukup data untuk memperbaiki masalah-masalah ini setelah selesai. ”
Dalam Bab 3, saya akan menjelaskan sampling dan estimasi dalam detail yang jauh lebih besar. Bahkan jika data tidak representatif, dalam kondisi tertentu, mereka dapat ditimbang untuk menghasilkan perkiraan yang baik.
Sistem drift sangat sulit dilihat dari luar. Namun, proyek MovieLens (dibahas lebih lanjut dalam bab 4) telah dijalankan selama lebih dari 15 tahun oleh kelompok riset akademis. Dengan demikian, mereka telah mampu mendokumentasikan dan berbagi informasi tentang cara sistem berkembang dari waktu ke waktu dan bagaimana ini dapat mempengaruhi analisis (Harper and Konstan 2015) .
Sejumlah sarjana telah berfokus pada drift di Twitter: Liu, Kliman-Silver, and Mislove (2014) dan Tufekci (2014) .
Salah satu pendekatan untuk menangani pergeseran populasi adalah membuat panel pengguna, yang memungkinkan peneliti untuk mempelajari orang yang sama dari waktu ke waktu, lihat Diaz et al. (2016) .
Saya pertama kali mendengar istilah "algorithmically confounded" yang digunakan oleh Jon Kleinberg dalam pembicaraan, tapi sayangnya saya tidak ingat kapan atau di mana ceramah itu diberikan. Pertama kali saya melihat istilah yang dicetak adalah di Anderson et al. (2015) , yang merupakan diskusi menarik tentang bagaimana algoritma yang digunakan oleh situs kencan mungkin menyulitkan kemampuan peneliti untuk menggunakan data dari situs web ini untuk mempelajari preferensi sosial. Kekhawatiran ini dikemukakan oleh K. Lewis (2015a) sebagai tanggapan terhadap Anderson et al. (2014) .
Selain Facebook, Twitter juga merekomendasikan orang-orang bagi pengguna untuk mengikuti berdasarkan ide penutupan triadic; lihat Su, Sharma, and Goel (2016) . Jadi tingkat penutupan triadik di Twitter adalah kombinasi dari beberapa kecenderungan manusia menuju penutupan triadik dan beberapa kecenderungan algoritmik untuk mempromosikan penutupan triadik.
Untuk lebih lanjut tentang performativitas — khususnya gagasan bahwa beberapa teori ilmu sosial adalah "mesin bukan kamera" (yaitu, mereka membentuk dunia daripada hanya menggambarkannya) —semua Mackenzie (2008) .
Instansi statistik pemerintah menyebut data pembersihan pengeditan data statistik . De Waal, Puts, and Daas (2014) menggambarkan teknik pengeditan data statistik yang dikembangkan untuk data survei dan memeriksa sejauh mana mereka berlaku untuk sumber data besar, dan Puts, Daas, and Waal (2015) menyajikan beberapa ide yang sama untuk khalayak yang lebih umum.
Untuk gambaran umum bot sosial, lihat Ferrara et al. (2016) . Untuk beberapa contoh studi yang berfokus pada pencarian spam di Twitter, lihat Clark et al. (2016) dan Chu et al. (2012) . Akhirnya, Subrahmanian et al. (2016) menjelaskan hasil Tantangan Bot Twitter DARPA, kolaborasi massal yang dirancang untuk membandingkan pendekatan untuk mendeteksi bot di Twitter.
Ohm (2015) meninjau penelitian sebelumnya tentang gagasan informasi sensitif dan menawarkan tes multi-faktor. Empat faktor yang dia usulkan adalah besarnya bahaya, kemungkinan bahaya, kehadiran hubungan rahasia, dan apakah risiko mencerminkan kekhawatiran mayoritas.
Studi Farber tentang taksi di New York didasarkan pada studi sebelumnya oleh Camerer et al. (1997) yang menggunakan tiga sampel kenyamanan kertas lembar perjalanan yang berbeda. Studi awal ini menemukan bahwa para pengemudi tampaknya menjadi target penerima: mereka bekerja lebih sedikit pada hari-hari di mana upah mereka lebih tinggi.
Dalam pekerjaan selanjutnya, King dan rekannya telah mengeksplorasi sensor online lebih lanjut di China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Untuk pendekatan terkait untuk mengukur sensor online di China, lihat Bamman, O'Connor, and Smith (2012) . Untuk lebih lanjut tentang metode statistik seperti yang digunakan dalam King, Pan, and Roberts (2013) untuk memperkirakan sentimen dari 11 juta posting, lihat Hopkins and King (2010) . Untuk lebih lanjut tentang pembelajaran yang diawasi, lihat James et al. (2013) (kurang teknis) dan Hastie, Tibshirani, and Friedman (2009) (lebih teknis).
Peramalan adalah bagian besar dari ilmu data industri (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Salah satu jenis peramalan yang umumnya dilakukan oleh peneliti sosial adalah peramalan demografis; lihat, misalnya, Raftery et al. (2012) .
Google Pantau Flu Dunia bukan proyek pertama yang menggunakan data penelusuran untuk menyiarkan prevalensi influenza. Bahkan, para peneliti di Amerika Serikat (Polgreen et al. 2008; Ginsberg et al. 2009) dan Swedia (Hulth, Rydevik, and Linde 2009) telah menemukan bahwa istilah pencarian tertentu (misalnya, "flu") memperkirakan pengawasan kesehatan masyarakat nasional data sebelum dirilis. Selanjutnya banyak, banyak proyek lain yang mencoba menggunakan data jejak digital untuk deteksi surveilans penyakit; lihat Althouse et al. (2015) untuk ditinjau.
Selain menggunakan data jejak digital untuk memprediksi hasil kesehatan, ada juga sejumlah besar pekerjaan menggunakan data Twitter untuk memprediksi hasil pemilu; untuk ulasan lihat Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Bab 7), dan Huberty (2015) . Perekaman indikator ekonomi, seperti produk domestik bruto (PDB), juga umum di bank-bank sentral, lihat Bańbura et al. (2013) . Tabel 2.8 mencakup beberapa contoh penelitian yang menggunakan semacam jejak digital untuk memprediksi beberapa jenis peristiwa di dunia.
Jejak digital | Hasil | Kutipan |
---|---|---|
Kericau | Pendapatan box office film di AS | Asur and Huberman (2010) |
Log pencarian | Penjualan film, musik, buku, dan permainan video di AS | Goel et al. (2010) |
Kericau | Dow Jones Industrial Average (pasar saham AS) | Bollen, Mao, and Zeng (2011) |
Media sosial dan log penelusuran | Survei sentimen investor dan pasar saham di Amerika Serikat, Inggris, Kanada, dan China | Mao et al. (2015) |
Log pencarian | Prevalensi Demam Berdarah di Singapura dan Bangkok | Althouse, Ng, and Cummings (2011) |
Akhirnya, Jon Kleinberg dan rekan (2015) telah menunjukkan bahwa masalah peramalan terbagi menjadi dua, kategori yang agak berbeda dan bahwa ilmuwan sosial cenderung berfokus pada satu dan mengabaikan yang lain. Bayangkan satu pembuat kebijakan, saya akan memanggilnya Anna, yang menghadapi kekeringan dan harus memutuskan apakah akan menyewa seorang shaman untuk melakukan tarian hujan untuk meningkatkan kemungkinan hujan. Pembuat kebijakan lain, saya akan memanggilnya Betty, harus memutuskan apakah akan membawa payung untuk bekerja agar tidak basah dalam perjalanan pulang. Baik Anna dan Betty dapat membuat keputusan yang lebih baik jika mereka memahami cuaca, tetapi mereka perlu mengetahui hal-hal yang berbeda. Anna perlu memahami apakah tarian hujan menyebabkan hujan. Betty, di sisi lain, tidak perlu memahami apa pun tentang kausalitas; dia hanya butuh ramalan yang akurat. Peneliti sosial sering memusatkan perhatian pada masalah-masalah seperti yang dihadapi oleh Anna — yang oleh Kleinberg dan rekan-rekannya disebut masalah kebijakan "hujan tari-seperti" —karena mereka melibatkan pertanyaan kausalitas. Pertanyaan-pertanyaan seperti yang dihadapi oleh Betty — yang oleh Kleinberg dan rekan-rekannya disebut masalah kebijakan "mirip payung" —bisa juga penting, tetapi kurang mendapat perhatian dari para peneliti sosial.
Jurnal PS Political Science memiliki simposium tentang data besar, kesimpulan kausal, dan teori formal, dan Clark and Golder (2015) meringkas setiap kontribusi. The Journal Proceedings of National Academy of Sciences dari Amerika Serikat memiliki simposium tentang kesimpulan kausal dan data besar, dan Shiffrin (2016) merangkum setiap kontribusi. Untuk pendekatan pembelajaran mesin yang mencoba secara otomatis menemukan eksperimen alami di dalam sumber data besar, lihat Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , dan Sharma, Hofman, and Watts (2016) .
Dalam hal eksperimen alami, Dunning (2012) memberikan pengantar, perawatan sepanjang buku dengan banyak contoh. Untuk pandangan skeptis dari eksperimen alami, lihat Rosenzweig and Wolpin (2000) (ekonomi) atau Sekhon and Titiunik (2012) (ilmu politik). Deaton (2010) dan Heckman and Urzúa (2010) berpendapat bahwa berfokus pada eksperimen alami dapat mengarahkan peneliti untuk fokus pada memperkirakan efek kausal yang tidak penting; Imbens (2010) argumen ini dengan pandangan yang lebih optimis tentang nilai eksperimen alami.
Ketika menjelaskan bagaimana seorang peneliti dapat pergi dari memperkirakan efek yang dirancang untuk efek melayani, saya menggambarkan teknik yang disebut variabel instrumental . Imbens and Rubin (2015) , dalam bab 23 dan 24, memberikan pengantar dan menggunakan lotere draft sebagai contoh. Pengaruh layanan militer pada compliers kadang-kadang disebut efek kausal rata-rata komper (CAcE) dan kadang-kadang efek pengobatan rata-rata lokal (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , dan Bollen (2012) menawarkan ulasan tentang penggunaan variabel instrumental dalam ilmu politik, ekonomi, dan sosiologi, dan Sovey and Green (2011) menyediakan "daftar periksa pembaca" untuk mengevaluasi studi menggunakan variabel instrumental.
Ternyata, undian draft 1970 tidak, sebenarnya diacak dengan benar; ada penyimpangan kecil dari keacakan murni (Fienberg 1971) . Berinsky and Chatfield (2015) berpendapat bahwa penyimpangan kecil ini tidak secara substantif penting dan membahas pentingnya pengacakan yang dilakukan dengan benar.
Dalam hal pencocokan, lihat Stuart (2010) untuk review yang optimis, dan Sekhon (2009) untuk review pesimistis. Untuk lebih lanjut tentang pencocokan sebagai semacam pemangkasan, lihat Ho et al. (2007) . Menemukan kecocokan tunggal sempurna untuk setiap orang seringkali sulit, dan ini memperkenalkan sejumlah kerumitan. Pertama, ketika pertandingan yang tepat tidak tersedia, peneliti harus memutuskan bagaimana mengukur jarak antara dua unit dan jika jarak yang diberikan cukup dekat. Kerumitan kedua muncul jika peneliti ingin menggunakan beberapa pertandingan untuk setiap kasus dalam kelompok perlakuan, karena ini dapat menyebabkan perkiraan yang lebih tepat. Kedua masalah ini, serta yang lain, dijelaskan secara rinci dalam bab 18 dari Imbens and Rubin (2015) . Lihat juga Bagian II dari ( ??? ) .
Lihat Dehejia and Wahba (1999) untuk contoh di mana metode yang cocok mampu menghasilkan perkiraan yang serupa dengan yang berasal dari eksperimen terkontrol acak. Tapi, lihat Arceneaux, Gerber, and Green (2006) dan Arceneaux, Gerber, and Green (2010) untuk contoh di mana metode yang cocok gagal untuk mereproduksi benchmark eksperimental.
Rosenbaum (2015) dan Hernán and Robins (2016) menawarkan saran lain untuk menemukan perbandingan yang bermanfaat dalam sumber data besar.