Bagian ini dirancang untuk digunakan sebagai referensi, bukan untuk dibaca sebagai narasi.
Salah satu jenis mengamati bahwa tidak termasuk dalam bab ini adalah etnografi. Untuk lebih lanjut tentang etnografi di ruang digital melihat Boellstorff et al. (2012) , dan untuk lebih lanjut tentang etnografi dalam ruang digital dan fisik campuran melihat Lane (2016) .
Ketika Anda repurposing data, ada dua trik mental yang dapat membantu Anda memahami kemungkinan masalah yang mungkin Anda alami. Pertama, Anda dapat mencoba untuk membayangkan dataset yang ideal untuk masalah Anda dan bandingkan dengan dataset yang Anda gunakan. Bagaimana mereka sama dan bagaimana mereka berbeda? Jika Anda tidak mengumpulkan data Anda sendiri, ada kemungkinan akan perbedaan antara apa yang Anda inginkan dan apa yang Anda miliki. Tapi, Anda harus memutuskan apakah perbedaan ini kecil atau besar.
Kedua, ingat bahwa seseorang dibuat dan mengumpulkan data Anda untuk beberapa alasan. Anda harus mencoba untuk memahami alasan mereka. semacam ini reverse-engineering dapat membantu Anda mengidentifikasi masalah yang mungkin dan bias dalam data Anda repurposed.
Tidak ada definisi konsensus tunggal "big data", tapi banyak definisi tampaknya fokus pada 3 Vs: (misalnya, volume, variasi, dan kecepatan Japec et al. (2015) ). Daripada berfokus pada karakteristik data, definisi saya lebih memfokuskan pada mengapa data itu dibuat.
inklusi saya data administrasi pemerintah dalam kategori data besar adalah sedikit luar biasa. Orang lain yang telah membuat kasus ini, termasuk Legewie (2015) , Connelly et al. (2016) , dan Einav and Levin (2014) . Untuk lebih lanjut tentang nilai data administrasi pemerintah untuk penelitian, melihat Card et al. (2010) , Taskforce (2012) , dan Grusky, Smeeding, and Snipp (2015) .
Untuk tampilan penelitian administratif dari dalam sistem statistik pemerintah, khususnya Biro Sensus Amerika Serikat, lihat Jarmin and O'Hara (2016) . Untuk pengobatan panjang buku penelitian berkas administrasi di Statistik Swedia, lihat Wallgren and Wallgren (2007) .
Dalam bab ini, saya secara singkat dibandingkan survei tradisional seperti Survei Sosial Umum (GSS) ke sumber data media sosial seperti Twitter. Untuk perbandingan menyeluruh dan hati-hati antara survei tradisional dan data media sosial, melihat Schober et al. (2016) .
Ini 10 karakteristik data besar telah dijelaskan dalam berbagai cara yang berbeda oleh berbagai penulis yang berbeda. Tulisan yang mempengaruhi pemikiran saya pada isu-isu ini meliputi: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , dan Goldstone and Lupyan (2016) .
Sepanjang bab ini, saya telah menggunakan jejak digital jangka, yang saya pikir relatif netral. Istilah lain yang populer untuk jejak digital adalah jejak kaki digital (Golder and Macy 2014) , tetapi sebagai Hal Abelson, Ken Ledeen, dan Harry Lewis (2008) menunjukkan, istilah yang lebih tepat mungkin sidik jari digital. Bila Anda membuat jejak kaki, Anda menyadari apa yang terjadi dan jejak kaki Anda dapat umumnya tidak ditelusuri ke Anda secara pribadi. Hal yang sama tidak berlaku untuk jejak digital Anda. Bahkan, Anda meninggalkan jejak sepanjang waktu tentang yang Anda memiliki pengetahuan yang sangat sedikit. Dan, meskipun jejak-jejak ini tidak memiliki nama Anda pada mereka, mereka sering dihubungkan kembali kepada Anda. Dengan kata lain, mereka lebih seperti sidik jari: tak terlihat dan identitas pribadi.
Besar
Untuk lebih lanjut tentang mengapa dataset besar, membuat uji statistik bermasalah, lihat Lin, Lucas, and Shmueli (2013) dan McFarland and McFarland (2015) . Isu-isu ini harus mengarah peneliti fokus pada signifikansi praktis daripada signifikansi statistik.
Selalu-on
Ketika mempertimbangkan selalu-data, penting untuk mempertimbangkan apakah Anda membandingkan orang-orang yang sama persis dari waktu ke waktu atau apakah Anda membandingkan beberapa kelompok berubah dari orang; lihat misalnya, Diaz et al. (2016) .
Non-reaktif
Sebuah buku klasik tentang tindakan-tindakan non-reaktif Webb et al. (1966) . Contoh-contoh dalam buku pra-date era digital, namun mereka masih menerangi. Untuk contoh orang mengubah perilaku mereka karena kehadiran pengawasan massa, melihat Penney (2016) dan Brayne (2014) .
Tidak lengkap
Untuk lebih lanjut tentang hubungan catatan, lihat Dunn (1946) dan Fellegi and Sunter (1969) (sejarah) dan Larsen and Winkler (2014) (modern). Mendekati serupa juga telah dikembangkan dalam ilmu komputer di bawah nama-nama seperti deduplication data, identifikasi contoh, nama yang cocok, duplikat deteksi, dan duplikat catatan deteksi (Elmagarmid, Ipeirotis, and Verykios 2007) . Ada juga privasi melestarikan pendekatan untuk merekam hubungan yang tidak memerlukan transmisi informasi identitas pribadi (Schnell 2013) . Facebook juga telah mengembangkan melanjutkan untuk menghubungkan catatan mereka untuk perilaku pemilih; ini dilakukan untuk mengevaluasi percobaan yang saya akan memberitahu Anda tentang di Bab 4 (Bond et al. 2012; Jones et al. 2013) .
Untuk lebih lanjut tentang validitas konstruk, lihat Shadish, Cook, and Campbell (2001) , Bab 3.
tidak dapat diakses
Untuk lebih lanjut tentang AOL pencarian log bencana, melihat Ohm (2010) . Saya menawarkan saran tentang bermitra dengan perusahaan dan pemerintah dalam Bab 4 ketika saya menjelaskan percobaan. Sejumlah penulis telah menyatakan keprihatinan tentang penelitian yang mengandalkan data tidak dapat diakses, lihat Huberman (2012) dan boyd and Crawford (2012) .
Salah satu cara yang baik bagi para peneliti universitas untuk memperoleh akses data adalah untuk bekerja di sebuah perusahaan sebagai magang atau mengunjungi peneliti. Selain memungkinkan akses data, proses ini juga akan membantu peneliti mempelajari lebih lanjut tentang bagaimana data itu dibuat, yang penting untuk analisis.
Non-perwakilan
Non-keterwakilan adalah masalah utama bagi para peneliti dan pemerintah yang ingin membuat pernyataan tentang seluruh populasi. Ini kurang perhatian bagi perusahaan yang biasanya berfokus pada pengguna mereka. Untuk lebih lanjut tentang bagaimana Statistik Belanda menganggap isu non-keterwakilan data besar bisnis, melihat Buelens et al. (2014) .
Dalam Bab 3, saya akan menjelaskan sampling dan estimasi lebih detail. Bahkan jika data non-perwakilan, dalam kondisi tertentu, mereka dapat tertimbang untuk menghasilkan estimasi yang baik.
melayang
Sistem hanyut sangat sulit untuk melihat dari luar. Namun, proyek MovieLens (dibahas lebih dalam Bab 4) telah berjalan selama lebih dari 15 tahun oleh kelompok penelitian akademik. Oleh karena itu, mereka telah mendokumentasikan dan berbagi informasi tentang cara bahwa sistem telah berkembang dari waktu ke waktu dan bagaimana hal ini berdampak analisis (Harper and Konstan 2015) .
Sejumlah sarjana telah berfokus pada hanyut di Twitter: Liu, Kliman-Silver, and Mislove (2014) dan Tufekci (2014) .
algoritme bingung
Saya pertama kali mendengar istilah "algoritma bingung" digunakan oleh Jon Kleinberg dalam pembicaraan. Gagasan utama di balik performativitas adalah bahwa beberapa teori ilmu sosial yang "mesin tidak kamera" (Mackenzie 2008) . Artinya, mereka benar-benar membentuk dunia bukan hanya menangkap itu.
Kotor
Lembaga statistik pemerintah menyebut data cleaning, editing data statistik. De Waal, Puts, and Daas (2014) menjelaskan teknik editing data statistik yang dikembangkan untuk data survei dan memeriksa sejauh mana mereka berlaku untuk sumber data yang besar, dan Puts, Daas, and Waal (2015) menyajikan beberapa ide yang sama untuk audiens yang lebih umum.
Untuk beberapa contoh penelitian difokuskan pada spam dalam Twitter, Clark et al. (2016) dan Chu et al. (2012) . Akhirnya, Subrahmanian et al. (2016) menjelaskan hasil dari DARPA Twitter Bot Challenge.
Peka
Ohm (2015) review penelitian sebelumnya pada gagasan informasi sensitif dan menawarkan tes multi-faktor. Keempat faktor ia mengusulkan adalah: probabilitas bahaya; probabilitas bahaya; Kehadiran hubungan rahasia; dan apakah risiko mencerminkan keprihatinan mayoritas.
Penelitian Farber untuk taksi di New York didasarkan pada studi sebelumnya oleh Camerer et al. (1997) yang menggunakan tiga sampel kenyamanan yang berbeda dari bentuk kertas perjalanan lembar kertas yang digunakan oleh driver untuk merekam perjalanan waktu mulai, waktu akhir, dan tarif. Penelitian sebelumnya ini menemukan bahwa driver tampaknya sasaran penerima: mereka bekerja kurang pada hari-hari di mana upah mereka lebih tinggi.
Kossinets and Watts (2009) difokuskan pada asal-usul homophily dalam jaringan sosial. Lihat Wimmer and Lewis (2010) untuk pendekatan yang berbeda untuk masalah yang sama yang menggunakan data dari Facebook.
Dalam karya berikutnya, Raja dan rekan telah lebih dieksplorasi sensor online di China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Untuk pendekatan terkait dengan mengukur sensor online di Cina, lihat Bamman, O'Connor, and Smith (2012) . Untuk lebih lanjut tentang metode statistik seperti yang digunakan di King, Pan, and Roberts (2013) memperkirakan sentimen dari 11 juta posting, melihat Hopkins and King (2010) . Untuk lebih lanjut tentang metode pembelajaran, lihat James et al. (2013) (kurang teknis) dan Hastie, Tibshirani, and Friedman (2009) (lebih teknis).
Peramalan adalah bagian besar dari industri ilmu Data (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Salah satu jenis peramalan yang biasa dilakukan oleh para peneliti sosial peramalan demografi, misalnya Raftery et al. (2012) .
Google Flu Trends bukan proyek pertama yang menggunakan data pencarian untuk nowcast prevalensi influenza. Bahkan, para peneliti di Amerika Serikat (Polgreen et al. 2008; Ginsberg et al. 2009) dan Swedia (Hulth, Rydevik, and Linde 2009) telah menemukan bahwa istilah penelusuran tertentu (misalnya, "flu") diprediksi surveilans kesehatan masyarakat nasional Data sebelum dirilis. Selanjutnya banyak, banyak proyek lainnya telah mencoba menggunakan jejak data digital untuk deteksi surveilans penyakit, melihat Althouse et al. (2015) untuk tinjauan.
Selain menggunakan jejak data digital untuk memprediksi hasil kesehatan, ada juga sejumlah besar pekerjaan menggunakan data Twitter untuk memprediksi hasil pemilu; diulas melihat Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), dan Huberty (2015) .
Menggunakan data pencarian untuk memprediksi prevalensi influenza dan menggunakan data Twitter untuk memprediksi pemilihan keduanya adalah contoh dari menggunakan beberapa jenis jejak digital untuk memprediksi beberapa jenis acara di dunia. Ada sejumlah besar penelitian yang memiliki struktur umum ini. Tabel 2.5 mencakup beberapa contoh lainnya.
jejak digital | Hasil | Kutipan |
---|---|---|
Kericau | pendapatan box office film di Amerika Serikat | Asur and Huberman (2010) |
Cari log | Penjualan film, musik, buku, dan video game di AS | Goel et al. (2010) |
Kericau | Dow Jones Industrial Average (pasar saham AS) | Bollen, Mao, and Zeng (2011) |
Jurnal PS Ilmu Politik memiliki sebuah simposium tentang data besar, inferensi kausal, dan teori formal, dan Clark and Golder (2015) merangkum kontribusi masing-masing. Prosiding jurnal dari National Academy of Sciences dari Amerika Serikat memiliki sebuah simposium tentang inferensi kausal dan data besar, dan Shiffrin (2016) merangkum kontribusi masing-masing.
Dalam hal eksperimen alami, Dunning (2012) memberikan pengobatan panjang buku yang sangat bagus. Untuk lebih lanjut tentang menggunakan Vietnam rancangan lotere sebagai eksperimen alami, lihat Berinsky and Chatfield (2015) . Untuk pendekatan pembelajaran mesin yang mencoba untuk secara otomatis menemukan eksperimen alami dalam sumber data yang besar, melihat Jensen et al. (2008) dan Sharma, Hofman, and Watts (2015) .
Dalam hal pencocokan, untuk review optimis, melihat Stuart (2010) , dan untuk review pesimis melihat Sekhon (2009) . Untuk lebih lanjut tentang pencocokan sebagai semacam pemangkasan, melihat Ho et al. (2007) . Untuk buku yang menyediakan perawatan yang sangat baik dari pencocokan, lihat Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , dan Imbens and Rubin (2015) .