Hiji jenis Tengetan nu teu kaasup dina bab ieu ethnography. Pikeun langkung lengkep ihwal ethnography dina spasi digital, tingali Boellstorff et al. (2012) , sarta pikeun nu langkung lengkep ihwal ethnography dina spasi digital sarta fisik dicampur, tingali Lane (2016) .
Aya harti musyawarah tunggal "data badag," tapi loba definisi sigana fokus dina "3 Vs": kekembangan, rupa, sarta laju (misalna Japec et al. (2015) ). Tempo De Mauro et al. (2015) pikeun review ngeunaan definisi.
Citakan abdi data administrasi pamaréntah dina kategori data badag nyaéta bit mahiwal, najan batur ogé geus dijieun hal ieu, kaasup Legewie (2015) , Connelly et al. (2016) , sarta Einav and Levin (2014) . Pikeun leuwih lengkep ngeunaan nilai data administrasi pamaréntah pikeun panalungtikan, tingali Card et al. (2010) , Adminstrative Data Taskforce (2012) , sarta Grusky, Smeeding, and Snipp (2015) .
Pikeun nempo panalungtikan administrasi ti jero sistem statistical pamaréntah, utamana Biro Sénsus AS, tingali Jarmin and O'Hara (2016) . Pikeun pengobatan buku-panjang tina ieu panalungtikan rékaman administrasi di Statistik Swédia, tingali Wallgren and Wallgren (2007) .
Dina ieu bab, Kuring sakeudeung dibandingkeun survey tradisional saperti Survey Sosial Umum (GSS) sareng sumber data média sosial kayaning Twitter. Pikeun perbandingan teleb na ati antara survey tradisional jeung data média sosial, tingali Schober et al. (2016) .
Ieu 10 ciri data badag geus dijelaskeun dina rupa-rupa cara anu béda ku rupa pangarang béda. Tulisan nu dipangaruhan pamikiran kuring dina isu ieu ngawengku Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , sarta Goldstone and Lupyan (2016) .
Sakuliah ieu bab, Kuring geus dipaké dina ngambah digital istilah, nu Jigana relatif nétral. Istilah sejen populér pikeun ngambah digital nyaéta footprints digital (Golder and Macy 2014) , tapi sakumaha Hal Abelson, Ken Ledeen, sarta Harry Lewis (2008) nunjuk kaluar, ngandung harti nu leuwih luyu sigana sidik digital. Lamun anjeun nyieun footprints, anjeun sadar naon anu lumangsung sarta footprints Anjeun tiasa sacara umum bisa disusud ka anjeun pribadi. Sami teu bener keur ngambah digital Anjeun. Kanyataanna, anjeun nyingkah ngambah sagala waktos ngeunaan nu boga pangaweruh pisan saeutik. Sarta, sanajan ngambah ieu teu boga ngaran anjeun dina eta, aranjeunna bisa mindeng dikaitkeun deui ka anjeun. Dina basa sejen, aranjeunna leuwih kawas sidik: kawih jeung pribadi identifying.
Pikeun langkung lengkep ihwal naha datasets badag ngarobah tés statistical masalah, tingali M. Lin, Lucas, and Shmueli (2013) sarta McFarland and McFarland (2015) . isu ieu kedah diterangkeun peneliti bade difokuskeun significance praktis tinimbang statistical significance.
Pikeun leuwih lengkep ngeunaan kumaha carana Raj Chetty sareng kolega Anjeun diala aksés ka rékaman pajeg, tingali Mervis (2014) .
datasets badag ogé bisa nyieun masalah komputasi nu umumna saluareun kamampuhan tina hiji komputer. Kituna, panalungtik nyieun komputer dina datasets badag mindeng nyebarkeun karya leuwih loba komputer, hiji prosés kadangkala disebut programming paralel. Pikeun hiji bubuka nepi programming paralel, hususna basa disebut Hadoop, tingali Vo and Silvia (2016) .
Nalika tempo salawasna-on data, hal anu penting pikeun nganggap naha anjeun ngabandingkeun urang sami pasti leuwih waktos atanapi naha anjeun ngabandingkeun sababaraha grup ngarobah jalma; tingali contona, Diaz et al. (2016) .
Hiji buku klasik dina ukuran nonreactive nyaeta Webb et al. (1966) . Conto dina buku nu predate umur digital, tapi maranéhna nu masih illuminating. Pikeun conto jalma ngarobah kabiasaan maranéhna kusabab ayana panjagaan massa, tingali Penney (2016) sarta Brayne (2014) .
Réaktivitas téh raket patalina jeung naon peneliti nelepon épék paménta (Orne 1962; Zizzo 2010) jeung pangaruh Hawthorne (Adair 1984; Levitt and List 2011) .
Pikeun langkung lengkep ihwal catetan beungkeut, tingali Dunn (1946) sarta Fellegi and Sunter (1969) (sajarah) jeung Larsen and Winkler (2014) (modern). Deukeut sarupa geus ogé geus tumuwuh di elmu komputer dina ngaran kayaning deduplication data, idéntifikasi conto, ngaran cocog, duplikat deteksi, sarta jadi gaduh panulisan catetan deteksi (Elmagarmid, Ipeirotis, and Verykios 2007) . Aya ogé deukeut privacy-preserving kana catetan beungkeut nu teu merlukeun népana pribadi identifying informasi (Schnell 2013) . Facebook ogé geus ngembangkeun prosés pikeun numbu rékaman maranéhna pikeun kabiasaan voting; ieu dipigawé pikeun evaluate hiji percobaan nu kuring gé ngabejaan Anjeun tentang dina bab 4 (Bond et al. 2012; Jones et al. 2013) .
Pikeun langkung lengkep ihwal validitas nyusunna, tingali surah 3 of Shadish, Cook, and Campbell (2001) .
Pikeun leuwih lengkep dina Kaol pilarian log debacle, tingali Ohm (2010) . Kuring nawarkeun nasihat ngeunaan Maskumambang ku pausahaan jeung pamaréntah dina bab 4 nalika kuring nerangkeun percobaan. Sajumlah pangarang geus dikedalkeun kasalempang panalungtikan anu gumantung ka data inaccessible, tingali Huberman (2012) sarta boyd and Crawford (2012) .
Hiji cara nu hadé pikeun panalungtik universitas ka acquire aksés data téh digawé di hiji pausahaan salaku intern atawa ngadatangan panalungtik. Salian sangkan aksés data, prosés ieu ogé bakal mantuan panalungtik leuwih jéntré ngeunaan kumaha data ieu dijieun, nu penting pikeun analisis.
Dina watesan gaining aksés ka data pamaréntah, Mervis (2014) ngabahas kumaha Raj Chetty sareng kolega Anjeun diala aksés ka rékaman pajeg dipaké dina ieu panalungtikan maranéhanana dina mobilitas sosial.
Pikeun leuwih lengkep dina Sajarah Sunda "representativeness" salaku konsép, tingali Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , sarta Kruskal and Mosteller (1980) .
summaries abdi tina karya Salju jeung karya boneka na Hill éta ringkes. Pikeun leuwih kana karya Salju urang on kolera, tingali Freedman (1991) . Pikeun leuwih lengkep dina Dokter Britania Study tingali Doll et al. (2004) jeung Keating (2014) .
Loba peneliti bakal reuwas pikeun neuleuman éta sanajan boneka na Hill sempet dikumpulkeun data ti dokter bikang ti dokter sahandapeun 35, maranéhna ngahaja teu nganggo data ieu di analisis kahiji maranéhanana. Sabab pamadegan: "Kusabab kanker paru nyaéta relatif jarang di awewe jeung lalaki di handapeun 35, angka mangpaat anu saperti teu mirip didapet di grup ieu pikeun sababaraha taun datang. Dina laporan awal ieu kami geus kituna dipasrahkeun perhatian urang kana lalaki umur 35 sarta luhur. " Rothman, Gallacher, and Hatch (2013) , anu boga judul provokatif" Naha representativeness kedah dihindari, "nyieun argumen leuwih umum pikeun ajén ngahaja nyieun data nonrepresentative.
Nonrepresentativeness masalah utama pikeun peneliti sarta pamaréntah anu hayang nyieun pernyataan ngeunaan hiji sakabéh populasi. Ieu kirang tina perhatian for jeung sya, nu ilaharna fokus kana pamaké maranéhanana. Pikeun langkung lengkep ihwal kumaha Statistik Walanda ngemutan isu nonrepresentativeness data badag bisnis, tingali Buelens et al. (2014) .
Pikeun conto peneliti keu perhatian ngeunaan alam non-wawakil sumber data badag, tingali boyd and Crawford (2012) , K. Lewis (2015b) , sarta Hargittai (2015) .
Pikeun ngabandingkeun leuwih detil rupa tujuan survey sosial jeung panalungtikan epidemiological, tingali Keiding and Louis (2016) .
Pikeun langkung lengkep ihwal usaha migunakeun Twitter sangkan kaluar-of-sampel Generalisasi ngeunaan pamilih, hususna hal tina pamilihan Jerman 2009, tingali Jungherr (2013) sarta Jungherr (2015) . Saterusna mun hasil karya Tumasjan et al. (2010) peneliti di sabudeureun dunya geus dipake metode-sapertos fancier sakumaha ngagunakeun analisis sentimen keur ngabedakeun antara positif jeung negatif nyebutkeun ti pihak-guna ngaronjatkeun kamampuh data Twitter pikeun ngaduga rupa-rupa jenis béda Pilkada (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Di dieu nu kumaha Huberty (2015) diringkeskeun hasil usaha ieu keur prediksi pamilu:
"Sadaya métode forecasting dipikawanoh dumasar kana média sosial geus gagal lamun subjected kana tungtutan forecasting Panwaslu leres maju-pilari. gagal ieu muncul janten alatan sipat dasar média sosial, tinimbang kana kasusah metodologis atanapi algorithmic. Pondokna, média sosial ulah, sarta meureun moal, nawarkeun, bias, gambar wawakil stabil tina electorate nu; sarta sampel genah média sosial kakurangan data cukup pikeun ngalereskeun masalah ieu posting hoc ".
Dina ieu bab 3, abdi gé ngajelaskeun sampling jeung estimasi di teuing gede jéntré. Malah lamun data anu nonrepresentative, dina kaayaan nu tangtu, aranjeunna bisa weighted ngahasilkeun perkiraan alus.
Sistim drift pisan teuas ningali ti luar. Sanajan kitu, éta proyék MovieLens (dibahas deui dina bab 4) geus ngajalankeun pikeun leuwih ti 15 taun ku hiji grup ieu panalungtikan akademik. Ku kituna, aranjeunna geus bisa dokumén jeung babagi inpormasi ngeunaan cara nu sistem geus ngalobaan leuwih waktos na kumaha ieu bisa dampak analysis (Harper and Konstan 2015) .
Sajumlah sarjana geus fokus kana drift dina Twitter: Liu, Kliman-Silver, and Mislove (2014) sarta Tufekci (2014) .
Hiji pendekatan anu kaayaan drift Populasi nya éta nyieun panel pamaké, anu ngamungkinkeun peneliti mun diajar ka urang sami kana waktu, tingali Diaz et al. (2016) .
Kuring mimiti kadéngé istilah "algorithmically ngabingungkeun" dipaké ku Jon Kleinberg dina obrolan, tapi hanjakalna kuring teu apal lamun atanapi dimana omongan ieu tinangtu. Pertama kali yen kuring nempo istilah di print éta di Anderson et al. (2015) , anu mangrupa sawala metot kumaha algoritma dipaké ku loka dating bisa ngahesekeun pangabisa peneliti 'ngagunakeun data ti jaba ieu keur diajar preferensi sosial. Patalina jeung masalah ieu diangkat ku K. Lewis (2015a) di respon kana Anderson et al. (2014) .
Salian Facebook, Twitter ogé ngajak jalma pikeun pamaké nuturkeun dumasar kana pamanggih panutupanana triadic; tingali Su, Sharma, and Goel (2016) . Ku kituna tingkat panutupanana triadic dina Twitter nyaéta kombinasi sababaraha kacenderungan manusa ka arah panutupanana triadic sarta sababaraha kacenderungan algorithmic ngamajukeun panutupanana triadic.
Pikeun langkung lengkep ihwal performativity-hususna gagasan anu sababaraha téori elmu sosial nu "mesin teu kaméra" (ie, aranjeunna bentukna dunya batan ukur ngajéntrékeun deui) -see Mackenzie (2008) .
Agénsi statistical wewenang nelepon data meresihan rohangan ngédit data statistik. De Waal, Puts, and Daas (2014) ngajelaskeun téhnik na rohangan ngédit data statistik dikembangkeun pikeun data survéy jeung nalungtik extent ka nu sipatna lumaku pikeun sumber data badag, sarta Puts, Daas, and Waal (2015) nampilkeun sababaraha pamendak anu sarua pikeun panongton beuki umum.
Pikeun tinjauan bot sosial, tingali Ferrara et al. (2016) . Kanggo sababaraha conto studi fokus kana nyungsi spam dina Twitter, tingali Clark et al. (2016) jeung Chu et al. (2012) . Tungtungna, Subrahmanian et al. (2016) ngajelaskeun hasil tina DARPA Twitter Bot tangtangan, a kolaborasi massa dirancang pikeun ngabandingkeun deukeut pikeun detecting bot dina Twitter.
Ohm (2015) resensi ieu panalungtikan saméméhna dina pamanggih informasi sénsitip sarta nawarkeun hiji test multi faktor. Opat faktor anjeunna proposes anu gedéna cilaka, kamungkinan cilaka, ayana hubungan rahasia, sarta naha resiko ngagambarkeun masalah majoritarian.
Ulikan Farber ngeunaan taksi di New York ieu dumasar kana hiji ulikan saméméhna ku Camerer et al. (1997) nu dipaké tilu sampel genah béda kertas lalampahan cadar. Ulikan saméméhna Ieu kapanggih yén drivers seemed janten udagan earners: aranjeunna digawé kirang dina poé dimana gajih maranéhanana éta luhur.
Dina karya saterusna, Prabu sareng kolega Anjeun geus salajengna digali carana ngawasan online di Cina (King, Pan, and Roberts 2014, [@king_how_2016] ) . Pikeun pendekatan patali ka ukur carana ngawasan online di Cina, tingali Bamman, O'Connor, and Smith (2012) . Pikeun langkung lengkep ihwal metoda statistik kawas hiji dipaké di King, Pan, and Roberts (2013) keur estimasi sentimen ti 11 juta tulisan, tingali Hopkins and King (2010) . Pikeun langkung lengkep ihwal learning diawasan, tingali James et al. (2013) (kirang teknis) jeung Hastie, Tibshirani, and Friedman (2009) (leuwih teknis).
Forecasting mangrupakeun bagian badag tina industri elmu data (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Salah sahiji jenis forecasting nu ilahar dilakukeun ku peneliti sosial nyaeta forecasting demografi; tingali, contona, Raftery et al. (2012) .
Google Flu Tren éta teu proyek kahiji ngagunakeun data pilarian mun nowcast Prévalénsi influenza. Kanyataanna, peneliti di Amérika Serikat (Polgreen et al. 2008; Ginsberg et al. 2009) jeung Swédia (Hulth, Rydevik, and Linde 2009) geus kapanggih yén istilah pilarian tangtu (misalna, "flu") diprediksi panjagaan kaséhatan publik nasional data saméméh éta dirilis. Salajengna loba, loba proyék séjén geus diusahakeun make renik data digital for beungeut panjagaan kasakit; tingali Althouse et al. (2015) pikeun review hiji.
Salian make renik data digital pikeun ngaduga hasil kaséhatan, aya ogé geus mangrupa jumlah badag gawé maké data Twitter pikeun ngaduga hasil pemilu; pikeun ulasan tingali Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (bab 7), sarta Huberty (2015) . Nowcasting sahiji indikator ekonomi, kayaning produk doméstik kotor (GDP), oge umum di bank sentral, tingali Bańbura et al. (2013) . tabél 2.8 ngawengku sababaraha conto nalungtik ngagunakeun sababaraha jenis renik digital pikeun ngaduga sababaraha jenis acara di dunya.
renik digital | hasil | nyalukan |
---|---|---|
sharing kantor kotak tina pilem di AS | Asur and Huberman (2010) | |
Pilarian log | Jualan tina pilem, musik, buku, jeung vidéo kaulinan di AS | Goel et al. (2010) |
Dow Jones Industrial Rata-rata (pasar saham AS) | Bollen, Mao, and Zeng (2011) | |
média sosial sarta log pilarian | Ukur tina investor sentimen jeung stock pasar di Amérika Serikat, Britania Raya, Kanada, jeung Cina | Mao et al. (2015) |
Pilarian log | Prévalénsi DBD Demam di Singapura sarta Bangkok | Althouse, Ng, and Cummings (2011) |
Tungtungna, Jon Kleinberg sareng kolega Anjeun (2015) geus nunjuk kaluar yén masalah forecasting digolongkeun kana dua, subtly kategori béda jeung para ilmuwan sosial geus biasana difokuskeun salah jeung malire lianna. Ngabayangkeun hiji maker kawijakan, abdi gé nelepon Anna dirina, anu nyanghareup halodo sarta kudu mutuskeun pikeun nyewa shaman pikeun ngalakukeun tarian hujan nambahan kasempetan hujan. maker kawijakan sejen, abdi gé nelepon Betty dirina, kudu mutuskeun nyandak payung digawekeun pikeun nyegah lalaki baseuh dina cara imah. Duanana Anna sarta Betty bisa nyieun kaputusan hadé lamun maranéhna ngarti cuaca, tapi maranéhna kudu nyaho hal béda. Anna perlu ngarti naha tari hujan ngabalukarkeun hujan. Betty, di sisi séjén, teu kudu ngarti nanaon tentang kausalitas; manehna ngan perlu hiji ramalan akurat. peneliti sosial mindeng difokuskeun masalah kawas hiji Nyanghareupan ku Anna-mana Kleinberg sareng kolega Anjeun nelepon "tari-kawas hujan" masalah-sabab kawijakan aranjeunna ngalibetkeun patarosan tina kausalitas. Patarosan kawas hiji Nyanghareupan ku Betty-mana Kleinberg sareng kolega Anjeun nelepon "payung-kawas" kawijakan masalah-bisa cukup penting teuing, tapi nampi loba kurang perhatian ti peneliti sosial.
Jurnal PS Élmu Pulitik kungsi symposium on data badag, inferensi kausal, sarta Téori formal, sarta Clark and Golder (2015) nyimpulkeun unggal kontribusi. The cara ngagawe jurnal sahiji National Academy of Sciences Amérika Sarikat Amérika kungsi symposium on inferensi kausal tur data badag, sarta Shiffrin (2016) summarizes unggal kontribusi. Pikeun deukeut mesin learning nu nyobian otomatis manggihan percobaan alam jero ngeunaan sumber data badag, tingali Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , sarta Sharma, Hofman, and Watts (2016) .
Dina istilah percobaan alam, Dunning (2012) nyadiakeun bubuka, perlakuan buku-panjang jeung loba conto. Pikeun nempo skeptis percobaan alam, tingali Rosenzweig and Wolpin (2000) (ékonomi) atawa Sekhon and Titiunik (2012) (élmu politik). Deaton (2010) sarta Heckman and Urzúa (2010) ngajawab yén fokus dina percobaan alam bisa ngakibatkeun peneliti bade difokuskeun estimasi épék kausal penting; Imbens (2010) counters alesan ieu ku pintonan langkung optimistis sahiji nilai percobaan alam.
Nalika ngajéntrékeun sabaraha panalungtik a bisa balik ti estimasi efek keur nyusun kana efek porsi, abdi éta ngajéntrékeun téhnik nu disebut variabel instrumental. Imbens and Rubin (2015) , dina bab maranéhanana 23 sarta 24, nyadiakeun hiji bubuka na nganggo draft lotre salaku conto. Efek jasa militér dina compliers kadangkala disebut complier rata pangaruh kausal (CAcE) jeung kadang efek perlakuan rata lokal (telat). Sovey and Green (2011) , Angrist and Krueger (2001) , sarta Bollen (2012) nawiskeun ulasan ti pamakéan variabel instrumental di élmu politik, ékonomi, jeung sosiologi, jeung Sovey and Green (2011) nyadiakeun "Daptar pariksa maca urang" pikeun evaluating studi ngagunakeun variabel instrumental.
Tétéla yén 1970 draf lotre ieu mah, dina kanyataanana leres randomized; aya simpangan leutik ti randomness murni (Fienberg 1971) . Berinsky and Chatfield (2015) boga pamadegan yén simpangan leutik ieu teu substantively penting jeung ngabahas pentingna randomization dilakukeun leres.
Dina watesan cocog, tingali Stuart (2010) kanggo hiji review optimis, sarta Sekhon (2009) pikeun review pesimis. Pikeun langkung lengkep ihwal cocog salaku jenis pruning, tingali Ho et al. (2007) . Pananjung hiji patandingan tunggal sampurna pikeun tiap jalma geus mindeng hésé, sarta ieu nawarkeun sababaraha complexities. Mimitina, nalika patandingan pasti mah teu aya, peneliti kudu mutuskeun kumaha ngukur jarak antara dua unit sarta lamun jarak dibikeun cukup nutup. A pajeulitna kadua timbul lamun peneliti hoyong nganggo sababaraha patandingan pikeun tiap bisi di group treatment, saprak ieu bisa ngakibatkeun perkiraan leuwih tepat. Duanana isu ieu, kitu ogé batur, digambarkeun dina jéntré dina bab 18 of Imbens and Rubin (2015) . Tempo ogé Part II tina ( ??? ) .
Tempo Dehejia and Wahba (1999) kanggo conto dimana métode cocog éta bisa ngahasilkeun perkiraan sarupa jelema ti percobaan dikawasa randomized. Tapi, tingali Arceneaux, Gerber, and Green (2006) sarta Arceneaux, Gerber, and Green (2010) pikeun conto dimana métode cocog gagal pikeun baranahan hiji patokan eksperimen.
Rosenbaum (2015) sarta Hernán and Robins (2016) nawiskeun nasihat séjén pikeun Ngajalajah babandinganana mangpaat dina sumber data badag.