commentary salajengna

Bagian ieu dirarancang pikeun dipaké minangka rujukan, tinimbang jadi maca salaku naratif a.

  • Bubuka (Bagéan 2.1)

Hiji jenis observasi anu teu kaasup dina bab ieu ethnography. Pikeun nu langkung lengkep ihwal ethnography di rohangan digital tempo Boellstorff et al. (2012) , jeung nu langkung lengkep ihwal ethnography di rohangan digital jeung fisik dicampur tempo Lane (2016) .

  • Data Big (Bagéan 2.2)

Sawaktos Anjeun keur repurposing data, aya dua trik mental anu bisa mantuan Anjeun ngarti masalah mungkin nu bisa Anjeun sapatemon. Kahiji, anjeun bisa nyoba ngabayangkeun nu dataset idéal pikeun masalah anjeun jeung ngabandingkeun nu ka dataset nu Anjeun anggo. Kumaha maranehna sarua jeung kumaha anu maranehna beda? Lamun teu ngumpulkeun data Anjeun sorangan, aya kamungkinan jadi beda antara naon anu rek jeung naon anjeun kudu. Tapi, anjeun kudu mutuskeun lamun béda ieu minor atawa utama.

Kadua, inget yen batur dijieun jeung dikumpulkeun data Anjeun pikeun sababaraha alesan. Anjeun kudu nyoba ngarti penalaran maranéhanana. jenis ieu sabalikna-rékayasa bisa mantuan Anjeun ngaidentipikasi masalah mungkin jeung biases dina data Anjeun repurposed.

Aya harti musyawarah tunggal "data gedé", tapi loba definisi sigana difokuskeun 3 Vs: (misalna volume, rupa-rupa, sarta laju Japec et al. (2015) ). Tinimbang fokus dina karakteristik data, harti mah museurkeun nu langkung lengkep ihwal naha data ieu dijieun.

citakan mah data administrasi pamarentahan jero kategori data gedé nyaéta bit hiji unusually. Batur anu geus dijieun hal ieu, di antarana Legewie (2015) , Connelly et al. (2016) , jeung Einav and Levin (2014) . Pikeun leuwih jéntré ngeunaan nilai data administrasi pamaréntahan pikeun panalungtikan, tempo Card et al. (2010) , Taskforce (2012) , jeung Grusky, Smeeding, and Snipp (2015) .

Keur nempo ieu panalungtikan administrasi ti jero sistim statistical pamaréntah, utamana Biro Census US, tempo Jarmin and O'Hara (2016) . Keur perlakuan panjang buku panalungtikan catetan administratif di Statistik Swédia, tempo Wallgren and Wallgren (2007) .

Dina bab, Kuring sakeudeung dibandingkeun a survey tradisional saperti Survey General Social (GSS) pikeun sumber data média sosial saperti Twitter. Keur ngabandingkeun jero jeung ati antara survey tradisional jeung data média sosial, tempo Schober et al. (2016) .

  • Ciri umum data gedé (Bagéan 2.3)

Ieu 10 karakteristik data gedé geus digambarkeun dina rupa-rupa cara ku rupa-rupa pangarang nu béda. Tulisan nu dipangaruhan pamikiran mah isu ieu di antarana: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , jeung Goldstone and Lupyan (2016) .

Sakuliah ieu bab, Kuring geus dipaké ngambah digital istilah, nu Jigana relatif nétral. Istilah sejen populér pikeun ngambah digital nyaéta footprints digital (Golder and Macy 2014) , tapi Hal Abelson, Ken Ledeen, jeung Harry Lewis (2008) nujul kaluar, istilah leuwih hade meureun sidik digital. Lamun anjeun nyieun footprints, anjeun sadar naon anu lumangsung jeung footprints Anjeun teu bisa umumna bisa disusud ka anjeun pribadi. Sarua teu bener pikeun ngambah digital Anjeun. Kanyataanna, anjeun ninggalkeun ngambah sadaya waktu ngeunaan nu boga pangaweruh saeutik pisan. Jeung, sanajan ngambah ieu teu boga ngaran anjeun dina eta, maranehna bisa mindeng dikaitkeun deui ka anjeun. Dina basa sejen, maranehna leuwih kawas sidik: kawih jeung pribadi identifying.

gede

Pikeun nu langkung lengkep ihwal naha datasets badag, ngarobah tes statistik masalah, tempo Lin, Lucas, and Shmueli (2013) jeung McFarland and McFarland (2015) . isu ieu kudu mingpin panalungtik pikeun difokuskeun significance praktis tinimbang statistical significance.

Sok-on

Lamun tempo sok dina data, hal anu penting mertimbangkeun naha anjeun ngabandingkeun jalma sarua pasti kana waktu atawa naha anjeun ngabandingkeun sababaraha grup ngarobah jalma; tempo misalna Diaz et al. (2016) .

Non-réaktif

A buku Palasik dina ukuran non-réaktif nyaéta Webb et al. (1966) . Conto dina buku tos tanggal umur digital, tapi masih illuminating. Pikeun conto jalma ngarobah paripolah maranéhanana alatan ayana panjagaan massa, tempo Penney (2016) jeung Brayne (2014) .

teu kumplit

Pikeun leuwih dina catetan beungkeut, tempo Dunn (1946) jeung Fellegi and Sunter (1969) (sajarah) jeung Larsen and Winkler (2014) (modern). Ditilik sarupa geus ogé geus dimekarkeun dina élmu komputer dina ngaran saperti deduplication data, idéntifikasi conto, ngaran cocog, jadi gaduh panulisan beungeut, sarta jadi gaduh panulisan catetan beungeut (Elmagarmid, Ipeirotis, and Verykios 2007) . Aya ogé privasi preserving deukeut pikeun ngarekam beungkeut nu teu merlukeun pangiriman pribadi identifying informasi (Schnell 2013) . Facebook ogé geus ngembangkeun hiji lumangsungna numbu catetan maranéhna pikeun paripolah voting; ieu dipigawé pikeun evaluate hiji percobaan nu Abdi gé ngabejaan Anjeun tentang in Chapter 4 (Bond et al. 2012; Jones et al. 2013) .

Pikeun leuwih dina validitas nyusunna, tempo Shadish, Cook, and Campbell (2001) , Bab 3.

teu bisa diliwatan

Pikeun leuwih dina Kaol search log debacle, tempo Ohm (2010) . I nawarkeun nasihat ngeunaan Maskumambang jeung pausahaan jeung pamaréntah dina Bab 4 basa kuring nerangkeun percobaan. A jumlah pangarang geus ditembongkeun kasalempang panalungtikan nu gumantung data inaccessible, tempo Huberman (2012) jeung boyd and Crawford (2012) .

Hiji cara nu hadé pikeun panalungtik universitas ka acquire aksés data téh digawé di hiji pausahaan salaku intern atawa ngadatangan panalungtik. Salian sangkan aksés data, prosés ieu ogé bakal mantuan panalungtik leuwih jéntré ngeunaan kumaha data ieu dijieun, nu penting pikeun analisis.

Non-wakil

Non-representativeness masalah utama pikeun panalungtik jeung pamaréntah anu hayang nyieun pernyataan ngeunaan hiji sakabéh populasi. Ieu kurang perhatian for jeung sya nu ilaharna fokus kana pamaké maranéhanana. Pikeun langkung lengkep ihwal kumaha Statistik Walanda ngarasa isu non-representativeness data gedé bisnis, tempo Buelens et al. (2014) .

Dina Bab 3, Abdi gé ngajelaskeun sampling jeung estimasi di loba gede jéntré. Komo lamun data nu non-wakil, dina kaayaan nu tangtu, maranéhanana bisa weighted pikeun ngahasilkeun perkiraan alus.

Drifting

System drift pisan teuas nempo ti luar. Tapi, proyék MovieLens (dibahas deui dina Bab 4) geus ngajalankeun salila leuwih ti 15 taun ku hiji grup panalungtikan akademik. Ku alatan éta, maranéhanana geus documented jeung dibagi informasi ngeunaan cara nu sistem geus mekar kana waktu jeung kumaha ieu bisa dampak analisis (Harper and Konstan 2015) .

A jumlah sarjana geus fokus kana drift dina Twitter: Liu, Kliman-Silver, and Mislove (2014) jeung Tufekci (2014) .

Algorithmically ngabingungkeun

Kuring mimiti kadéngé istilah "algorithmically ngabingungkeun" dipaké ku Jon Kleinberg dina sawala a. Gagasan utama balik performativity téh boga sawatara teori elmu sosial nu "mesin teu kaméra" (Mackenzie 2008) . Nyéta, maranehna sabenerna bentukna dunya tinimbang ngan poto eta.

kotor

Agénsi statistical wewenang nelepon data beberesih, ngedit data statistik. De Waal, Puts, and Daas (2014) ngagambarkeun téhnik ngedit data statistik dimekarkeun pikeun data survey jeung nalungtik nu extent sipatna lumaku ka sumber data gedé, jeung Puts, Daas, and Waal (2015) presents sababaraha gagasan sarua keur panongton leuwih umum.

Kanggo sababaraha conto studi fokus kana spam dina Twitter, Clark et al. (2016) jeung Chu et al. (2012) . Ahirna, Subrahmanian et al. (2016) ngagambarkeun hasil DARPA Twitter Bot tangtangan.

sensitip

Ohm (2015) resensi panalungtikan saméméhna dina pamanggih informasi nu sensitip jeung nawarkeun test multi-faktor. Opat faktor manéhna proposes nyaéta: probabilitas ngarugikeun; probabiliti ngarugikeun; ayana hubungan rahasia; jeung naha resiko ngagambarkeun masalah majoritarian.

  • Cacah hal (Bagéan 2.4.1)

Ulikan Farber ngeunaan taksi di New York ieu dumasar kana hiji ulikan saméméhna ku Camerer et al. (1997) nu dipaké tilu sampel genah beda bentuk tulisan lalampahan cadar-kertas dipaké ku drivers pikeun ngarekam lalampahan waktu mimiti, waktu ahir, jeung ongkos. ulikan saméméhna Ieu manggihan yén drivers seemed jadi target earners: maranéhanana digawé kurang dina poé mana gajih maranéhanana éta luhur.

Kossinets and Watts (2009) ieu fokus kana asal muasal homophily dina jaringan sosial. Tempo Wimmer and Lewis (2010) keur pendekatan beda ka masalah sarua nu migunakeun data ti Facebook.

Dina karya saterusna, Raja sareng kolega geus salajengna digali carana ngawasan online di Cina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Pikeun pendekatan patali ka ukur carana ngawasan online di Cina, tempo Bamman, O'Connor, and Smith (2012) . Pikeun leuwih dina métode statistik kawas hiji dipaké dina King, Pan, and Roberts (2013) ka estimasi sentimen tina 11 juta tulisan, tempo Hopkins and King (2010) . Pikeun leuwih dina learning diawasan, tempo James et al. (2013) (kurang téhnis) jeung Hastie, Tibshirani, and Friedman (2009) (more téhnis).

  • Forecasting (Bagéan 2.4.2)

Forecasting téh mangrupa bagian gedé tina industri élmu data (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Salah sahiji jenis forecasting nu ilahar dilakukeun ku panalungtik sosial nu forecasting demografi, contona Raftery et al. (2012) .

Google Flu Tren teu proyék munggaran make data search ka nowcast Prévalénsi influenza. Dina kanyataan, panalungtik di Amérika Sarikat (Polgreen et al. 2008; Ginsberg et al. 2009) jeung Swédia (Hulth, Rydevik, and Linde 2009) geus manggihan yén istilah panéang nu tangtu (misalna, "flu") diprediksi panjagaan kaséhatan umum nasional data saméméh dirilis. Salajengna loba, loba proyék séjén kudu diusahakeun make renik data digital for beungeut panjagaan panyakit, tempo Althouse et al. (2015) pikeun review a.

Sajaba ngagunakeun renik data digital pikeun ngaduga hasil kaséhatan, aya ogé geus jumlah badag karya ngagunakeun data Twitter pikeun ngaduga hasil pamilihan; pikeun resensi tempo Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), sarta Huberty (2015) .

Maké data search ka ngaramal Prévalénsi influenza sarta ngagunakeun data Twitter pikeun ngaduga pamilu duanana conto ngagunakeun sababaraha jenis renik digital pikeun ngaduga sababaraha jenis kajadian di dunya. Aya nomer pisan studi nu geus struktur umum ieu. Table 2,5 ngawengku sababaraha conto sejenna.

Table 2,5: daptar parsial studi maké sababaraha renik digital pikeun ngaduga sababaraha kajadian.
renik digital hasil nyalukan
Twitter sharing kantor Box tina film di AS Asur and Huberman (2010)
search log Jualan pilem, musik, buku, jeung video games di AS Goel et al. (2010)
Twitter Dow Jones Industrial Rata-rata (pasar stock US) Bollen, Mao, and Zeng (2011)
  • Percobaan Approximating (Bagéan 2.4.3)

Jurnal PS Élmu Pulitik kungsi symposium dina data gedé, inference kausal, sarta téori formal, jeung Clark and Golder (2015) summarizes unggal kontribusi. Nu cara ngagawe jurnal ngeunaan Nasional Akademi Élmu Amérika Sarikat Amérika kungsi symposium dina inferensi kausal jeung data gedé, jeung Shiffrin (2016) summarizes unggal kontribusi.

Dina watesan percobaan alam, Dunning (2012) nyadiakeun hiji perlakuan panjang buku alus teuing. Pikeun leuwih dina ngagunakeun Vietnam draft lotre salaku percobaan alam, tempo Berinsky and Chatfield (2015) . Pikeun deukeut mesin learning nu nyobian otomatis manggihan percobaan alami di jero sumber data gedé, tempo Jensen et al. (2008) jeung Sharma, Hofman, and Watts (2015) .

Dina watesan cocog, pikeun review optimistis, tempo Stuart (2010) , sarta keur review pesimis tempo Sekhon (2009) . Pikeun nu langkung lengkep ihwal cocog salaku jenis pruning, tempo Ho et al. (2007) . Keur buku nu nyadiakeun perlakuan alus teuing tina cocog, tempo Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , jeung Imbens and Rubin (2015) .