Siji jenis observasi sing ora kalebu ing bab iki yaiku etnografi. Kanggo luwih saka etnografi ing spasi digital, pirsani Boellstorff et al. (2012) , lan luwih akeh babagan etnografi ing spasi digital lan fisik campuran, pirsani Lane (2016) .
Ora ana definisi konsensus siji "data amba," nanging akeh definisi misale Japec et al. (2015) fokusake ing "3 Vs": volume, macem-macem, lan kecepatan (contone, Japec et al. (2015) ). Waca De Mauro et al. (2015) kanggo review definisi.
Pendhaftaran pamaburan data administratif pamaréntah ing kategori data amba ora pati umum, senadyan wong uga wis nggawe kasus iki, kalebu Legewie (2015) , Connelly et al. (2016) , lan Einav and Levin (2014) . Kanggo luwih akeh babagan nilai data administratif pamaréntah kanggo riset, deleng Card et al. (2010) , Adminstrative Data Taskforce (2012) , lan Grusky, Smeeding, and Snipp (2015) .
Kanggo tampilan riset administratif saka njero sistem statistik pamaréntah, utamane Biro Sensus AS, deleng Jarmin and O'Hara (2016) . Kanggo ngrekam cathetan administratif ing Statistik Swedia, pirsani Wallgren and Wallgren (2007) .
Ing bab iki, aku langsung mbandingake survey tradisional kayata Survey Sosial Umum (GSS) kanthi sumber data sosial sosial kayata Twitter. Kanggo perbandingan lengkap antarane survey tradisional lan data media sosial, waca Schober et al. (2016) .
Iki 10 karakteristik data gedhe wis diterangake ing macem-macem cara kanthi macem-macem penulis. Penulisan sing nyebabake pikiranku ing masalah iki kalebu Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , lan Goldstone and Lupyan (2016) .
Saindheng bab iki, aku wis nggunakake istilah jejak digital , sing aku rélatif netral. Istilah populer liyane kanggo jejak digital yaiku tlaga digital (Golder and Macy 2014) , nanging minangka Hal Abelson, Ken Ledeen, lan Harry Lewis (2008) nunjukake, istilah sing luwih cocok mbokmenawa bisa dicithak . Nalika sampeyan nggawe footprints, sampeyan ngerti apa sing kedadeyan lan jejakmu ora bisa ditlusuri kanggo sampeyan. Padha ora bener kanggo jejak digital sampeyan. Ing kasunyatan, sampeyan bakal ngilangi jejak babagan wektu sing duwe kawruh banget. Lan, senadyan ora ana jejak jeneng sampeyan ing wong-wong mau, wong-wong mau kerep bisa disambung maneh. Ing tembung liya, luwih kaya driji: ora katon lan wong ngenali.
Kanggo luwih rinci babagan data sing luwih dhuwur nyedhiyakake tes statistik sing ana masalah, waca M. Lin, Lucas, and Shmueli (2013) lan McFarland and McFarland (2015) . Masalah kasebut kudu ngetokake peneliti kanggo fokus marang kaprigelan praktis tinimbang pinunjul statistik.
Kanggo luwih akeh babagan carane Raj Chetty lan kolega nganakake akses menyang cathetan pajak, pirsani Mervis (2014) .
Dataset gedhe uga bisa nggawe masalah komputasi sing umume ngluwihi kapabilitas komputer siji. Mulane, peneliti sing nggawe komputasi ing dataset gedhe kerep nyebar karya liwat akeh komputer, proses sing kadhangkala disebut program paralel . Kanggo introduksi pemrograman paralel, utamané basa sing disebut Hadoop, pirsani Vo and Silvia (2016) .
Nalika ngeling-eling soko data, penting kanggo nimbang manawa sampeyan mbandingake wong sing padha kanthi tepat sajrone waktune utawa sampeyan mbandingake klompok wong sing ganti; ndeleng contone, Diaz et al. (2016) .
Buku klasik ing langkah nonreaktif yaiku Webb et al. (1966) . Conto ing buku kasebut predate umur digital, nanging isih ana. Kanggo conto saka wong-wong sing ngganti prilaku amarga ngarsane pemantauan massa, pirsani Penney (2016) lan Brayne (2014) .
Reaktivitas kasebut raket banget karo peneliti apa sing nyebat efek sing dikarepake (Orne 1962; Zizzo 2010) lan efek Hawthorne (Adair 1984; Levitt and List 2011) .
Kanggo informasi luwih lengkap, waca Dunn (1946) lan Fellegi and Sunter (1969) (sajarah) lan Larsen and Winkler (2014) (modern). Pendekatan sing padha uga wis dikembangake ing ilmu komputer miturut jeneng kayata deduplication data, identifikasi kayata, pencocokan jeneng, deteksi duplikat, lan deteksi rekaman duplikat (Elmagarmid, Ipeirotis, and Verykios 2007) . Ana uga cara kanggo ngrekam privasi kanggo ngrekam linkage sing ora mbutuhake transmisi informasi sing ngenali pribadi (Schnell 2013) . Facebook uga wis ngembangake proses kanggo ngubungake cathetan-cathetan kasebut marang prilaku pemilihan; iki rampung kanggo ngevaluasi eksperimen sing bakal dakwartakake babagan bab 4 (Bond et al. 2012; Jones et al. 2013) .
Kanggo luwih Shadish, Cook, and Campbell (2001) kesahihan, baca bab 3 saka Shadish, Cook, and Campbell (2001) .
Kanggo informasi luwih lengkap babagan debug log AOL, waca Ohm (2010) . Aku menehi saran babagan partnering karo perusahaan lan pemerintah ing bab 4 nalika aku nggambarake eksperimen. Sawetara penulis wis nyatakake keprigelan babagan riset sing gumantung marang data sing ora bisa diakses, ndeleng Huberman (2012) lan boyd and Crawford (2012) .
Salah siji cara sing apik kanggo peneliti universitas kanggo ndarbeni akses data iku bisa ing perusahaan minangka Intern utawa ngunjungi peneliti. Saliyane mbisakake akses data, proses iki uga bakal bantuan peneliti ing lengkap babagan data iki digawe, kang penting kanggo analisis.
Ing istilah entuk akses menyang data pamaréntahan, Mervis (2014) nyuraos babagan Raj Chetty lan kanca-kanca nyedhiyakake akses menyang cathetan pajak sing digunakake ing riset ing mobilitas sosial.
Kanggo luwih akeh babagan sejarah "representativitas" minangka konsep, pirsani Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , lan Kruskal and Mosteller (1980) .
Kula ringkesan karya Salju lan karya Doll and Hill sing cekak. Kanggo luwih akeh babagan karya Salju ing kolera, pirsani Freedman (1991) . Kanggo luwih saka Doctors Inggris sinau ndeleng Doll et al. (2004) lan Keating (2014) .
Akeh peneliti bakal kaget kanggo mangerteni manawa Doll lan Hill wis nglumpukake data saka dokter wanita lan saka dokter ing sangisore 35, sengaja ora nggunakake data kasebut ing analisis pisanane. Minangka ngandika: "Awit kanker paru-paru relatif langka ing wanita lan wong ing sangisoré 35, tokoh sing migunani ora bisa diduweni ing kelompok iki kanggo sawetara taun sing bakal teka. Ing laporan wiwitan, sauntara kuwi, kita wis mbatesi perhatian kita marang wong lanang umur 35 taun lan luwih. " Rothman, Gallacher, and Hatch (2013) , sing nduweni judhul provokatif" Ngapa representativitas kudu nyingkiri, "nggawe argumentasi sing luwih umum kanggo n LIYANE sengaja nggawe data nonrepresentative.
Nonrepresentativitas minangka masalah utama para peneliti lan pemerintah sing pengin nggawe pernyataan bab kabeh populasi. Iki ora dadi masalah kanggo perusahaan, sing biasane difokuskan kanggo pangguna. Kanggo luwih Buelens et al. (2014) babagan Statistik Walanda nganggep masalah nonrepresentatifitas data gedhe bisnis, waca Buelens et al. (2014) .
Kanggo conto para peneliti nyatakake keprihatinan babagan sumber data sing ora ana gunané, waca boyd and Crawford (2012) , K. Lewis (2015b) , lan Hargittai (2015) .
Kanggo perbandingan sing luwih rinci babagan tujuan survey sosial lan riset epidemiologis, pirsani Keiding and Louis (2016) .
Kanggo luwih akeh nyoba nggunakne Twitter kanggo nggawe generalizations metu babagan pemilih, utamane kasus saka pemilihan Jerman 2009, waca Jungherr (2013) lan Jungherr (2015) . Tumasjan et al. (2010) karo karya Tumasjan et al. (2010) panliten ing saindenging jagad nggunakke metode sing luwih apik-kayata nggunakake analisis sentimen kanggo mbedakake antara positif lan negatif saka pihak-partai-kanggo nambah kemampuan data Twitter kanggo prédhiksi macem-macem jenis pemilihan (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Punika carane Huberty (2015) diringkesake asil saka upaya iki kanggo prédhiksi pemilihan:
"Kabeh cara peramalan sing didhasarake ing media sosial gagal nalika ditundha kanthi pratelan pemilihan sing bener-bener maju. Gagal iki katon amarga sifat dhasar media sosial, tinimbang kanggo kesulitan metodologis utawa algoritma. Singkat, media sosial ora, lan mbokmenawa ora bakal, menehi gambaran sing stabil, ora adil, minangka wakil saka para pemilih; lan sampurna kanggo media sosial ora cukup data kanggo ndandani masalah iki. "
Ing bab 3, aku bakal njlèntrèhaké sampling lan estimasi luwih rinci. Sanajan data ora representatif, miturut kahanan tartamtu, bisa ditimbang kanggo ngasilake perkiraan apik.
Sistem mabur banget angel dideleng saka njaba. Nanging, proyek MovieLens (luwih rembugan ing bab 4) wis dilakoni luwih saka 15 taun dening klompok riset akademis. Mangkono, padha bisa mbandhingaké lan nuduhake informasi babagan cara sistem wis berkembang ing wayah wektuné lan cara iki bisa nyebabake analisis (Harper and Konstan 2015) .
Liu, Kliman-Silver, and Mislove (2014) sarjana wis fokus ing drift ing Twitter: Liu, Kliman-Silver, and Mislove (2014) lan Tufekci (2014) .
Salah siji pendekatan kanggo nangani drift populasi yaiku nggawe panel pangguna, sing ngidini peneliti sinau wong sing padha ing wektu sing padha, ndeleng Diaz et al. (2016) .
Aku pisanan krungu istilah "algorithmically confounded" digunakake dening Jon Kleinberg ing Dhiskusi, nanging sayangé aku ora ngelingi nalika utawa ing ngendi Dhiskusi diwenehi. Nalika sapisanan aku weruh istilah sing dicithak ana ing Anderson et al. (2015) , sing arupa diskusi menarik babagan cara algoritma sing digunakake dening situs-situs pacaran bisa nyenengake kemampuan peneliti kanggo nggunakake data saka situs web iki kanggo nyinaoni preferensi sosial. K. Lewis (2015a) dening K. Lewis (2015a) kanggo nanggepi Anderson et al. (2014) .
Saliyane Facebook, Twitter uga menehi rekomendasi marang para panganggo kanggo ngetutake adhedhasar gagasan panutupan triadic; waca Su, Sharma, and Goel (2016) . Supaya tingkat penutupan triadik ing Twitter minangka kombinasi saka sawetara kecenderungan manungsa tumrap penutupan triadic lan sawetara tendensi algoritma kanggo ningkatake penutupan triad.
Kanggo luwih performativitas-utamane ing idea sing sawetara teori sains sosial minangka "mesin ora kamera" (ie, mbentuk dunya tinimbang mung nggambarake) -deleng Mackenzie (2008) .
Agensi statistik pemerintah nyebut data pembersihan data statistik data . De Waal, Puts, and Daas (2014) nggambarake teknik editing data statistik sing dikembangake kanggo data survey lan nliti sebaran sing bisa ditrapake kanggo sumber data gedhe, lan Puts, Daas, and Waal (2015) nduwe sawetara gagasan sing padha kanggo pamirsa sing luwih umum.
Kanggo gambaran bot sosial, pirsani Ferrara et al. (2016) . Kanggo sawetara conto pasinaon fokus ing nemokake spam ing Twitter, waca Clark et al. (2016) lan Chu et al. (2012) . Pungkasan, Subrahmanian et al. (2016) njlèntrèhaké asil DARPA Twitter Bot Challenge, kolaborasi massa sing dirancang kanggo mbandhingaké cara kanggo ndeteksi bot ing Twitter.
Ohm (2015) review riset sadurungé gagasan informasi sensitif lan nawakake test multi-faktor. Papat faktor sing diusulake iku gedhene beboyo, kemungkinan cilaka, ana hubungan rahasia, lan risiko kasebut nggambarake keprihatinan mayoritas.
Studi Farber kang taksi ing New York didhasarake studi sadurunge dening Camerer et al. (1997) sing nggunakake telung beda sampurna kertas sheet sheets. Iki sinau sadurungé ngerteni manawa montor kasebut minangka target sing entuk golèk: padha nyambut gawe ing dina-dina sing upah luwih dhuwur.
Ing salajengipun, Raja lan kolega langkung nliti sensor online ing China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Kanggo pendekatan sing padha kanggo ngukur Bamman, O'Connor, and Smith (2012) online ing China, deleng Bamman, O'Connor, and Smith (2012) . Kanggo luwih rinci babagan cara statistik kayata sing digunakake ing King, Pan, and Roberts (2013) kanggo ngira yen sentimen 11 yuta tulisan, pirsani Hopkins and King (2010) . Kanggo luwih sinau, ndeleng James et al. (2013) (kurang teknis) lan Hastie, Tibshirani, and Friedman (2009) (luwih teknis).
Peramalan minangka bagean saka èlmu data industri (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Siji jinis prakiraan sing umum ditindakake dening peneliti sosial yaiku peramalan demografi; waca, umpamane, Raftery et al. (2012) .
Google Flu Trends ora minangka proyek pisanan sing nggunakake data panelusur kanggo prevalensi influenza saiki. Nyatane, peneliti ing Amerika Serikat (Polgreen et al. 2008; Ginsberg et al. 2009) lan Swedia (Hulth, Rydevik, and Linde 2009) nemokake istilah sing ditemokake (contone, "flu" data sadurunge dirilis. Sawise akeh, akeh proyèk liya wis nyoba nggunakake data jejak digital kanggo deteksi pengawasan penyakit; waca Althouse et al. (2015) kanggo review.
Saliyane migunakake data jejak digital kanggo prédhiksi hasil kesehatan, ana uga akeh karya sing nggunakake data Twitter kanggo prédhiksi hasil pemilihan; kanggo review ndeleng Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (bab 7), lan Huberty (2015) . Saiki pratelan indikator ekonomi, kayata produk domestik bruto (PDB), uga umum ing bank-bank pusat, deleng Bańbura et al. (2013) . Tabel 2.8 kalebu sawetara conto studi sing nggunakake sawetara jinis digital kanggo prédhiksi sawetara jenis acara ing donya.
Jejak digital | Hasil | Kutipan |
---|---|---|
Kantor kothak prodhuk film ing AS | Asur and Huberman (2010) | |
Telusuri log | Penjualan film, musik, buku, lan game video ing AS | Goel et al. (2010) |
Dow Jones Industrial Rata-rata (US pasar saham) | Bollen, Mao, and Zeng (2011) | |
Media sosial lan log nggoleki | Survey investor sentimen lan pasar saham ing Amerika Serikat, Inggris, Kanada, lan China | Mao et al. (2015) |
Telusuri log | Prevalensi Dengue Fever ing Singapura lan Bangkok | Althouse, Ng, and Cummings (2011) |
Akhire, Jon Kleinberg lan kanca-kanca (2015) nuduhaké manawa masalah prakiraan dadi rong kategori, beda banget lan ilmuwan sosial wis cenderung fokus ing siji lan mbantah liyane. Mbayangno salah sijining pembuat kebijakan, aku bakal nelpon dheweke Anna, sing bakal ngadhepi kekeringan lan kudu mutusake arep nyewa dhukun kanggo nglakoni tari udan kanggo ningkatake kasempatan udan. Liyane pembuat kebijakan, Aku bakal nelpon dheweke Betty, kudu milih arep njupuk payung kanggo nyedhiyakake supaya ora udan ing ngarep dalan. Anna lan Betty bisa nggawe keputusan sing luwih apik yen dheweke ngerti cuaca, nanging kudu ngerti perkara sing beda. Anna kudu ngerti manawa udan deres nyebabake udan. Betty, ing tangan liyane, ora perlu ngerti apa-apa bab kausalitas; dheweke mung butuh ramalan sing akurat. Peneliti sosial kerep fokus marang masalah kaya sing ditangani dening Anna-kang Kleinberg lan rekan-rekan nyatakake masalah kebijakan "udan deres"-amarga dheweke nduwe pitakonan sebab-sebab. Pitakonan kaya sing ditindakake dening Betty-kang Kleinberg lan kanca-kanca nyatakake masalah "kaya payung" masalah-bisa uga penting banget, nanging wis ditampa luwih akeh saka peneliti sosial.
Jurnal PS Political Science duwé simposium babagan data amba, kesimpulan kausal, lan téori formal, lan Clark and Golder (2015) ngringkes saben kontribusi. Prosiding jurnal Akademi Ilmu Pengetahuan Nasional Amérika Sarékat duwé simposium babagan kesimpulan sing nyebabake lan data amba, lan Shiffrin (2016) ngringkes saben kontribusi. Kanggo pendekatan pembelajaran mesin sing nyoba nemokake eksperimen alami ing jero sumber data gedhe, waca Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , lan Sharma, Hofman, and Watts (2016) .
Ing babagan eksperimen alami, Dunning (2012) nyedhiyakake perawatan, buku-panjang, kanthi pirang-pirang conto. Kanggo Rosenzweig and Wolpin (2000) eksperimen alami, mirsani Rosenzweig and Wolpin (2000) (ékonomi) utawa Sekhon and Titiunik (2012) (ilmu politik). Deaton (2010) lan Heckman and Urzúa (2010) argue yen fokus ing eksperimen alam bisa mimpin peneliti kanggo fokus ngitung efek ora nyebabake ora penting; Imbens (2010) argumen kasebut kanthi Imbens (2010) luwih optimis babagan nilai eksperimen alami.
Nalika njlentrehake manawa panliten bisa mandhiri saka ngira efek saka konsep sing disajekake marang pengaruh, aku nerangake teknik sing disebut variabel instrumental . Imbens and Rubin (2015) , ing bab 23 lan 24, menehi introduksi lan nggunakake lotre konsep minangka conto. Efek layanan militèr ing piwucalan kadhangkala disebut minangka efek akibat nyebabake rata-rata (CAcE) lan kadang-kadang efek perawatan rata-rata lokal (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , lan Bollen (2012) nyedhiyakake panangan babagan panggunaan variabel instrumental ing ilmu politik, ekonomi, lan sosiologi, lan Sovey and Green (2011) nyedhiyakake "daftar pamaca" ngevaluasi studi nggunakake variabel instrumental.
Ternyata sing undhang-undhang lotre 1970 ora, ing kasunyatan kanthi acak; ana penyimpangan cilik saka keanehan murni (Fienberg 1971) . Berinsky and Chatfield (2015) nandheske menawa penyimpangan cilik iki ora penting banget lan mbahas pentingna randomisasi.
Ing istilah sing cocog, waca Stuart (2010) kanggo review optimis, lan Sekhon (2009) kanggo review pessimistic. Kanggo luwih cocog minangka sejenis pruning, pirsani Ho et al. (2007) . Nemokake match siji sing sampurna kanggo saben wong asring angel, lan iki nepungake pirang-pirang kerumitan. Kaping pisanan, nalika pas sing ora cocok, panaliti kudu nemtokake cara ngukur jarak antarane rong unit lan yen jarak diwenehi cukup cedhak. Kerumitan kapindho muncul yen peneliti pengin nggunakake pirang-pirang sing cocog kanggo saben kasus ing grup perawatan, amarga iki bisa nyebabake perkiraan sing luwih tepat. Loro-lorone masalah iki, uga liyane, diterangake rinci ing bab 18 saka Imbens and Rubin (2015) . Deleng uga Part II saka ( ??? ) .
Waca Dehejia and Wahba (1999) kanggo conto yen metode sing cocog bisa ngasilake prakiran sing padha karo eksprimen sing dikontrol kanthi acak. Nanging, pirsani Arceneaux, Gerber, and Green (2006) lan Arceneaux, Gerber, and Green (2010) kanggo conto yen metode sing cocog gagal ngasilake pathokan eksperimen.
Rosenbaum (2015) lan Hernán and Robins (2016) nyawisake saran liyane kanggo nemokake bandhing sing migunani ing sumber data gedhe.