Tiu sekcio estas dizajnita por esti utiligita kiel referenco, prefere ol esti legita kiel rakonto.
Unu speco de observanta ke ne estas inkluditaj en ĉi tiu ĉapitro estas etnografio. Por pli sur etnografio en ciferecaj spacoj vidu Boellstorff et al. (2012) , kaj por pli sur etnografio en miksitaj cifereca kaj fizikaj spacoj vidu Lane (2016) .
Kiam vi repurposing datumoj, estas du mensaj lertaĵoj kiuj povas helpi vin kompreni la eblaj problemoj kiuj vi eble renkontos. Unue, vi povas provi imagi la idealon datumaro por via problemo kaj kompari ke la aro de datumoj kiuj vi abonas. Kiele ili similaj kaj kiamaniere ili estas malsamaj? Se vi ne kolekti viajn datumojn mem, estas verŝajne esti diferenco inter kion vi volas kaj kion vi havas. Sed vi devas decidi se tiuj diferencoj estas malgrandaj aŭ plej granda.
Dua, memoru ke iu kreis kaj kolektis viajn datumojn ial. Vi devus provi kompreni ilian rezonadon. Tiu speco de inversa-inĝenieristiko povas helpi vin identigi eblajn problemojn kaj antaŭjuĝoj en via repurposed datumoj.
Ne ekzistas ununura konsento difino de "granda datumo", sed multaj difinoj ŝajnas temigi la 3 Vs: volumeno, vario kaj rapido (ekz Japec et al. (2015) ). Anstataŭ koncentranta sur la karakterizaĵoj de la datumoj, mia difino temigas pli kial la datumoj estis kreita.
Mia inkludo de registaro administraj datumoj ene de la kategorio de grandaj datumoj estas iom nekutime. Aliaj kiuj faris ĉi kazo, ili inkludas Legewie (2015) , Connelly et al. (2016) , kaj Einav and Levin (2014) . Por pli pri la valoro de registaro administraj datumoj por esplorado, vidu Card et al. (2010) , Taskforce (2012) , kaj Grusky, Smeeding, and Snipp (2015) .
Por Konsiderante administra esploro de ene de la registaro statistika sistemo, aparte la Usana Kontado Ministerio, vidu Jarmin and O'Hara (2016) . Por libro longo traktado de la administraj registroj esploro ĉe Statistiko Svedio, vidu Wallgren and Wallgren (2007) .
En la ĉapitro, mi mallonge kompare tradician enketon kiel la Ĝenerala Socia Enketo (GSS) al socia amaskomunikilaro datumfonto kiel Twitter. Por ĝisfunda kaj zorgema komparo inter tradicia enketoj kaj sociaj rimedoj datumoj, vidu Schober et al. (2016) .
Tiuj 10 karakterizaĵoj de grandaj datumoj estis priskribita en vario de malsamaj manieroj de vario de malsamaj aŭtoroj. Skribo kiu influis mian pensadon pri tiuj temoj inkludas: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , kaj Goldstone and Lupyan (2016) .
Tra ĉi tiu ĉapitro, mi uzis la terminon diĝita spuroj, kiu miaopinie estas relative neŭtrala. Alia populara termino por cifereca spuroj estas cifereca spurojn (Golder and Macy 2014) , sed kiel Hal Abelson, Ken Ledeen, kaj Harry Lewis (2008) atentigas, pli taŭga termino estas probable diĝita fingrospurojn. Kiam vi kreas piedsignojn, vi estas konscia de kio estas okazanta kaj viajn piedspurojn ne ĝenerale esti spurita al vi persone. La sama ne estas vera por via cifereca spuroj. Fakte, vi lasas pulbazarojn tutan tempon pri kiu vi havas tre malmulta kono. Kaj, kvankam ĉi tiuj spuroj ne havas vian nomon sur ilin, ili povas ofte esti ligita reen al vi. Alivorte, ili estas pli da kiel fingrospurojn: nevidebla kaj persone identigi.
granda
Por pli sur kial grandaj datumaroj redonu statistikaj testoj problema, vidi Lin, Lucas, and Shmueli (2013) kaj McFarland and McFarland (2015) . Tiuj temoj devus konduki esploristoj temigi praktikan signifon prefere ol statistikan signifon.
Ĉiam-sur
Kiam konsiderante ĉiam-sur datumoj, estas grave konsideri ĉu vi komparas la ĝusta sama popolo super tempo aŭ ĉu vi estas komparanta kelkaj ŝanĝanta grupo de personoj; vidu ekzemple, Diaz et al. (2016) .
Ne-reaktiva
Klasika libro sur ne-reaktiva mezuroj estas Webb et al. (1966) . La ekzemploj en la libro retrotraer la diĝita aĝo, sed ili estas ankoraŭ lumigita. Por ekzemploj de personoj ŝanĝas ilian konduton pro la ĉeesto de maso viglado, vidu Penney (2016) kaj Brayne (2014) .
nekompletaj
Por pli sur rekordo ligo, vidu Dunn (1946) kaj Fellegi and Sunter (1969) (historia) kaj Larsen and Winkler (2014) (moderna). Simila alproksimiĝis ankaŭ estis disvolvita en komputiko sub la nomoj kiel datumoj deduplication, ekzemple identigo, nomo trafaj, duobligi detekto, kaj duobligi rekordo detekto (Elmagarmid, Ipeirotis, and Verykios 2007) . Ekzistas ankaŭ privateco konservi alproksimiĝojn gravuri ligo kiu ne postulas la transdonon de personan informon (Schnell 2013) . Facebook ankaŭ evoluigis procedi ligi iliajn rekordojn por balotado konduto; tio estis farita por taksi eksperimenton kiu Mi diros al vi pri en Ĉapitro 4 (Bond et al. 2012; Jones et al. 2013) .
Por pli sur konstrukcio valideco, vidu Shadish, Cook, and Campbell (2001) , ĉapitro 3.
nealireblaj
Por pli sur la AOL serĉo log debacle, vidu Ohm (2010) . Mi proponas konsilojn pri asocio kun kompanioj kaj registaroj en Ĉapitro 4 Kiam mi priskribas eksperimentojn. Kelkaj verkintoj esprimis zorgojn pri esploro kiu fidas sur nealirebla datumoj, vidu Huberman (2012) kaj boyd and Crawford (2012) .
Unu bona vojo por universitataj esploristoj akiri datumojn aliro estas labori en entrepreno kiel trejnlaboranto aŭ vizitante esploristo. Krom ebligante datumoj aliro, tiu procezo ankaŭ helpos la esploristo lerni pli pri kiel la datumoj estis kreita, kio estas grava por analitiko.
Ne-reprezentanto
Ne- representatividad estas grava problemo por esploristoj kaj registaroj kiuj deziras fari deklarojn pri tuta loĝantaro. Tio estas malpli de konzerno por entreprenoj kiuj tipe temigis ilian uzantoj. Por pli pri kiel Statistiko Nederlando konsideras la temo de ne-representatividad de negoco grandaj datumoj, vidu Buelens et al. (2014) .
En ĉapitro 3, mi priskribus muestreo kaj taksado en multe pli detale. Eĉ se datumoj estas ne-reprezentanto, sub certaj kondiĉoj, ili povas weighted produkti bonajn taksojn.
drivanta
Sistemo derivas estas tre malfacile vidi de la ekstera. Tamen, la MovieLens projekto (diskutita pli en ĉapitro 4) estas kuri dum pli ol 15 jaroj de akademia esploro grupo. Sekve, ili dokumentis kaj ili dividis informon pri la maniero, ke la sistemo evoluis dum tempo kaj kiel ĉi povus efiki analizo (Harper and Konstan 2015) .
Kelkaj akademiuloj temigis derivas en Twitter: Liu, Kliman-Silver, and Mislove (2014) kaj Tufekci (2014) .
algorítmicamente konfuzis
Mi unue aŭdis la esprimon "algorítmicamente konfuzis" uzita de Jon Kleinberg en diskuto. La ĉefa ideo malantaŭ performativity estas ke iuj sociaj sciencoj teorioj estas "motoroj ne fotiloj" (Mackenzie 2008) . Tio estas, ili fakte formas la mondon anstataŭ nur kapti ĝin.
malpura
Registaraj statistikaj agentejoj voki datumoj pureco, statistikaj datumoj redaktado. De Waal, Puts, and Daas (2014) priskribi statistikan datumon redaktado evoluintaj teknikoj por enketo datumoj kaj ekzameni al kiu amplekso ili estas aplikeblaj al grandaj datumoj fontoj, kaj Puts, Daas, and Waal (2015) prezentas kelkajn el la samaj ideoj por pli ĝenerala spektantaro.
Por iuj ekzemploj de studoj temigis spamado en Twitter, Clark et al. (2016) kaj Chu et al. (2012) . Fine, Subrahmanian et al. (2016) priskribas la rezultojn de la DARPA Twitter Bot Challenge.
sentemaj
Ohm (2015) recenzoj frua esplorado sur la ideo de sentiva informo kaj ofertas multi-faktora testo. La kvar faktoroj proponas estas: la probablo de damaĝo; probablo de damaĝo; ĉeesto de konfidenca rilato; kaj ĉu la risko reflekti plimultismaj zorgojn.
Farber la studo de taksioj en Novjorko estis bazita sur pli frua studo de Camerer et al. (1997) kiu uzis tri malsamajn oportuneco specimenoj de papero vojaĝo littukojn-papero formoj uzita de ŝoforoj gravuri vojaĝo komenco tempo, fino tempo, kaj la vojagxo. Tiu frua studo trovis ke ŝoforoj ŝajnis esti celo earners, Ili laboris malpli sur tagojn kie iliaj salajroj estis pli altaj.
Kossinets and Watts (2009) estis temigis la originojn de homophily en sociaj retoj. Vidu Wimmer and Lewis (2010) por malsama alproksimiĝo al la sama problemo kiu uzas la datumojn de Facebook.
En posta verko, King kaj kolegoj plue esploris rete cenzuras en Ĉinio (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Por rilatajn alproksimiĝo al mezuranta rete cenzuras en Ĉinio, vidu Bamman, O'Connor, and Smith (2012) . Por pli sur statistikaj metodoj kiel la uzita en King, Pan, and Roberts (2013) al taksi la sento de la 11 milionoj afiŝojn, vidu Hopkins and King (2010) . Por pli sur kontrolita lernado, vidu James et al. (2013) (malpli teknika) kaj Hastie, Tibshirani, and Friedman (2009) (pli teknika).
Prognozanta estas granda parto de industriaj datumoj scienco (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Unu tipo de prognozanta kiuj komune farita de sociaj esploristoj estas demografia prognozanta, ekzemple Raftery et al. (2012) .
Google Flu Trends ne estis la unua projekto uzi serĉo datumoj por nowcast gripo tropezo. Fakte, esploristoj en Usono (Polgreen et al. 2008; Ginsberg et al. 2009) kaj Svedio (Hulth, Rydevik, and Linde 2009) trovis ke iuj serĉvorton (ekz, "gripo") antaŭdiris nacia publika sano viglado datumoj antaŭ ol ĝi estis liberigita. Poste multaj, multaj aliaj projektoj provis uzi ciferecan spuron datumoj por malsano viglado detekto, vidu Althouse et al. (2015) por revizio.
Krom uzi ciferecan spuron datumoj antaŭdiri sano rezultoj, Tie ankaŭ estis grandega kvanto de laboro uzante Twitter datumoj antaŭdiri elekto rezultoj; por recenzoj vidu Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), kaj Huberty (2015) .
Uzante serĉo datumoj por antaŭdirado gripo prevalencia kaj uzante Twitter datumoj antaŭdiri elektoj estas ambaŭ ekzemploj de uzante ian ciferecan spuron antaŭdiri ia evento en la mondo. Tie enorma nombro de studoj kiuj havas tiun ĝeneralan strukturon. Tabelo 2.5 inkludas kelkajn aliajn ekzemplojn.
Cifereca spuro | rezulto | citaĵo |
---|---|---|
Giĉeto enspezoj de filmoj en Usono | Asur and Huberman (2010) | |
serĉo ŝtipoj | Vendoj de filmoj, muziko, libroj, kaj videoludoj en Usono | Goel et al. (2010) |
Dow Jones Industria Mezumo (usona borso) | Bollen, Mao, and Zeng (2011) |
La revuo PS Political Science havis simpozio sur grandaj datumoj, kaŭza inferenco, kaj formala teorio kaj Clark and Golder (2015) resumas ĉiu kontribuo. La revuo Paperoj de la Nacia Akademio de Sciencoj de la Usono de Ameriko havis simpozio sur kaŭza inferenco kaj grandaj datumoj, kaj Shiffrin (2016) resumas ĉiu kontribuo.
En terminoj de naturaj eksperimentoj, Dunning (2012) provizas bonega libro longo traktado. Por pli sur uzi la Vjetnama malneto loterio kiel natura eksperimento, vidu Berinsky and Chatfield (2015) . Por maŝina lerno aliroj kiuj provis aŭtomate malkovri naturajn eksperimentojn ene de grandaj datumoj fontoj, vidu Jensen et al. (2008) kaj Sharma, Hofman, and Watts (2015) .
Laŭ trafa, cxar optimisma revizio, vidu Stuart (2010) , kaj por pesimisma revizion vidi Sekhon (2009) . Por pli sur egalante kiel speco de rikoltiloj, vidi Ho et al. (2007) . Por libroj kiuj havigas bonega traktadoj de trafaj, vidu Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , kaj Imbens and Rubin (2015) .