Unu speco de observado, kiu ne estas inkluzivita en ĉi tiu ĉapitro, estas etnografio. Por pli da etnografio en ciferecaj spacoj, vidu Boellstorff et al. (2012) , kaj por pli da etnografio en miksitaj ciferecaj kaj fizikaj spacoj, vidu Lane (2016) .
Ekzistas neniu sola konsento difino de "grandaj datumoj", sed multaj difinoj ŝajnas fokusigi la "3 V": volumon, varion kaj rapidecon (ekz. Japec et al. (2015) ). Vidi De Mauro et al. (2015) por revizio de difinoj.
Mia inkludo de administraj administraj datumoj en la kategorio de grandaj datumoj estas iom nekutima, kvankam aliaj ankaŭ faris ĉi tiun kazon, inkluzive de Legewie (2015) , Connelly et al. (2016) , kaj Einav and Levin (2014) . Por pli pri la valoro de administraj administraj datumoj por esplorado, vidu Card et al. (2010) , Adminstrative Data Taskforce (2012) , kaj Grusky, Smeeding, and Snipp (2015) .
Por vido de administra esploro de ene de la registara statistika sistemo, precipe la Usona Kontado-Oficejo, vidu Jarmin and O'Hara (2016) . Por longa daŭra traktado de la administra registra esplorado ĉe Statistiko Svedio, vidu Wallgren and Wallgren (2007) .
En la ĉapitro, mi breve komparis tradician enketon kiel la Ĝenerala Socia Enketo (GSS) kun socia amaskomunikilaro kiel Twitter. Por kompleta kaj zorgema komparo inter tradiciaj enketoj kaj sociaj amaskomunikiloj, vidu Schober et al. (2016) .
Ĉi tiuj 10 trajtoj de grandaj datumoj estis priskribitaj de diversaj malsamaj formoj per diversaj malsamaj aŭtoroj. Skribo, kiu influis mian pensadon pri ĉi tiuj aferoj, inkluzivas Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , kaj Goldstone and Lupyan (2016) .
Laŭlonge de ĉi tiu ĉapitro, mi uzis la terminon ciferecajn spurojn , kiujn mi opinias relative neŭtrala. Alia populara termino por ciferecaj trakoj estas ciferecaj piedoj (Golder and Macy 2014) , sed kiel Hal Abelson, Ken Ledeen kaj Harry Lewis (2008) rimarkas, pli taŭga termino probable estas ciferecaj fingroj . Kiam vi kreas spurojn, vi scias pri tio, kio okazas kaj viaj piedoj ne ĝenerale povas trakti al vi. La sama ne estas vera por viaj ciferecaj spuroj. Fakte, vi lasas spurojn dum la tuta tempo, pri kiu vi havas tre malmulte da scio. Kaj, kvankam ĉi tiuj spuroj ne havas vian nomon sur ili, ili ofte povas esti ligitaj al vi. Alivorte, ili estas pli kiel fingroj: nevideblaj kaj persone identigantaj.
Por pli da kial grandaj datformoj repagas statistikajn provojn, vidu M. Lin, Lucas, and Shmueli (2013) kaj McFarland and McFarland (2015) . Ĉi tiuj aferoj devus konduki esploristojn fokusigi praktikan signifon prefere ol statistikan signifon.
Por pli pri kiel Raj Chetty kaj kolegoj akiris aliron al la impostaj registroj, vidu Mervis (2014) .
Grandaj datformoj povas ankaŭ krei komputajn problemojn, kiuj ĝenerale preter la kapabloj de unuopa komputilo. Sekve, la esploristoj, kiuj faras komputilojn en grandaj datformoj, ofte disvastigas la laboron super multaj komputiloj, procezo iam nomata paralela programado . Por enkonduko al paralela programado, precipe lingvo nomata Hadoop, vidu Vo and Silvia (2016) .
Konsiderante ĉiam-datumojn, gravas konsideri ĉu vi komparas la samajn homojn laŭlonge de la tempo aŭ ĉu vi komparas iun ŝanĝantan grupon de homoj; vidu ekzemple, Diaz et al. (2016) .
Klasika libro pri nereactaj mezuroj estas Webb et al. (1966) . La ekzemploj en tiu libro antaŭas la ciferecan aĝon, sed ili ankoraŭ lumigas. Por ekzemploj de homoj ŝanĝantaj sian konduton pro la ĉeesto de masa gvatado, vidu Penney (2016) kaj Brayne (2014) .
Reaktiveco estas mallarĝe rilatigita al kio esploristoj vokas postulojn (Orne 1962; Zizzo 2010) kaj la efekto Hawthorne (Adair 1984; Levitt and List 2011) .
Por pli da registra ligo, vidu Dunn (1946) kaj Fellegi and Sunter (1969) (historia) kaj Larsen and Winkler (2014) (moderna). Similaj aliroj ankaŭ estis disvolvitaj en komputika sub nomoj kiel datumaj deduplikado, ekzemplo de ekzemploj, kongruaj nomoj, duobla detektado kaj duobla registra detekto (Elmagarmid, Ipeirotis, and Verykios 2007) . Ekzistas ankaŭ privateco-konservantaj aliroj por registri ligon, kiu ne postulas la transdono de persone identiganta informon (Schnell 2013) . Facebook ankaŭ evoluigis procezon por ligi siajn rekordojn al voĉdonado; ĉi tio estis farita por taksi eksperimenton, kiun mi diros al vi en ĉapitro 4 (Bond et al. 2012; Jones et al. 2013) .
Por plie konstrui validecon, vidu ĉapitro 3 de Shadish, Cook, and Campbell (2001) .
Por pli da la AOL-serĉa ensalutado, vidu Ohm (2010) . Mi proponas konsilojn pri kunlaboro kun kompanioj kaj registaroj en ĉapitro 4 kiam mi priskribas eksperimentojn. Kelkaj aŭtoroj esprimis zorgojn pri esplorado, kiu dependas de nealireblaj datumoj, vidu Huberman (2012) kaj boyd and Crawford (2012) .
Unu bona vojo por universitataj esploristoj akiri datumojn aliro estas labori en entrepreno kiel trejnlaboranto aŭ vizitante esploristo. Krom ebligante datumoj aliro, tiu procezo ankaŭ helpos la esploristo lerni pli pri kiel la datumoj estis kreita, kio estas grava por analitiko.
Koncerne akiri aliron al registaraj datumoj, Mervis (2014) diskutas kiel Raj Chetty kaj kolegoj akiris aliron al la impostaj registroj uzataj en ilia esplorado pri socia movebleco.
Por pli pri la historio de "reprezentemo" kiel koncepto, vidu Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , kaj Kruskal and Mosteller (1980) .
Miaj resumoj pri la laboro de Neĝo kaj la laboro de Doll and Hill estis mallongaj. Por pli pri la laboro de Snow sur la kolero, vidu Freedman (1991) . Por pli da en la Brita Doktoro-Studo, vidu Doll et al. (2004) kaj Keating (2014) .
Multaj esploristoj surprizos ekscii, ke kvankam Doll kaj Monteto kolektis datumojn de inaj kuracistoj kaj de kuracistoj sub 35, ili intence ne uzis ĉi tiun datumon en sia unua analizo. Laŭ ili argumentis: "Ĉar la pulmo-kancero estas relative malofta en virinoj kaj viroj sub 35, utilaj ciferoj estas neŝajne atingataj en ĉi tiuj grupoj dum kelkaj jaroj. En ĉi tiu preliminara raporto ni limigis nian atenton al viroj de pli ol 35 kaj pli. " Rothman, Gallacher, and Hatch (2013) , kiu havas la provokan titolon" Kial reprezentado devas esti evitita ", fari pli ĝeneralan argumenton por la valoro de intence kreante ne reprezentajn datumojn.
Ne reprezentanto estas grava problemo por esploristoj kaj registaroj, kiuj volas fari deklarojn pri tuta loĝantaro. Ĉi tio estas malpli maltrankvila por kompanioj, kiuj kutime koncentras al siaj uzantoj. Por pli da pri kiel Statistiko Nederlando konsideras la aferon de ne reprezentado de komercaj grandaj datumoj, vidu Buelens et al. (2014) .
Por ekzemploj de esploristoj esprimantaj maltrankvilon pri ne-reprezenta naturo de grandaj datumoj, vidu boyd and Crawford (2012) , K. Lewis (2015b) , kaj Hargittai (2015) .
Por pli detala komparado de la celoj de sociaj enketoj kaj epidemiologiaj esploroj, vidu Keiding and Louis (2016) .
Por pli da provoj uzi Twitter fari ekster-ekzemplajn ĝeneraligojn pri balotantoj, precipe la kazo de la germanaj elektoj de 2009, vidu Jungherr (2013) kaj Jungherr (2015) . Sekvanta al la laboro de Tumasjan et al. (2010) esploristoj ĉirkaŭ la mondo uzis pli bonajn metodojn, kiel uzi sentimentan analizon por distingi inter pozitivaj kaj negativaj mencioj de la partioj-por plibonigi la kapablon de Twitter-datumoj por antaŭdiri varion de malsamaj tipoj de elektoj (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Jen kiel Huberty (2015) resumis la rezultojn de ĉi tiuj provoj por antaŭdiri elektoj:
"Ĉiuj konataj prognozaj metodoj bazitaj sur sociaj amaskomunikiloj malsukcesis, kiam ili submetiĝis al la postuloj de vera antaŭvida voĉdona prognozo. Ĉi tiuj misfunkciadoj ŝajnas esti pro fundamentaj proprietoj de sociaj amaskomunikiloj, anstataŭ al metodologiaj aŭ algoritmaj malfacilaĵoj. En definitiva, sociaj amaskomunikiloj ne povas, kaj verŝajne neniam volos, proponi stabilan, nebiasedan, reprezentan bildon de la elektantaro; kaj komfortaj specimenoj de sociaj amaskomunikiloj mankas sufiĉajn datumojn por solvi ĉi tiujn problemojn post ĉi tio. "
En ĉapitro 3, mi priskribos specimenadon kaj korinklinon en multe pli granda detalo. Eĉ se datumoj estas ne reprezentaj, sub certaj kondiĉoj, ili povas esti pezitaj por produkti bonajn taksojn.
Sistema derivaĵo estas tre malfacile vidi ekstere. Tamen, la projekto de MovieLens (diskutita pli en ĉapitro 4) estis ekzekutita dum pli ol 15 jaroj fare de akademia esplora grupo. Tiel ili povis dokumenti kaj dividi informojn pri la maniero, kiun la sistemo evoluis laŭlonge de la tempo kaj kiel tio povus efiki analizon (Harper and Konstan 2015) .
Kelkaj akademiuloj fokusiĝis pri ŝaltado en Twitter: Liu, Kliman-Silver, and Mislove (2014) kaj Tufekci (2014) .
Unu enfokusigas al traktado de loĝado estas krei panelo de uzantoj, kiu permesas esploristojn studi la samajn homojn laŭlonge de la tempo, vidu Diaz et al. (2016) .
Mi unue aŭdis la terminon "algoritme konfuzita" uzita de Jon Kleinberg en parolado, sed bedaŭrinde mi ne memoras kiam aŭ kie la parolado estis donita. La unua fojo, kiun mi vidis la esprimon en print, estis en Anderson et al. (2015) , kiu estas interesa diskuto pri kiel la algoritmoj uzataj de datumoj povas kompliki la kapablon de esploristoj uzi datumojn de ĉi tiuj retejoj por studi sociajn preferojn. Ĉi tiu maltrankvilo estis levita de K. Lewis (2015a) en respondo al Anderson et al. (2014) .
Krom Facebook, Twitter ankaŭ rekomendas homojn por uzantoj sekvi bazita sur la ideo de triadika fermo; vidu Su, Sharma, and Goel (2016) . Do la nivelo de triadika fermo en Twitter estas kombinaĵo de iu homa tendenco al triadika fermo kaj iu algoritma tendenco por antaŭenigi triadikan fermon.
Por pli pri realigo-precipe la ideo, ke iuj sociaj sciencaj teorioj estas "motoroj ne ĉambroj" (tio estas, ili formas la mondon prefere ol nur priskribante ĝin) - rigardas Mackenzie (2008) .
Registaraj statistikaj agentejoj nomas datumpurigadon de statistikaj datumoj . De Waal, Puts, and Daas (2014) priskribas statistikajn redaktadajn teknikojn evoluigitajn por enketaj datumoj kaj ekzamenas la mezuron al kiu ili estas aplikataj al grandaj datumoj, kaj Puts, Daas, and Waal (2015) prezentas iujn samajn ideojn por pli ĝenerala spektantaro.
Por superrigardo de sociaj bots, vidu Ferrara et al. (2016) . Por iuj ekzemploj de studoj centritaj en trovi spamon en Twitter, vidu Clark et al. (2016) kaj Chu et al. (2012) . Fine, Subrahmanian et al. (2016) priskribas la rezultojn de la DARPA Twitter Bot Challenge, amasa kunlaboro desegnita por kompari alirojn por detekti botojn en Twitter.
Ohm (2015) revizias pli frue esploradon pri la ideo de sentema informo kaj ofertas multan-faktoron. La kvar faktoroj kiujn li proponas estas la grando de damaĝo, la probablo de damaĝo, la ĉeesto de konfidanta rilato, kaj ĉu la risko reflektas plej grandajn maltrankvilojn.
La studo pri taksioj de Farber en Novjorko baziĝis sur pli frua studo de Camerer et al. (1997) kiu uzis tri malsamajn komfortajn specimenojn de papero-vojaĝoj. Ĉi tiu pli frua studo trovis, ke ŝoforoj ŝajnis esti celo-gajnantoj: ili laboris malpli dum tagoj, kie iliaj salajroj estis pli altaj.
En posta laboro, King kaj kolegoj plu esploris enretan cenzuras en Ĉinio (King, Pan, and Roberts 2014, [@king_how_2016] ) . Por rilata rilato al mezuri enretan cenzuras en Ĉinio, vidu Bamman, O'Connor, and Smith (2012) . Por pli pri statistikaj metodoj kiel la uzata en King, Pan, and Roberts (2013) por taksi la senton de la 11 milionoj da afiŝoj, vidu Hopkins and King (2010) . Por pli pri supervisita lernado, vidu James et al. (2013) (malpli teknikaj) kaj Hastie, Tibshirani, and Friedman (2009) (pli teknikaj).
Antaŭvido estas granda parto de industria datuma scienco (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Unu speco de prognozo, ofte komune farita de sociaj esploristoj, estas demografia prognozo; vidu, ekzemple, Raftery et al. (2012) .
Google Flu Tendencoj ne estis la unua projekto uzi serĉajn datumojn al nuntempa gripeca prevalenco. Fakte, esploristoj en Usono (Polgreen et al. 2008; Ginsberg et al. 2009) kaj Svedio (Hulth, Rydevik, and Linde 2009) trovis, ke iuj serĉaj terminoj (ekz. "Fluo") antaŭdiris nacian publikan sankontroladon datumoj antaŭ ol ĝi estis liberigita. Poste multaj aliaj projektoj provis uzi ciferecajn spurojn por detekti malsanojn; vidu Althouse et al. (2015) por revizio.
Krom uzi ciferecajn spur-datumojn por antaŭdiri sanajn rezultojn, ankaŭ ekzistis grandega laboro uzante Twitter-datumojn por antaŭdiri elektajn rezultojn; Por revizioj vidu Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ĉapitro 7), kaj Huberty (2015) . Nuntempigo de ekonomiaj indikiloj, kiel malpura hejma produkto (GDP), estas ankaŭ komuna en centraj bankoj, vidu Bańbura et al. (2013) . Tabulo 2.8 inkluzivas kelkajn ekzemplojn de studoj, kiuj uzas iujn ciferecajn spurojn por antaŭdiri iun specon de evento en la mondo.
Cifereca spuro | Rezulto | Citaĵo |
---|---|---|
Skatolaj enspezoj de filmoj en Usono | Asur and Huberman (2010) | |
Serĉaj registroj | Vendoj de filmoj, muziko, libroj kaj videoludoj en Usono | Goel et al. (2010) |
Dow Jones Industrial Average (Usona sako) | Bollen, Mao, and Zeng (2011) | |
Sociaj amaskomunikiloj kaj serĉprogramoj | Enketoj de investaj sentoj kaj salaj merkatoj en Usono, Unuiĝinta Reĝlando, Kanado kaj Ĉinujo | Mao et al. (2015) |
Serĉaj registroj | Prevalenco de Dengue Fever en Singapuro kaj Bangkok | Althouse, Ng, and Cummings (2011) |
Fine, Jon Kleinberg kaj kolegoj (2015) montris, ke prognozaj problemoj falis en du subtile malsamajn kategoriojn kaj ke sociaj sciencistoj inklinis koncentriĝi kaj ignori la alian. Imagu unu politika kreinto, mi nomos ŝin Anna, kiu estas antaŭ sekeco kaj devas decidi ĉu por kontrakti ĥamiston por pluvi dancon por pliigi la ŝancon de pluvo. Alia politika kreinto, mi nomos al ŝi Betty, devas decidi ĉu preni pluvombrelon por labori por eviti malsekiĝi hejmen. Ambaŭ Anna kaj Betty povas fari pli bonan decidon, se ili komprenas veteron, sed ili devas scii malsamajn aferojn. Anna bezonas kompreni ĉu la pluvo dancas kaŭzi pluvon. Betty, aliflanke, ne bezonas kompreni ion pri kaŭzeco; Ŝi nur bezonas precizan antaŭvido. Sociaj esploristoj ofte fokusiĝas pri la problemoj kiel la alfrontita de Anna, kiun Kleinberg kaj kolegoj nomas "problemojn pri politiko de pluvo dancaj" - ĉar ili kaŭzas demandojn pri kaŭzeco. Demandoj kiel tiu, kiun alfrontas Betty-Kleinberg kaj kolegoj, nomiĝas "pluvombrelaj" politikaj problemoj - povas esti tre grava ankaŭ, sed ricevis multe malpli atenton de sociaj esploristoj.
La ĵurnalo PS Political Science havis simpozion pri grandaj datumoj, kaŭzaj konferencoj kaj formala teorio, kaj Clark and Golder (2015) resumas ĉiun kontribuon. La ĵurnalo Proceedings of the National Academy of Sciences de Usono (Usono) havis simpozion pri kaŭzaj konferencoj kaj grandaj datumoj, kaj Shiffrin (2016) resumas ĉiun kontribuon. Por maŝinaj aliĝoj, kiuj provas aŭtomate malkovri naturajn eksperimentojn ene de grandaj datumaj fontoj, vidu Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , kaj Sharma, Hofman, and Watts (2016) .
Koncerne al naturaj eksperimentoj, Dunning (2012) provizas enkondukon, libron-longan traktadon kun multaj ekzemploj. Por skeptika vidpunkto pri naturaj eksperimentoj, vidu Rosenzweig and Wolpin (2000) (ekonomikon) aŭ Sekhon and Titiunik (2012) (politika scienco). Deaton (2010) kaj Heckman and Urzúa (2010) argumentas, ke fokuso pri naturaj eksperimentoj povas konduki esploristojn fokusi en taksado de nemalhaveblaj kaŭzaj efikoj; Imbens (2010) rakontas ĉi tiujn argumentojn kun pli optimisma vidpunkto pri la valoro de naturaj eksperimentoj.
Kiam mi priskribis, kiel esploristo povus iri el taksado de la efekto de esti redaktita al la efiko de servado, mi priskribis teknikon nomitan instrumentajn variablojn . Imbens and Rubin (2015) , en siaj ĉapitroj 23 kaj 24, prezentas enkondukon kaj uzas la projektan loterion kiel ekzemplo. La efikeco de militservo sur plenuloj estas foje nomata la plej plena averaĝa kaŭza efiko (CAcE) kaj foje la loka averaĝa traktado efiko (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , kaj Bollen (2012) proponas recenzojn pri la uzado de instrumentaj variabloj en politika scienco, ekonomiko kaj sociologio, kaj Sovey and Green (2011) provizas "leganton-kontrolon" por taksante studojn uzante instrumentajn variablojn.
Ĝi rezultas, ke la 1970-datita loterio ne estis fakte ĝuste hazarde; estis malgrandaj devioj de pura hazardo (Fienberg 1971) . Berinsky and Chatfield (2015) argumentas, ke ĉi tiu malgranda devio ne estas substantive grava kaj diskutas la gravecon de konvene kondukita hazardigo.
Koncerne al kongruo, vidu Stuart (2010) por optimisma revizio, kaj Sekhon (2009) por pesimisma revizio. Por pli da kongruado kiel speco de prikado, vidu Ho et al. (2007) . Trovi solan perfektan matĉon por ĉiu persono ofte estas malfacila, kaj ĉi tio prezentas multajn kompleksecojn. Unue, kiam ekzaktaj matĉoj ne estas haveblaj, esploristoj devas decidi kiel mezuri la distancon inter du ekzempleroj kaj se donita distanco sufiĉe proksima. Dua komplekseco ŝprucas, se esploristoj volas uzi multoblajn matĉojn por ĉiu kazo en la traktado, ĉar ĉi tio povas konduki al pli precizaj taksoj. Ambaŭ ĉi tiuj aferoj, same kiel aliaj, estas priskribitaj detale en la ĉapitro 18 de Imbens and Rubin (2015) . Vidu ankaŭ Parto II de ( ??? ) .
Vidu Dehejia and Wahba (1999) por ekzemplo, kie kunvenaj metodoj povis produkti korinklinojn similajn al tiuj de hazarda kontrolita eksperimento. Sed, vidu Arceneaux, Gerber, and Green (2006) kaj Arceneaux, Gerber, and Green (2010) por ekzemploj kie kongruaj metodoj malsukcesis reprodukti eksperimentan indicon.
Rosenbaum (2015) kaj Hernán and Robins (2016) proponas aliajn konsilojn por malkovri utilajn komparojn ene de grandaj datumoj.