Kapitulu honetan ez dagoen behaketa mota etnografia da. Etnografia gehiago espazio digitaletan, ikus Boellstorff et al. (2012) , eta etnografiari buruzko informazio gehiago nahi izanez gero espazio digital eta fisiko mistoetan, ikus Lane (2016) .
Ez dago "datu handien" adostasun Japec et al. (2015) , baina definizio ugari badirudi "3 Vs" zentratzen direla: bolumena, barietatea eta abiadura (adibidez, Japec et al. (2015) ). Ikusi De Mauro et al. (2015) definizioak berrikusteko.
Nire gobernuaren datu administratiboek datu handien kategorian txertatzea nahiko bitxia da, baina beste batzuek kasu hau ere egin dute, Legewie (2015) , Connelly et al. (2016) , eta Einav and Levin (2014) . Gobernuaren administrazio datuen balioaren inguruko ikerketa gehiago nahi izanez gero, ikus Card et al. (2010) , Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) , eta Grusky, Smeeding, and Snipp (2015) .
Gobernuaren estatistika-sistemaren barruan administrazio-ikerketa ikusteko, batez ere Estatu Batuetako Zentsuen Bulegoan, ikusi Jarmin and O'Hara (2016) . Estadistikako Suediako erregistro administratiboen ikerketa tratatzeko, ikus Wallgren and Wallgren (2007) .
Kapituluan, inkesta tradizionala laburki laburbiltzen dut, esate baterako, Gizarte Inkestaren (GSS), hala nola Twitter bezalako gizarte-komunikabideen datuekin. Survey tradizionalak eta sare sozialen datuen arteko konparazio sakona eta zaindua lortzeko, ikus Schober et al. (2016) .
Datu handien 10 ezaugarri hauetakoren bat modu desberdinetan deskribatu dira autore desberdinen arabera. Gauza hauei buruzko nire pentsamenduak eragin handia izan zuen idazten Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Goldstone and Lupyan (2016) .
Kapitulu honetan zehar, aztarna digitalak erabiltzen ditut, eta uste dut nahiko neutroa dela. Beste aztarna digital (Golder and Macy 2014) epeak aztarna digitalak dira (Golder and Macy 2014) , baina Hal Abelsonek, Ken Ledeenek eta Harry Lewisek (2008) esaten duten bezala, epe egokiagoa ziurrenik hatz-marka digitalak dira . Oinordekoak sortzen dituzunean, zer gertatzen ari zaren jakitun zara eta zure aztarna oro har ez zaizula pertsonalki trazatu. Gauza bera gertatzen da zure arrasto digitaletarako. Izan ere, aztarna gutxi uzten ari zara denbora guztian ezagutza oso gutxi duzula. Eta, aztarna hauek ez badituzu zure izenik, sarritan sar zaitezke zurekin. Beste era batera esanda, hatz-markak bezalakoak dira: ikusezina eta nortasun pertsonala.
Zergatik datu multzo handiek probak estatistikoki problematikoak ateratzen dituzte, ikusi M. Lin, Lucas, and Shmueli (2013) eta McFarland and McFarland (2015) . Gai horiek ikertzaileek esanahi praktikoa eta esangura estatistikoa baino zentratzen dute.
Raj Chetty-k eta lankideek zerga-erregistroetarako sarbidea izan Mervis (2014) , ikus Mervis (2014) .
Datu multzo handiek konputazio-arazo bat sor dezakete ordenagailu bakar baten gaitasunetatik kanpo. Hori dela eta, ikertzaileek datu multzo handiek ordenagailuak egiteko ordenagailuak askotarikoak izan ohi dira, prozesu batzuetan programazio paraleloak deitzen direlarik . Programazio paraleloan sartzeko, batez ere Hadoop izeneko hizkuntzan, ikusi Vo and Silvia (2016) .
Datuak beti kontuan hartuz gero, garrantzitsua da denboran zehar zehaztutako pertsona berberak alderatzea ala pertsona talde aldakor batzuk alderatuz gero. ikusi adibidez, Diaz et al. (2016) .
Neurri ezezaguneko liburu klasiko bat Webb et al. (1966) . Liburu honetako adibideek adin digitalaren aurrea hartu zuten, baina oraindik argitzen ari dira. Jendearen portaera aldatzen duten pertsonen adibideagatik masa zaintzearen presentzia dela eta, ikusi Penney (2016) eta Brayne (2014) .
Erreaktibitatea oso lotuta dago ikerlariek eskari efektuak deitzen dituztenarekin (Orne 1962; Zizzo 2010) eta Hawthorne efektua (Adair 1984; Levitt and List 2011) .
Lotura erregistro gehiago lortzeko, ikus Dunn (1946) eta Fellegi and Sunter (1969) (historikoa) eta Larsen and Winkler (2014) (modernoa). Antzeko (Elmagarmid, Ipeirotis, and Verykios 2007) ordenagailuetan ere garatu dira, datuen deduplication, instantzien identifikazioa, izenen arteko bateragarritasuna, bikoizketa detekzioa eta erregistro bikoizketa bikoiztea (Elmagarmid, Ipeirotis, and Verykios 2007) . Gainera, identifikazio pertsonaleko informazioa transmititzeko behar ez duten loturaren inguruko loturaren inguruko pribatutasun- (Schnell 2013) . Facebook-ek prozesu bat garatu du bere erregistroak hauteskunde-jokora lotzeko; Hau 4 kapituluan esango dizun esperimentu bat ebaluatu zen (Bond et al. 2012; Jones et al. 2013) .
Eraikuntzaren baliozkotasunari buruz gehiago jakiteko, ikusi Shadish, Cook, and Campbell (2001) 3. kapituluan Shadish, Cook, and Campbell (2001) .
AOL bilaketa erregistroko debacle buruzko informazio gehiago lortzeko, ikusi Ohm (2010) . Partehartzaileei aholkuak ematen dizkie enpresei eta gobernuei 4. kapituluan esperientziak deskribatu ditudanean. Egile askok datuak eskuraezinak diren ikerketei buruzko kezkak agertu dituzte, ikus Huberman (2012) eta boyd and Crawford (2012) .
One unibertsitateko ikertzaileek datuak sarbidea eskuratzeko modu ona da enpresa batean lan bekadun edo ikertzaile bisitari gisa. Datu sarbidea ahalbidetzen gain, prozesu honetan ere lagunduko du ikertzaileak datuak nola sortu zen, hau da, azterketarako garrantzitsua buruz gehiago ikasteko.
Gobernuaren datuetara sartzeko, Mervis (2014) aztertzen du nola Raj Chetty eta lankideek mugikortasun sozialean egindako ikerketan erabilitako zerga-erregistroak eskuratzen.
Kontzeptu gisa " Kruskal and Mosteller (1979a) " historiari buruz gehiago jakiteko, ikusi Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) eta Kruskal and Mosteller (1980) .
Snow-en lanen laburpenak eta Doll and Hill-en lanak laburrak izan ziren. Snow-en kolera lanari buruz gehiago jakiteko, ikus Freedman (1991) . British Doctors Study gehiago ikusteko, Doll et al. (2004) eta Keating (2014) .
Ikertzaile askok harritu egingo dute Doll eta Hill medikuek eta 35 urtetik beherako medikuek datuak bildu dituztela eta nahita ez zituztela datu horiek lehen azterketan erabili. Argudiatu zutenez: "Biriketako minbizia nahiko arraroa da emakume eta gizonezkoen artean 35 urtetik beherakoentzat, eta talde horietako batzuk ez datoz bat datozen urteetan. Aurreikusitako txosten honetan, beraz, 35 urte eta gehiagoko gizonak arreta jarri diegu. " Rothman, Gallacher, and Hatch (2013) izenburua probokatzailea da" Zergatik ordezkatu behar da saihestu egin behar da ", argumentu orokorragoa da balioaren aldeko nahitaez, adierazpen gabeko datuak sortzea.
Baliokidetasunik ez da arazo handirik, populazio osoarentzako adierazpenak egin nahi dituzten ikertzaile eta gobernuentzat. Hau da enpresekiko kezka gutxiago, normalean beren erabiltzaileei bideratuta. Estatistikak Herbehereak nola negozio-datu handien ez- Buelens et al. (2014) nola jotzen dituen aztertzeko, ikus Buelens et al. (2014) .
Datu-iturri handien izaera ez-ordezkariari buruzko kezka adierazten duten ikertzaileentzat, ikusi boyd and Crawford (2012) , K. Lewis (2015b) eta Hargittai (2015) .
Ikerketa epidemiologiko eta sozialen helburuak alderatzeko, ikus Keiding and Louis (2016) .
Twitter-ek hautesleei buruz generalizazio orokorrak egiteko erabiltzen dituen saiakera gehiago nahi izanez gero, 2009ko Alemaniako hauteskundeen kasuan bereziki, ikusi Jungherr (2013) eta Jungherr (2015) . Tumasjan et al. (2010) mundu osoko ikertzaileek metodo liluragarriak erabili dituzte (esate baterako, sentimenduen analisia alderdien aipamen positiboak eta negatiboak bereizteko), Twitter datuen gaitasuna hauteskunde mota desberdinen aurreikusteko gaitasuna hobetzeko (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hona hemen nola Huberty (2015) hauteskundeak aurreikusteko saiakeren emaitzak laburbiltzen:
"Gizarte-komunikabideetan oinarritutako aurreikusitako metodo guztiak huts egin du etorkizuneko aurreikusitako aurreikuspenen aurreikuspenen eskaeretan. Erorketa horiek gizarte-komunikabideen oinarrizko propietateak direla dirudi, zailtasun metodologiko edo algoritmikoak baino. Labur esanda, gizarte-komunikabideek ez dute, eta seguruenik inoiz ez, hauteslearekiko irudi egonkorra, alderantzizkoa eta erakargarria eskainiko; eta gizarte komunikabideen nahasmendu laginak nahikoa ez daukate horrelako arazoak konpondu ahal izateko. "
3. kapituluan, xehetasun askoz zehatzagoak eta laginak deskribatuko ditut. Datuak ez dira errepresentatiboak, baldintza jakin batzuen arabera, kalkulu onak egiteko balio dezakete.
Sistemaren drift oso zaila da kanpotik ikusteko. Hala eta guztiz ere, MovieLens proiektua (4 kapituluan gehiago eztabaidatu dena) 15 urte baino gehiagoko ikerketa-talde batek egin du. Horrela, sistemak denbora eboluzionatu duen moduari buruzko informazioa dokumentatu eta partekatzeko gai izan da eta nola eragin dezake analisia (Harper and Konstan 2015) .
Hainbat adituk Twitter-en nora joan ziren: Liu, Kliman-Silver, and Mislove (2014) eta Tufekci (2014) .
Biztanleriaren arrastoari aurre egiteko ikuspegi bat da erabiltzaileen panel bat sortzea, eta horri esker, ikertzaileek denboran zehar pertsona bera ikasten dute, ikus Diaz et al. (2016) .
Jon Kleinbergen hitzetan "erabilitako algoritmikoki nahastea" hitza entzun nuen lehenengo aldiz, baina, zoritxarrez, ez dut gogoratzen noiz edo noiz hitz egin zen. Lehenengo aldiz inprimatutako epean ikusi nuen Anderson et al. (2015) , eztabaidari buruzko eztabaida interesgarria da webguneak erabiltzen dituzten algoritmoek ikertzaileek webgune horien datuak erabiltzeko trebetasunak konparatzea, lehentasun sozialak aztertzeko. Kezka hori K. Lewis (2015a) planteatu zuen, Anderson et al. (2014) .
Facebook-en gain, Twitter-ek ere gomendatzen die erabiltzaileek itxiera hiruhilekoaren ideian oinarrituta jarraitzea; ikusi Su, Sharma, and Goel (2016) . Horrela, Twitter-en hiruhileko trinkoen maila itxitura hiruhilekoaren eta tenperatura trinkoa sustatzeko joera algoritmiko batzuen konbinazioa da.
Performanceari buruz gehiago, bereziki, gizarte zientzietako teoriak "kamera ez motoreak" (hau da, mundua moldatzen dute, deskribatu besterik ez baitute), esate baterako, Mackenzie (2008) .
Estatistikako estatistika administrazioek datu estatistikoak editatzeko datuak deitzen dituzte. De Waal, Puts, and Daas (2014) datuak inkestetarako datu estatistikoko edizio teknikak deskribatu eta datu handien iturriei aplikatzen zaien neurrian aztertu, eta Puts, Daas, and Waal (2015) ideia berberak aurkezten dituzte. audientzia orokorragoa.
Bots sozialen ikuspegi orokorra lortzeko, ikus Ferrara et al. (2016) . Twitteren aurkako espedienteak aurkitzeko egindako azterketen adibide batzuk, ikusi Clark et al. (2016) eta Chu et al. (2012) . Azkenean, Subrahmanian et al. (2016) DARPA Twitter Bot Challenge-en emaitzak deskribatzen ditu, Twitter-en bot detektatzeko planteamenduak alderatzeko masa-lankidetza.
Ohm (2015) informazio sentikorren ideiaren inguruko ikerketak lehenago aztertzen ditu eta faktore anitzeko faktore bat eskaintzen du. Proposatzen dituen lau faktoreak kalte handia, kalte probabilitatea, harreman konfidentzial baten presentzia eta arriskua kezka nagusiak islatzen dituzten ala ez adierazten dute.
Farber-ek New York-en Camerer et al. (1997) azterketa Camerer et al. (1997) paperezko bidaia-orrien hiru erosotasun-lagin desberdin erabili zituzten. Aurretik egindako ikerketek aurkitu zuten gidariek dirua irabazten zutela: gutxiago lan egin zuten beren soldatak handiagoak ziren egunetan.
Hurrengo lanean, Kingek eta lankideek Txinan (King, Pan, and Roberts 2014, [@king_how_2016] ) zentsurari buruzko linean esploratu egin dute. Txinan lineako zentsura neurtzeko hurbilketa baterako, ikusi Bamman, O'Connor, and Smith (2012) . King, Pan, and Roberts (2013) erabilitako metodo estatistikoei buruzko informazio gehiago lortzeko, 11 milioi mezuen sententziak kalkulatzeko, ikus Hopkins and King (2010) . Ikasitako ikasketetan gehiago jakiteko, ikus James et al. (2013) (tekniko gutxiago) eta Hastie, Tibshirani, and Friedman (2009) (teknikoa).
Aurreikustea datu industrialen zatiko zati handi bat da (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ikertzaile sozialek normalean egindako aurreikuspen mota bat aurreikuspen demografikoa da; Ikus, adibidez, Raftery et al. (2012) .
Google Gripearen joerak ez zen lehen aldiz, bilaketa-datuak egungo gripearen prebalentzia erabiltzeko proiektua. Izan ere, Estatu Batuetako ikertzaileek (Polgreen et al. 2008; Ginsberg et al. 2009) eta Suedian (Hulth, Rydevik, and Linde 2009) aurkitu dituzte zenbait bilaketa-termino (adibidez, "gripeak") osasun publikoaren osasun publikoa aurreikusten zutela datuak kaleratu aurretik. Ondoren, askok eta beste hainbat proiektuek traza digitaleko datuak erabiltzen dituzte gaixotasunen aurkako detekzioetarako; ikusi Althouse et al. (2015) berrikuspena egiteko.
Osasun emaitzak iragartzeko jarraipen digitaleko datuak erabiltzeaz gain, hauteskunde-emaitzak aurreikusteko Twitter-en datuak erabiliz lan ugari egin da; Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7. kapitulua) eta Huberty (2015) ikustera zuzendutako berrikuspenetarako. Adierazle ekonomikoen gaurkotzea, esate baterako, barne produktu gordina (BPG), banku zentraletan ere ohikoa da, ikusi Bańbura et al. (2013) . 2.8. taulan mundu osoko gertakari bat aurreikusteko zenbait jarraibide digital erabiltzen ditu.
Trazatu digitala | Ondokoa | Citation |
---|---|---|
Zinemarako diru sarrerak AEBetan | Asur and Huberman (2010) | |
Bilatu erregistroak | AEBetan film, musika, liburuak eta bideojokoen salmentak | Goel et al. (2010) |
Dow Jones Industrial Average (US burtsa) | Bollen, Mao, and Zeng (2011) | |
Komunikabide sozialak eta bilaketa-erregistroak | Estatu Batuetako, Erresuma Batuko, Kanadan eta Txinan inbertitzaileen sentimendu eta stock merkatuen inkestak | Mao et al. (2015) |
Bilatu erregistroak | Dengue Feveren prebalentzia Singapurren eta Bangkoken | Althouse, Ng, and Cummings (2011) |
Azkenean, Jon Kleinbergek eta lankideek (2015) azpimarratu dute aurreikuspenen arazoa bi kategoriatan sartzen dela, eta zientzialariek zentratu egiten dutela bat eta bestea alde batera utzi. Imajinatu politikari bat, Anna bere lehengoratzera behartzen diot eta shaman bat kontratatu beharra dago euriaren dantza egiteko euria egiteko. Beste politikari bat, bere Betty deituko diot, etxerako bidean bustita egoteko lan egiteko aterki bat hartu behar duen ala ez erabaki behar du. Bi Anna eta Betty-k erabaki hobea izan dezakete eguraldia ulertzen badute, baina gauza desberdinak ezagutu behar dituzte. Anna dastatzeko euria eragiten duen ala ez ulertu behar du. Betty, bestalde, ez du kausalitateari buruzko ezer ulertu behar; aurreikuspen zehatza behar du. Ikertzaile sozialek Anna-ren aurrean bezalako arazoak izaten dituzte askotan: Kleinbergek eta lankideek "euri-dantza bezalako" politika-arazoei deitzen diete-kausalitateari buruzko galderak egiten dituzte. Betty-k zein Kleinbergek eta lankideek "parasailekiko" politiken arazoak deitzen dituztenak bezalako galderak-oso garrantzitsuak izan daitezke baina ikertzaile sozialen arreta askoz gutxiago jaso dute.
PS Political Science aldizkariak datu handien, inferentzia kausalen eta teoria formalaren inguruko jardunaldia izan zuen, eta Clark and Golder (2015) ekarpen guztien laburpena egin zuen. Amerikako Estatu Batuetako Zientzia Akademiako Proceedings aldizkariak sinergia kausalen eta datu handien inguruko jardunaldia izan zuen, eta Shiffrin (2016) ekarpen orokorrak laburbiltzen ditu. Makina ikasketetarako planteamenduak, datu-iturri handien barruan izandako esperimentu naturalak automatikoki aurkitzeko, ikus Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) eta Sharma, Hofman, and Watts (2016) .
Esperimentu naturalen arabera, Dunning (2012) aurkezpen eta liburu-luzera eskaintzen du, adibide askoren bidez. Esperimentu naturalen ikuspegi eszeptikoa lortzeko, ikusi Rosenzweig and Wolpin (2000) (ekonomia) edo Sekhon and Titiunik (2012) (zientzia politikoa). Deaton (2010) eta Heckman and Urzúa (2010) argudiatu dute esperimentazio naturalen inguruan zentratzen direla kausa eragile garrantzitsuak kalkulatzeko bideratutako ikertzaileek; Imbens (2010) argumentu hauek konturatzen ditu esperimentu naturalen balioaren ikuspegi baikor batez.
Ikerlariak ezin izan zezakeen zerbitzuaren efektuari buruz idatzi zuen efektua kalkulatzeko, aldagai instrumentalak deritzon teknika deskribatzen ari nintzen. Imbens and Rubin (2015) , 23 eta 24 kapitulutan, aurkezpen bat egin eta zozketaren zirriborroa erabili adibide gisa. Zerbitzu militarrak betetzen dituzten zerbitzuen eragina batzutan deitzen zaio batez besteko kausaren eragina (CAcE) eta, batzuetan, tokiko batez besteko tratamenduaren eragina (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) eta Bollen (2012) zientzia politiko, ekonomiko eta soziologiako aldagai instrumentalen erabilerari buruzko berrikuspenak eskaintzen dituzte, eta Sovey and Green (2011) "irakurleen zerrenda" eskaintzen du aldagai instrumentalak erabiliz ikasketak ebaluatzea.
Horrela, 1970eko zirriborroen loteria ez zen, behar bezala ausazko moduan; ausazko ausazko desbideratze txikiak (Fienberg 1971) . Berinsky and Chatfield (2015) argudiatzen du desbideratze txiki hori ez dela substantiboki garrantzitsua eta ondo egindako ausazko garrantzia eztabaidatzeko.
Egokitzapenari dagokionez, ikusi Stuart (2010) berrikuspen baikorrerako, eta Sekhon (2009) azterketa ezkorra egiteko. Inausketa mota bezala bateragarri gehiago izateko, ikus Ho et al. (2007) . Pertsona bakoitzeko bikote perfektua aurkitzeko sarritan zaila da, eta horrek konplexutasun ugari aurkezten ditu. Lehenik eta behin, partida zehatzak ez badira eskuragarri, ikertzaileek bi unitateen arteko distantzia nola neurtu erabakitzen dute eta distantzia jakin bat nahikoa hurbil dagoen. Bigarren konplexutasuna sortzen da ikertzaileek tratamendu taldean kasu bakoitzarentzako hainbat alderdi erabili nahi dituztela, kalkulu zehatzagoak sor ditzakeelako. Gai horietako bi, baita beste batzuk, xehetasunez deskribatzen dira Imbens and Rubin (2015) kapituluan. Ikus ere Taldea II ( ??? ) .
Ikus Dehejia and Wahba (1999) adibide bat lortzeko, bat datozen metodoek ausazko kontrolatutako esperimentu baten antzekoak izan ditzaketen estimazioak ekoizteko. Baina, ikusi Arceneaux, Gerber, and Green (2006) eta Arceneaux, Gerber, and Green (2010) adibideetan, bat datozen metodoek ez dute erreferentzia esperimental bat erreproduzitzeko.
Rosenbaum (2015) eta Hernán and Robins (2016) beste aholku batzuk eskaintzen dituzte datu-iturri handien konparazio erabilgarriak aurkitzeko.