comentario gehiago

Atal honek diseinatuta dago erreferentzia gisa erabili ahal, narrazio bat bezala irakurri behar baino.

  • Aurkezpena (2.1 artikulua)

oharturik hori kapitulu honetan sartzen ez moduko bat etnografia da. Espazio digitalean etnografia gehiago nahi izanez gero, ikus Boellstorff et al. (2012) , eta etnografiari buruzko gehiago espazio digitala eta fisikoaren Mistoan ikusi Lane (2016) .

  • Big datuak (2.2 artikulua)

Noiz datuak repurposing ari zaren, bi mental trikimailuak ahalik ditzakezun arazorik ulertzen lagunduko ahal badira. Lehenik eta behin, multzoaren ideal imajinatzea, zure arazoa da saiatu dezakezu eta alderatu hori erabiltzen ari zaren datu multzoa. Nola dira antzeko eta nola dira desberdinak? Zuk ez baduzu biltzeko zure datuak yourself, litekeena da zer nahi duzun eta zer behar duzu arteko aldea izango da. Baina, desberdintasun horiek txikiak edo handiak badira erabaki behar duzu.

Bigarren, gogoratu norbaitek sortu eta zure datu bildu arrazoi batzuk. beren arrazonamendu ulertzen saiatu beharko zenuke. alderantzizko ingeniaritza-mota hau posible arazo eta joera zure repurposed datuak ere identifikatzen laguntzen.

Ez dago adostasuna "big datuak" definizio bakar, baina definizio anitzek, 3 Vs du ardatz: (adibidez, bolumena, hainbat eta abiadura Japec et al. (2015) ). Baizik datuen ezaugarrien bideratua baino, nire definizio zergatik sortu zen datuei buruzko gehiago zentratzen.

My big datuak mailaren barruan gobernuak administrazio-datuak sartzea da pixka bat ohiz. Beste batzuk izan dira kasu honetan egin dute, besteak beste Legewie (2015) , Connelly et al. (2016) , eta Einav and Levin (2014) . Gobernuak administrazio-datuak balioa ikerketa buruz gehiago jakiteko, ikusi Card et al. (2010) , Taskforce (2012) , eta Grusky, Smeeding, and Snipp (2015) .

Ikerketa administratibo ikuspegi bat gobernu estatistika-sistema, bereziki US errolda Bureau barrutik lortzeko, ikus Jarmin and O'Hara (2016) . Liburuaren luzera erregistro administratiboak Ikerketaren tratamendu Estatistikak Suedia lortzeko, ikus Wallgren and Wallgren (2007) .

kapituluan, laburki aztertu nituen, hala nola, Gizarte Inkesta General (GSS) social media datuak iturri bat, hala nola, Twitter bezain inkesta tradizional a. Inkesten tradizionala eta social media datuak arteko konparaketa sakon eta zaindua lortzeko, ikus Schober et al. (2016) .

  • (2.3 artikulua) datuak big ezaugarri komunak

dute modu ezberdinetan hainbat azaldutako 10 Datu big ezaugarri hauek egile desberdinen barietate. Idaztea nire pentsamendu eragina duten gai horiek, besteak beste: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , eta Goldstone and Lupyan (2016) .

Kapitulu honetan zehar, epe aztarnak digital, horrek uste dut nahiko neutroa erabili dut. Aztarnak digital popular epe bat da aztarna digitalak (Golder and Macy 2014) , baina Hal Abelson, Ken Ledeen, eta Harry Lewis bezala (2008) seinalatu, epe gehiago egokia da ziurrenik aztarna digitalak. Noiz aztarna sortzean, zer gertatzen ari den eta zure aztarna oro har, ez zaizu eginak pertsonalki jakitun zara. Gauza bera gertatzen da zure aztarnak digital egia. Izan ere, arrastoak uzten ari zaren denbora horri buruzko ezagutza oso gutxi behar duzun guztia. Eta, arrasto horiek ez arren, zure izena, sarritan lotuta dute itzuli. Bestela esanda, gehiago hatz-markak bezalako dira: ikusezina eta pertsonalki identifikatzen.

Big

Zergatik datu-multzo handi, errendatu estatistika probak problematikoa gehiagorako, ikus Lin, Lucas, and Shmueli (2013) eta McFarland and McFarland (2015) . Gai horiek baino garrantzi praktiko esangura estatistikoa ardatz ikertzaile ekarriko luke.

Beti-an

kontuan hartuta beti-on-datuak, garrantzitsua da denboran zehar zehatza pertsona bera alderatzen ari zaren ala pertsona talde aldakor batzuk dituzu ala alderatuz aztertzea; ikusi adibidez, Diaz et al. (2016) .

Ez-erreaktiboa

Ez-erreaktiboa neurriei buruzko liburu klasiko bat da Webb et al. (1966) . the book pre-data ageri diren adibideak aro digitalean, baina oraindik ere argitzen dira. Pertsona beren portaera aldatzen ari delako masa zaintza presentzia adibide, ikus Penney (2016) eta Brayne (2014) .

Osatu gabe

Erregistroak batzeko buruz gehiago jakiteko, ikusi Dunn (1946) eta Fellegi and Sunter (1969) (historikoa) eta Larsen and Winkler (2014) (modernoa). Similar hurbildu halaber informatika garatu da izen pean, besteak beste, datu Deduplication, esate identifikazioa, izen bat datorren bezala, bikoiztu detektatzeko, eta bikoiztu erregistroa detektatzeko (Elmagarmid, Ipeirotis, and Verykios 2007) . Badira ere pribatutasuna planteamendu mantentzea batze horrek ez pertsonalki identifikatzeko informazioa transmisioa eskatzen grabatzeko (Schnell 2013) . Facebook ere garatu du bat jarraitu bere erregistro gehiago boto portaera; hau esperimentu bat dudala esango 4. kapituluan buruz ebaluatzeko egin zen (Bond et al. 2012; Jones et al. 2013) .

Eraikuntza baliozkotasuna gehiago nahi izanez gero, ikusi Shadish, Cook, and Campbell (2001) , 3. kapitulua.

Helezina

AOL bilaketa log debacle buruz gehiago jakiteko, ikusi Ohm (2010) . enpresak eta 4. kapituluan gobernuek Partnering buruzko aholkularitza eskaintzen dut denean esperimentu azalduko ditut. Egileen kopurua A ikerketa hori datuak eskuraezinak oinarritzen kezka azaldu dute, ikusiko Huberman (2012) eta boyd and Crawford (2012) .

One unibertsitateko ikertzaileek datuak sarbidea eskuratzeko modu ona da enpresa batean lan bekadun edo ikertzaile bisitari gisa. Datu sarbidea ahalbidetzen gain, prozesu honetan ere lagunduko du ikertzaileak datuak nola sortu zen, hau da, azterketarako garrantzitsua buruz gehiago ikasteko.

Ez adierazgarria

Ez-adierazgarritasuna populazio oso batean buruzko adierazpenak egin nahi duten ikertzaile eta gobernuek arazo garrantzitsua da. Hau kezka gutxiago erabiltzen dira normalean, bere erabiltzaileei bideratuta enpresentzat da. Nola Estatistikak Netherlands enpresa big datuak ez ordezkaritza alea jotzen gehiago nahi izanez gero, ikusi Buelens et al. (2014) .

3 kapituluan, laginketa eta zenbatespen deskribatuko dut xehetasun askoz ere handiagoa da. datuak ez adierazgarri, baldintza jakin batzuetan badira ere, badute haztatu daiteke kalkuluen ona ekoizteko.

bisuts

Sistema jitoa oso zaila da kanpotik ikusten. Hala ere, MovieLens proiektua (eztabaidatuko gehiago ikus 4. kapitulua) izan da 15 urte baino gehiago exekutatu unibertsitateko ikerketa-talde baten arabera. Beraz, dokumentatu eta bide hori sisteman denboran zehar eboluzionatu eta nola buruz partekatutako dute hau eragin dezake analisia (Harper and Konstan 2015) .

Jakintsu kopurua A drift bideratuta Twitter-en: Liu, Kliman-Silver, and Mislove (2014) eta Tufekci (2014) .

algoritmoen maskaraturik

Lehen aldiz entzun dut epe "algorithmically maskaraturik" Jon Kleinberg erabilitako eztabaida batean. Performatibitatea atzean dagoen ideia nagusia da gizarte zientziaren teoria batzuk "motorrak ez kamerak" dira (Mackenzie 2008) . Hori da, benetan moldatzen dute mundua baino besterik harrapatzeko da.

Dirty

Gobernuz estatistika agentziak datuak garbiketa, estatistika datuak editatzeko. De Waal, Puts, and Daas (2014) estatistika datuak edizio inkestaren datuak garatu teknikak deskribatu eta aztertu zein neurritan datuak iturri handi aplikagarriak, eta ez dira Puts, Daas, and Waal (2015) aurkeztu du ideia bera batzuk audientzia orokorrago bat da.

Ikasketak spam bideratuta Twitter, adibide batzuk For Clark et al. (2016) eta Chu et al. (2012) . Azkenik, Subrahmanian et al. (2016) du DARPA Twitter Bot Challenge emaitzak azaltzen dira.

sentiberak

Ohm (2015) ikerketa lehenago reviews informazio sentikorra ideia on eta multi-faktorea proba bat eskaintzen du. Lau faktore zuen proposatzen dira: kalte probabilitatea; kalte probabilitatea; harreman konfidentziala presentzia; eta majoritarian kezkak islatzeko arriskua ala ez.

  • Gauzak zenbatzea (2.4.1 atala)

Farber New York taxiak azterketa lehenago azterketa bat oinarritzen zen Camerer et al. (1997) hiru erosotasuna paper bidaia izarak-paper bidaia ordua grabatzeko gidariak erabilitako formak, amaiera ordua, eta tarifa lagin desberdinak erabiltzen duten. lehenago azterketa hau topatu gidariak zirudien helburu langileak izan: gutxiago lan egindako egun non beren soldatak altuagoak zelatan zeuden.

Kossinets and Watts (2009) homophily jatorria sare sozialetan oinarritu zen. Ikusi Wimmer and Lewis (2010) eta horrek datuak erabiltzen Facebook arazo bera beste ikuspegi bat da.

Ondorengo obran, King eta lankide izan hobe aztertu online zentsura Txinan (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Online zentsura neurtzeko Txinan zerikusia hurbilketa bat lortzeko, ikusi Bamman, O'Connor, and Smith (2012) . Ere erabili den moduko metodo estatistikoetan gehiagorako King, Pan, and Roberts (2013) 11 milioi mezu sentimendu balioesteko, ikusi Hopkins and King (2010) . Gainbegiratutako ikaskuntzari buruzko gehiagorako, ikus James et al. (2013) (less teknikoa) eta Hastie, Tibshirani, and Friedman (2009) (gehiago teknikoak).

  • Aurreikuspena (2.4.2 atala)

Aurreikuspena industrial datuak zientziaren zati handi bat da (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Aurreikuspena mota One diren ohiko gizarte ikertzaileek eginiko aurreikuspena demografiko dira, adibidez Raftery et al. (2012) .

Google Gripearen joerak ez zen bilaketa datuak erabili gripea prebalentzia nowcast den lehen proiektua. Izan ere, Estatu Batuetako ikertzaileek (Polgreen et al. 2008; Ginsberg et al. 2009) eta Suedia (Hulth, Rydevik, and Linde 2009) aurkitu dute zenbait bilaketa-terminoak (adibidez, "gripe") iragarri nazional publikoko osasun zaintza aurretik datuak kaleratu zen. Gerora, asko asko beste proiektu arrastorik digital datuak erabili Gaixotasunaren zaintza detektatzeko, ikusi ahalegindu Althouse et al. (2015) berrikuspena da.

arrastorik digital datuak erabiliz osasun emaitzak iragartzeko gain, badira ere Twitter datuak erabiliz hauteskundeen emaitzak iragartzeko lan kopuru handi bat izan da beti; berrikuspen ikusi Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), eta Huberty (2015) .

bilaketa datu erabiltzea gripea prebalentzia aurreikustea eta Twitter datuak erabiliz hauteskundeetan bi arrastorik digital mota batzuk erabiliz munduko ekitaldi mota batzuk aurreikusteko adibide dira iragartzea da. Badira duten egitura orokor hau izan ikasketak kopuru izugarria. 2.5 taula bat beste adibide batzuk dira.

2.5 taula: ikasketak zerrenda partziala arrastorik digital batzuk erabili gertaera batzuk iragartzeko.
arrastorik Digital Ondokoa Citation
Twitter Leihatilako AEBetan filmak diru-sarrerak Asur and Huberman (2010)
Bilaketa erregistroak filmak, musika, liburuak, eta bideo-jokoen salmentak AEBetan Goel et al. (2010)
Twitter Dow Jones Industrial Average (US burtsa) Bollen, Mao, and Zeng (2011)
  • Hurbiltzen esperimentuak (2.4.3 atala)

Aldizkariaren PS Politikoen Zientzia datuak big, kausazko inferentzia, eta teoria formal jardunaldia izan, eta Clark and Golder (2015) ekarpen bakoitza laburtzen du. Aldizkariaren Akademia Nazionalaren Amerikako Estatu Batuetako Zientzien Actas -lako inferentzia eta big datuak jardunaldia izan, eta Shiffrin (2016) ekarpen bakoitza laburtzen du.

Esperimentu natural dagokionez, Dunning (2012) bikaina book luzera tratamendu bat ematen du. Vietnamgo zirriborroa loteria esperimentu natural gisa erabiltzeari buruz gehiago jakiteko, ikus Berinsky and Chatfield (2015) . Automatikoki ezagutzeko esperimentu natural datuak iturri big barruan saiatuko dela makina ikaskuntza lortzeko, ikus Jensen et al. (2008) eta Sharma, Hofman, and Watts (2015) .

Matching dagokionez, baikor berrikuspena egiteko, ikus Stuart (2010) , eta ezkorra berrikuspena ikusi Sekhon (2009) . Inausketa mota bat bezala betetzen buruz gehiago jakiteko, ikusi Ho et al. (2007) . Datorren tratamendu bikaina ematen duten liburuak eskuratzeko, ikus Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , eta Imbens and Rubin (2015) .