Ky seksion është projektuar për t'u përdorur si një referencë, në vend që të lexohet si një tregim.
Një lloj i respektuar, që nuk është përfshirë në këtë kapitull është etnografi. Për më shumë mbi etnografisë në hapësirat digjitale shihni Boellstorff et al. (2012) , dhe për më tepër në etnografisë në hapësira të përziera digjitale dhe fizike të parë Lane (2016) .
Kur ju jeni repurposing të dhënave, ka dy truket mendore që mund të ju ndihmojë të kuptojnë problemet e mundshme që ju mund të hasni. Së pari, ju mund të përpiqet të imagjinoj dataset ideale për problemin tuaj dhe krahasoni se për të dhënash që ju jeni duke përdorur. Si ata janë të ngjashme dhe se si ata janë të ndryshëm? Nëse ju nuk mbledhin të dhënat tuaja veten, ka të ngjarë të jetë dallimi në mes të asaj që ju doni dhe çfarë ju duhet. Por, ju duhet të vendosë nëse këto ndryshime janë të vogla apo të mëdha.
Së dyti, mos harroni se dikush krijuar dhe mbledhur të dhënat tuaja për disa arsye. Ju duhet të përpiqen për të kuptuar arsyetimin e tyre. Ky lloj i kundërt-inxhinieri mund të ju ndihmojë identifikimin e problemeve të mundshme dhe paragjykimet në të dhënat tuaja repurposed.
Nuk ka ndonjë përkufizim të vetëm konsensusi i "të dhënave të madhe", por shumë përkufizime duket të përqëndrohet në 3 Vs: (p.sh., vëllimit, të ndryshme, dhe shpejtësia Japec et al. (2015) ). Në vend se duke u fokusuar në karakteristikat e të dhënave, përcaktimi im fokusohet më shumë në pse u krjiua të dhënat.
Përfshirja ime e të dhënave administrative të qeverisë brenda kategorisë së të dhënave të mëdha është pak e pazakontë. Të tjerë që kanë bërë me këtë rast, janë Legewie (2015) , Connelly et al. (2016) , dhe Einav and Levin (2014) . Për më shumë në lidhje me vlerën e të dhënave administrative qeveritare për kërkime, shikoni Card et al. (2010) , Taskforce (2012) , dhe Grusky, Smeeding, and Snipp (2015) .
Për një pamje të kërkimit administrative nga brenda sistemit qeveritar statistikore, veçanërisht SHBA Census Bureau, shih Jarmin and O'Hara (2016) . Për një trajtim gjatësi libër të kërkimit të dhënat administrative në Statistikat e Suedisë, shih Wallgren and Wallgren (2007) .
Në kapitullin, unë shkurtimisht në krahasim një studim tradicionale të tilla si Anketës së Përgjithshme Sociale (GSS) në një burim të të dhënave të mediave sociale si Twitter. Për një krahasim të plotë dhe të kujdesshëm në mes të anketave tradicionale dhe të dhënave të mediave sociale, shih Schober et al. (2016) .
Këto 10 karakteristikat e të dhënave të mëdha janë përshkruar në mënyra të ndryshme nga një shumëllojshmëri të autorëve të ndryshëm. Shkrimi që ndikuar në mendimet e mia mbi këto çështje përfshijnë: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , dhe Goldstone and Lupyan (2016) .
Gjatë gjithë këtij kapitulli, unë e kam përdorur gjurmët termin dixhitale, e cila unë mendoj se është relativisht neutral. Një tjetër term popullor për gjurmë dixhitale është gjurmë dixhitale (Golder and Macy 2014) , por si Hal Abelson, Ken Ledeen, dhe Harry Lewis (2008) theksojnë, një term më i përshtatshëm është ndoshta shenjat e gishtave digjitale. Kur keni krijuar gjurmët e këmbëve, ju jeni të vetëdijshëm për atë që po ndodh dhe gjurmët e tua nuk mund të gjurmohen në përgjithësi për ju personalisht. E njëjta gjë nuk është e vërtetë për gjurmë tuaja dixhitale. Në fakt, ju jeni duke lënë gjurmë gjatë gjithë kohës për të cilën ju keni shumë pak njohuri. Dhe, edhe pse këto gjurmë nuk kanë emrin tuaj mbi to, ato shpesh mund të jetë i lidhur përsëri tek ju. Me fjalë të tjera, ata janë më shumë si shenjat e gishtave: të padukshëm dhe personalisht identifikimin.
i madh
Për më shumë se pse grupe të të dhënave të mëdha, bëjnë teste statistikore problematike, shih Lin, Lucas, and Shmueli (2013) dhe McFarland and McFarland (2015) . Këto çështje duhet të çojë studiues të përqëndrohet në rëndësinë praktike se sa rëndësi statistikore.
Gjithmonë-në
Kur e konsideruar gjithmonë-në të dhënat, është e rëndësishme të marrin në konsideratë nëse ju jeni duke krahasuar të njëjtit njerëz saktë me kalimin e kohës, ose nëse ju jeni duke krahasuar disa grup në ndryshim të njerëzve; shih për shembull, Diaz et al. (2016) .
Jo-reaktive
Një libër klasik në masat jo-reaktive është Webb et al. (1966) . Shembujt në librin para-data e moshës dixhitale, por ata janë ende ndriçues. Për shembuj të njerëzve ndryshon sjelljen e tyre për shkak të pranisë së mbikqyrjes në masë, shih Penney (2016) dhe Brayne (2014) .
i paplotë
Për më shumë mbi lidhjen rekord, shih Dunn (1946) dhe Fellegi and Sunter (1969) (historike) dhe Larsen and Winkler (2014) (modern). E ngjashme iu janë zhvilluar edhe në shkenca kompjuterike nën emra të tillë si deduplication dhënave, identifikimin e shkallës, emri përputhen, kopjuar zbulimin dhe kopjuar zbulimin rekord (Elmagarmid, Ipeirotis, and Verykios 2007) . Ka edhe privacy ruajtjen qasjet për të regjistruar lidhje të cilat nuk kërkojnë transmetimin e personalisht identifikimin e informacionit (Schnell 2013) . Facebook gjithashtu ka zhvilluar një të vazhdojë për të lidhur të dhënat e tyre për sjelljen e votimit; kjo është bërë për të vlerësuar një eksperiment që unë do të ju tregojë për në Kapitullin 4 (Bond et al. 2012; Jones et al. 2013) .
Për më shumë mbi validitetit ndërtues, shih Shadish, Cook, and Campbell (2001) , Kapitulli 3.
i paarritshëm
Për më shumë mbi AOL kërkimit log përmbysje, shih Ohm (2010) . I ofrojnë këshilla për të bashkëpunuar me kompanitë dhe qeveritë në Kapitullin 4, kur unë përshkruajnë eksperimente. Një numër autorësh kanë shprehur shqetësime në lidhje me kërkimet që mbështetet në të dhëna të paarritshme, shih Huberman (2012) dhe boyd and Crawford (2012) .
Një mënyrë e mirë për studiuesit e universitetit për të marrë qasje të dhënave është për të punuar në një kompani si praktikant apo studiues vizitor. Përveç mundësuar qasje të dhënave, ky proces do të ndihmojë gjithashtu studiues të mësuar më shumë rreth asaj se si u krijua e të dhënave, e cila është e rëndësishme për analizë.
Non-përfaqësues
Jo-përfaqësimi është një problem i madh për studiuesit dhe qeverive të cilët dëshirojnë për të bërë deklarata në lidhje me një popullsie të tërë. Kjo është më pak shqetësuese për kompanitë që janë të fokusuara në mënyrë tipike në përdoruesit e tyre. Për më shumë se sa Statistikat Holanda e konsideron çështjen e jo-përfaqësimit të të dhënave të biznesit të madh, të shohim Buelens et al. (2014) .
Në Kapitullin 3, unë do të përshkruaj marrjen e mostrave dhe vlerësimin në detaje shumë më të madhe. Edhe nëse të dhënat janë jo-përfaqësuese, në kushte të caktuara, ato mund të ponderuar për të prodhuar vlerësime të mira.
Drifting
drift sistemi është shumë e vështirë për të parë nga jashtë. Megjithatë, projekti MovieLens (diskutuar më shumë në kapitullin 4) është drejtuar për më shumë se 15 vjet nga një grup kërkimor akademik. Prandaj, ata kanë dokumentuar dhe informacion në lidhje me mënyrën se sistemi ka evoluar me kalimin e kohës dhe se si ndahet kjo analizë mund të ndikojë (Harper and Konstan 2015) .
Një numër i dijetarëve janë përqendruar në domethënie në Twitter: Liu, Kliman-Silver, and Mislove (2014) dhe Tufekci (2014) .
hutonte algorithmically
Kam parë e dëgjuar termi "hutonte algorithmically" përdoret nga Jon Kleinberg në një bisedë. Ideja kryesore prapa performativity është se disa teori shkenca sociale janë "jo engines kamera" (Mackenzie 2008) . Kjo është, ata në fakt formë botës në vend se vetëm të kapur atë.
pis
Agjencitë qeveritare statistikore të thirrur e të dhënave pastrim, statistikore redaktimi të dhënave. De Waal, Puts, and Daas (2014) përshkruajnë teknikat statistikore redaktimi të dhënave të zhvilluara për të dhënat e sondazhit dhe të shqyrtojë në çfarë mase ato janë të aplikueshme për të burimeve të mëdha të të dhënave, dhe Puts, Daas, and Waal (2015) paraqet disa nga të njëjtat ide për një audiencë më të përgjithshme.
Për disa shembuj të studimeve të fokusuara në spamit në Twitter, Clark et al. (2016) dhe Chu et al. (2012) . Së fundi, Subrahmanian et al. (2016) përshkruan rezultatet e DARPA Twitter Bot Challenge.
i ndjeshëm
Ohm (2015) shqyrton kërkime më parë në idenë e informacionit të ndjeshëm dhe ofron një test multi-faktor. Katër faktorët që ai propozon janë: mundësia e dëmit; Mundësia e dëmit; Prania e një marrëdhënie konfidenciale; dhe nëse rreziku pasqyrojnë shqetësimet e shumicës.
Studimi i taksi në Nju Jork Farber u bazuar në një studim të mëhershëm nga Camerer et al. (1997) që përdoret tri mostra të ndryshme komoditet të udhëtimit letër format e fletë-letër përdorura nga shoferët për të regjistruar udhëtim fillimin kohë, kohën e mbarimit, dhe fare. Ky studim më parë zbuloi se shoferët duket të jetë ata njerëz synuar: ata kanë punuar më pak në ditë, ku pagat e tyre ishin më të larta.
Kossinets and Watts (2009) u fokusua në origjinën e homophily në rrjetet sociale. Shih Wimmer and Lewis (2010) për një qasje të ndryshme për të njëjtin problem i cili përdor të dhëna nga Facebook.
Në punën e mëvonshme, Mbreti dhe kolegët e kanë hulumtuar më tej në internet censurën në Kinë (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Për një qasje të ngjashme ndaj matjes internet censurën në Kinë, shih Bamman, O'Connor, and Smith (2012) . Për më shumë mbi metodat statistikore si ajo e përdorur në King, Pan, and Roberts (2013) për të vlerësuar ndjenjën e 11 milion mesazhe të, shih Hopkins and King (2010) . Për më shumë në mësim mbikëqyrur, shih James et al. (2013) (më pak teknike) dhe Hastie, Tibshirani, and Friedman (2009) (më shumë teknike).
Parashikimi është një pjesë e madhe e të dhënave industriale shkencës (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Një lloj i parashikimeve të cilat janë bërë zakonisht nga studiuesit sociale janë parashikimin demografike, për shembull Raftery et al. (2012) .
Google Trends gripit nuk ishte projekti i parë për të përdorur të dhënat e kërkimit të nowcast përhapjen e gripit. Në fakt, studiuesit në Shtetet e Bashkuara (Polgreen et al. 2008; Ginsberg et al. 2009) dhe Suedia (Hulth, Rydevik, and Linde 2009) kanë gjetur se disa kushte kërkimit (p.sh., "gripi") parashikoi mbikëqyrjen kombëtare për shëndetin publik të dhënat e para të u lirua. Më pas shumë e shumë projekte të tjera janë përpjekur të përdorin të dhënat digjitale gjurmë për zbulimin e mbikqyrjes sëmundjes, shih Althouse et al. (2015) për një shqyrtim.
Përveç kësaj për të përdorur të dhëna digjitale gjurmë për të parashikuar rezultatet e shëndetit, ka pasur edhe një sasi të madhe të punës duke përdorur të dhënat e Twitter për të parashikuar rezultatet e zgjedhjeve; për komente parë Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), dhe Huberty (2015) .
Duke përdorur të dhënat e kërkimit për të parashikuar përhapjen e gripit dhe duke përdorur të dhënat e Twitter për të parashikuar zgjedhje janë dy shembuj të përdorimit të një lloj gjurmë dixhitale për të parashikuar një lloj ngjarje në botë. Ekziston një numër i madh i studimeve që kanë këtë strukturë të përgjithshme. Tabela 2.5 përfshin disa shembuj të tjerë.
gjurmë Digital | rezultat | Citim |
---|---|---|
Cicëroj | Box ardhurat Zyra e filmave në SHBA | Asur and Huberman (2010) |
Kërko shkrimet | Shitjet e filma, muzikë, libra, dhe video games në SHBA | Goel et al. (2010) |
Cicëroj | Dow Jones Industrial Average (tregun e aksioneve SHBA) | Bollen, Mao, and Zeng (2011) |
Gazeta PS Shkenca Politike kishte një simpozium mbi të dhëna të mëdha, konkluzion shkakor, dhe teoria formale, dhe Clark and Golder (2015) përmbledh çdo kontribut. Procedura Gazeta e Akademisë Kombëtare të Shkencave të Shteteve të Bashkuara të Amerikës ka pasur një simpozium mbi konkluzion shkakore dhe të dhënave të mëdha, dhe Shiffrin (2016) përmbledh çdo kontribut.
Në kushtet e eksperimenteve natyrore, Dunning (2012) siguron një trajtim të shkëlqyer gjatësi libër. Për më shumë në përdorimin e projekt llotari Vietnam si një eksperiment natyror, shih Berinsky and Chatfield (2015) . Për qasje të mësuarit e makinës që përpiqen për të automatikisht të zbuluar eksperimentet natyrore brenda të burimeve të mëdha të të dhënave, shih Jensen et al. (2008) dhe Sharma, Hofman, and Watts (2015) .
Në kushtet e përputhjes, për një shqyrtim optimist, shih Stuart (2010) , dhe për një shqyrtim pesimist parë Sekhon (2009) . Për më shumë mbi përputhen si një lloj krasitjes, shih Ho et al. (2007) . Për libra që ofrojnë trajtime të shkëlqyer të përputhen, shih Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , dhe Imbens and Rubin (2015) .