Ovaj dio je dizajniran da se koristi kao referenca, a ne da se čita kao narativ.
Jedna vrsta napominjući da nije uključena u ovom poglavlju je etnografija. Za više informacija o etnografije u digitalnom prostoru vidjeti Boellstorff et al. (2012) , a za više informacija o etnografiji u mješovitim digitalnih i fizičkih prostora vidjeti Lane (2016) .
Kada se prenamene podataka, postoje dvije mentalne trikove koji vam mogu pomoći da shvate moguće probleme na koje možete naići. Prvo, možete pokušati zamisliti idealnu skup za vaš problem i usporedite to je skup koji koristite. Kako su oni slični i kako se oni razlikuju? Ako niste prikuplja vaše podatke sami, postoje šanse da se razlika između onoga što želiš i ono što imate. Ali, morate odlučiti da li su te razlike manje ili veće.
Drugo, ne zaboravite da je neko stvorio i prikupio svoje podatke iz nekog razloga. Trebalo bi pokušati shvatiti svoje obrazloženje. Ova vrsta obrnutog inženjeringa može vam pomoći identificirati moguće probleme i predrasude u reprogramirane podataka.
Ne postoji jedinstvena definicija konsenzus "Big Data", ali mnogi definicije izgleda da se fokusiraju na 3 Vs: (npr volumen, raznovrsnost i brzine Japec et al. (2015) ). Umjesto da se fokusira na karakteristike podataka, moja definicija se fokusira više o tome zašto je podatke kreirane.
Moje uključivanje Vlade administrativnih podataka unutar kategoriji velikih podataka je malo neobično. Drugi koji su napravili ovaj slučaj, uključuju Legewie (2015) , Connelly et al. (2016) , i Einav and Levin (2014) . Za više informacija o vrijednosti vlade administrativnih podataka za istraživanje, pogledajte Card et al. (2010) , Taskforce (2012) , i Grusky, Smeeding, and Snipp (2015) .
Za prikaz administrativnih istraživanja unutar statističkog sistema vlasti, posebno US Census Bureau, pogledajte Jarmin and O'Hara (2016) . Za dužina knjiga tretman istraživanja administrativnih evidencija u statistiku Švedska, pogledajte Wallgren and Wallgren (2007) .
U poglavlju, ja kratko u odnosu na tradicionalne ankete, kao što su Social Survey General (GSS) na izvor podataka društvenih medija kao što su Twitter. Za temeljito i pažljivo odnosu između tradicionalnih istraživanja i podataka društvenih medija, pogledajte Schober et al. (2016) .
Ovih 10 karakteristika velikih podataka su opisani u različite načine od strane različitih autora. Pisanje koji su uticali na moje razmišljanje o tim pitanjima uključuju: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , i Goldstone and Lupyan (2016) .
Tokom ovog poglavlja, sam koristio termin digitalne tragove, što mislim da je relativno neutralan. Drugi popularan termin za digitalne tragova je digitalni otisci (Golder and Macy 2014) , ali kao Hal Abelson, Ken Ledeen, i Harry Lewis (2008) ističu, više prikladan termin je vjerojatno digitalni otisci prstiju. Kada kreirate otiske, vi ste svjesni onoga što se događa i vaša stopala ne mogu generalno se pratiti na vas osobno. Isto ne važi za vaše digitalne tragove. U stvari, vi ste ostavljajući tragove sve vreme o kojem imate vrlo malo znanja. I, iako ove tragove nemaju svoje ime na njih, oni se često mogu povezati natrag na vas. Drugim riječima, oni su više poput otisaka prstiju: nevidljivi i lično identifikaciju.
velik
Za više informacija o zašto velikih skupova podataka, učiniti statističkih testova problematično, pogledajte Lin, Lucas, and Shmueli (2013) i McFarland and McFarland (2015) . Ova pitanja treba dovesti istraživače da se fokusiraju na praktični značaj, a ne statističke značajnosti.
Uvijek na
Kada se s obzirom na uvijek-na podacima, važno je uzeti u obzir da li su u odnosu na isto ljudi tokom vremena ili da li su u odnosu neke mijenjaju grupe ljudi; vidi na primjer, Diaz et al. (2016) .
Nije reaktivan
Klasične knjige na ne-reaktivne mjere je Webb et al. (1966) . Primjeri u knjizi pre-datum digitalno doba, ali su i dalje osvjetljavajući. Za primjere ljudi mijenjaju svoje ponašanje zbog prisustva masovnog nadzora, pogledajte Penney (2016) i Brayne (2014) .
nepotpun
Za više informacija o zapisnik spoj, pogledajte Dunn (1946) i Fellegi and Sunter (1969) (historical) i Larsen and Winkler (2014) (moderne). Slična je prišao su i razvijeni u računarstvu pod imenima kao što su deduplikaciju podataka, identifikaciju primjer, ime usklađivanje, duplicirati otkrivanje, kao i umnožavanje rekord otkrivanje (Elmagarmid, Ipeirotis, and Verykios 2007) . Tu su i privatnost očuvanje pristupa za snimanje spoj koji ne zahtijevaju prijenos osobno identifikaciju informacija (Schnell 2013) . Facebook također je razvio nastaviti da povežu svoje evidencije glasanja ponašanje; to je učinjeno da proceni eksperiment da ću vam reći u poglavlju 4 (Bond et al. 2012; Jones et al. 2013) .
Za više informacija o valjanosti konstrukta, pogledajte Shadish, Cook, and Campbell (2001) , Poglavlje 3.
nepristupačan
Za više informacija o AOL pretraživanje dnevnik debakl, pogledajte Ohm (2010) . Nudim savjete o partnerstvu sa kompanijama i vladama u poglavlju 4 kad sam opisati eksperimente. Brojni autori su izrazili zabrinutost zbog istraživanja koja se oslanja na nepristupačnim podataka, pogledajte Huberman (2012) i boyd and Crawford (2012) .
Jedan dobar način za univerzitetske istraživače da steknu pristup podacima je raditi u firmi kao pripravnik ili gostujući istraživač. Uz omogućavanje pristupa podacima, ovaj proces će također pomoći istraživač saznati više o tome kako su podaci stvoren, što je važno za analizu.
Non-predstavnik
Non-reprezentativnost je veliki problem za istraživače i vlade koji žele da daju izjave o cjelokupno stanovništvo. To je manje od briga za kompanije koje su obično fokusirani na njihove korisnike. Za više informacija o tome kako Statistika Nizozemska smatra da je pitanje ne reprezentativnosti poslovnih velike količine podataka, pogledajte Buelens et al. (2014) .
U poglavlju 3, ja ću opisati uzorkovanja i procjena u mnogo više detalja. Čak i ako podaci nisu-predstavnik, pod određenim uvjetima, mogu se weighted proizvesti dobre procjene.
Drifting
Sistem drift je vrlo teško vidjeti izvana. Međutim, projekt MovieLens (više reči u poglavlju 4) je raditi za više od 15 godina od strane akademske istraživačke grupe. Dakle, oni su dokumentirani i dijele informacije o načinu na koji je sistem evoluirao tokom vremena i kako bi to moglo utjecati na analizu (Harper and Konstan 2015) .
Jedan broj učenjaka su se fokusirali na drift u Twitteru: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .
algoritamski zbunjen
Prvi put sam čuo izraz "algoritamski zbunjen" po Jon Kleinberg koristi u razgovoru. Osnovna ideja performativnosti je da su neke teorije društvene nauke su "motori nisu kamere" (Mackenzie 2008) . To jest, oni zapravo oblikuju svijet, a ne samo da ga zauzme.
prljav
Vladine statističke agencije zovu čišćenje podataka, statistički uređivanje podataka. De Waal, Puts, and Daas (2014) opisuju statističke tehnike uređivanja podataka razvijen za podatke istraživanja i ispitati u kojoj mjeri su se primjenjuju na velike izvore podataka, i Puts, Daas, and Waal (2015) predstavlja neke od iste ideje za više opšte publike.
Za neke primjere studija fokusirala na spam u Twitter, Clark et al. (2016) i Chu et al. (2012) . Konačno, Subrahmanian et al. (2016) opisuje rezultate DARPA Twitter Bot Challenge.
osjetljiv
Ohm (2015) recenzije ranija istraživanja na ideji osjetljivih informacija i nudi test multi-faktor. Četiri faktora on predlaže su: vjerojatnost štete; vjerojatnost štete; prisustvo povjerljivog odnosa; i da li je rizik odražava većinski zabrinutost.
Studija Farber je taksija u New Yorku je bila zasnovana na ranijem studija Camerer et al. (1997) koji se koriste tri različita uzorka pogodnost papira putovanje oblika listova papira koriste vozači u rekordnom vremenu početka puta, kraj vremena, i obroke. Ovo ranije istraživanje je pokazalo da vozači se činilo da meta zarađuju: radili su manje na dan, gdje plate bile veće.
Kossinets and Watts (2009) je bio fokusiran na poreklo homophily na društvenim mrežama. Vidi Wimmer and Lewis (2010) za drugačiji pristup istom problemu koji koristi podatke iz Facebook.
U kasniji rad, King i kolege su se dodatno istražiti online cenzure u Kini (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Za srodnih pristupa mjerenju online cenzuru u Kini, pogledajte Bamman, O'Connor, and Smith (2012) . Za više informacija o statističkim metodama kao što je onaj koji se koriste u King, Pan, and Roberts (2013) procijeniti raspoloženje od 11 miliona poruka, pogledajte Hopkins and King (2010) . Za više informacija o nadziranoj učenju, vidi James et al. (2013) (manje tehničke) i Hastie, Tibshirani, and Friedman (2009) (više tehničkih).
Predviđanje je veliki dio industrijskih podataka nauke (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jedna vrsta predviđanja koja se najčešće obavlja socijalnu istraživači su demografske prognoze, na primjer Raftery et al. (2012) .
Google Flu Trends nije bio prvi projekt za korištenje podataka pretraživanje na nowcast gripa prevalencije. U stvari, istraživači u Sjedinjenim Američkim Državama (Polgreen et al. 2008; Ginsberg et al. 2009) i Švedske (Hulth, Rydevik, and Linde 2009) su otkrili da određeni pojam (npr, "gripa") predviđa nacionalni javni zdravstveni nadzor podataka prije nego što je pušten na slobodu. Nakon toga još mnogo, mnogo drugih projekata su pokušali da se koriste podaci digitalni trag za otkrivanje nadzor bolesti, pogledajte Althouse et al. (2015) za pregled.
Osim pomoću podataka digitalne traga za predviđanje zdravstvenih ishoda, došlo je ogroman rad koristeći Twitter podataka za predviđanje ishoda izbora; za komentare vide Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), i Huberty (2015) .
Koristeći podatke pretrage za predviđanje gripa rasprostranjenosti i koriste Twitter podataka predvidjeti izbori su i primjeri korištenja neke vrste digitalnih traga za predviđanje neki događaj u svijetu. Postoji ogroman broj studija koje imaju ovu opštu strukturu. Tabela 2.5 uključuje nekoliko drugih primjera.
digitalni trag | ishod | citiranje |
---|---|---|
cvrkut | Blagajnama prihod od filmova u SAD-u | Asur and Huberman (2010) |
Pretraga za rezanje | Prodaja filmova, muzike, knjiga, i video igre u SAD-u | Goel et al. (2010) |
cvrkut | Dow Jones Industrial Average (US berza) | Bollen, Mao, and Zeng (2011) |
Časopis PS političkih znanosti imali simpozij o Big Data, kauzalni zaključak, i formalna teorija, i Clark and Golder (2015) sumira svaki doprinos. Časopis Proceedings of the National Academy of Sciences iz Sjedinjenih Američkih Država je imala simpozij o kauzalne zaključivanja i velikih podataka, i Shiffrin (2016) sumira svaki doprinos.
Što se tiče prirodnih eksperimenata, Dunning (2012) pruža odličan tretman dužina knjiga. Za više informacija o korišćenju Vijetnam nacrt lutrija kao prirodni eksperiment, pogledajte Berinsky and Chatfield (2015) . Za pristupa učenju stroj koji automatski pokušati da otkriju prirodne eksperimente unutar velikih izvora podataka, pogledajte Jensen et al. (2008) i Sharma, Hofman, and Watts (2015) .
U pogledu matching, za optimističan pregled, vidjeti Stuart (2010) , a za pesimistički pregled vidjeti Sekhon (2009) . Za više informacija o odgovaraju kao neku vrstu orezivanja, pogledajte Ho et al. (2007) . Za knjige koje pružaju odlične tretmane uparivanja, pogledajte Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , i Imbens and Rubin (2015) .