Daljnji komentar

Ovaj dio je osmišljen kako bi se koristiti kao referenca, a ne da se čitati kao priče.

  • Uvod (odjeljak 2.1)

Jedna vrsta je primijetiti kako nije uključena u ovu poglavlja etnografija. Za više informacija o etnografiji u digitalnih prostora vidi Boellstorff et al. (2012) , a za više informacija o etnografiji u mješovitim digitalnih i fizičkih prostora vidi Lane (2016) .

  • Big podataka (Odjeljak 2.2)

Kada se izmjena svrhe podatke, postoje dvije mentalne trikove koji vam mogu pomoći shvatiti na moguće probleme koji bi se mogli pojaviti. Prvo, možete pokušati zamisliti idealnu skupa podataka za vaš problem i usporediti da se skup podataka koji koristite. Kako su slične i kako se oni razlikuju? Ako niste prikupiti Vaši podaci sami, tu su vjerojatno da će biti razlika između onoga što želite i ono što imate. Ali, morate odlučiti ako te razlike su male ili velike.

Drugo, ne zaboravite da je netko stvorio i uzima podatke iz nekog razloga. Te bi trebao pokušati razumjeti svoje razmišljanje. Ova vrsta obrnutog-inženjering može vam pomoći identificirati moguće probleme i predrasude u svojim prenamijeniti podataka.

Ne postoji jedinstvena definicija konsenzus "veliki podatke", ali mnoge definicije izgleda da se usredotočite na 3 Vs: (primjerice, volumen, raznolikost i brzina Japec et al. (2015) ). Umjesto fokusiranja na karakteristikama podataka, moja definicija fokusira više o tome zašto su podaci je izrađen.

Moj uključivanje državnih administrativnih podataka u kategoriji velikih podataka je malo neobično. Drugi koji su napravili ovaj slučaj, uključuju Legewie (2015) , Connelly et al. (2016) , a Einav and Levin (2014) . Za više informacija o vrijednosti državnih administrativnih podataka za istraživanje, vidi Card et al. (2010) , Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .

Za pogled upravnog istraživanja iznutra statističkog sustava vlasti, posebice US Popisa ured, vidi Jarmin and O'Hara (2016) . Za liječenje duljinom knjiga od administrativnih evidencija istraživanja u statistici Švedske, vidi Wallgren and Wallgren (2007) .

U poglavlju ukratko u odnosu na tradicionalnu anketu kao što su General Social Survey (GSS) na društvenim medijima izvora podataka kao što je Twitter. Za temeljitog i pažljivog usporedbu tradicionalnim anketama i podataka društvenih medija potražite Schober et al. (2016) .

  • Zajednička osobina velikih podataka (Odjeljak 2.3)

Te 10 karakteristike velikih podataka opisani su u različite načine različite autora. Pisanje koji je utjecao na moje mišljenje o tim pitanjima su: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , a Goldstone and Lupyan (2016) .

Kroz ovo poglavlje, ja sam se pojam digitalne tragove, što mislim da je relativno neutralan. Drugi popularan izraz za digitalne tragove je digitalni otisci (Golder and Macy 2014) , ali kao Hal Abelson, Ken Ledeen i Harry Lewis (2008) ističu, više odgovarajući pojam je vjerojatno digitalni otisci prstiju. Kada napravite otiske, vi ste svjesni onoga što se događa i vaši otisci u načelu ne može se pratiti na vas osobno. Isto ne vrijedi za vaše digitalne tragove. U stvari, vi ste ostavljajući tragove cijelo vrijeme o kojem imate vrlo malo znanja. I, iako ti tragovi nemaju svoje ime na njih, oni često mogu biti povezani natrag na vas. Drugim riječima, oni su više poput otisaka prstiju: nevidljiva i za osobnu identifikaciju.

velika

Za više informacija o tome zašto velikih skupova podataka, pružanje statističkih testova problematično, vidi Lin, Lucas, and Shmueli (2013) i McFarland and McFarland (2015) . Ova pitanja bi trebalo dovesti istraživače da se fokusiraju na praktičnom značenju, a ne statističke značajnosti.

Uvijek na

Kada se s obzirom uvijek na podatke, važno je uzeti u obzir da li se uspoređuju isti ljudi tijekom vremena ili da li ste usporedbom neki mijenja grupu ljudi; vidi, na primjer, Diaz et al. (2016) .

Nereaktivan

Klasična knjiga o ne-reaktivne mjere je Webb et al. (1966) . Primjeri u knjizi pre-datum digitalnog doba, ali su još uvijek osvjetljava. Za primjere ljudi mijenjaju svoje ponašanje zbog prisutnosti masovnog nadzora, vidi Penney (2016) i Brayne (2014) .

Nepotpun

Za više informacija o rekordnom povezanosti, vidi Dunn (1946) i Fellegi and Sunter (1969) (povijesnu) i Larsen and Winkler (2014) (moderna). Slično prilazi Također su razvijeni u računalnoj znanosti pod imenima kao što deduplication podataka, primjerice identifikaciju, ime podudaranja, duplicirati otkrivanje, i duple rekord otkrivanje (Elmagarmid, Ipeirotis, and Verykios 2007) . Tu su i privatnost očuvanja pristupa za snimanje veze koje ne zahtijevaju prijenos podatke za osobnu identifikaciju (Schnell 2013) . Facebook je također razvio nastaviti povezati svoje zapise da se glasovanja; to je učinjeno za procjenu eksperiment koji ću vam reći o u poglavlju 4 (Bond et al. 2012; Jones et al. 2013) .

Za više informacija o valjanosti konstrukta, vidi Shadish, Cook, and Campbell (2001) , poglavlje 3.

nepristupačan

Za više informacija o AOL Search log debakla vidi Ohm (2010) . Nudim savjet zbog partnerstva s tvrtkama i vladama u 4. poglavlju, kada sam opisao eksperimente. Brojni autori su izrazili zabrinutost zbog istraživanja koja se oslanja na nedostupnih podataka, vidi Huberman (2012) i boyd and Crawford (2012) .

Jedan dobar način za sveučilišni istraživači steći pristup podacima je raditi u tvrtki kao pripravnik ili gostujući istraživač. Uz omogućavanje pristupa podacima, ovaj proces će također pomoći istraživač saznali više o tome kako su podaci stvoren, što je važno za analizu.

Non-zastupnik

Non-reprezentativnosti je veliki problem za istraživače i vlada koje žele davati izjave o cjelokupne populacije. To je manje od važnosti za tvrtke koje su obično usmjerena na svoje korisnike. Za više informacija o tome kako Statistika Nizozemska razmatra pitanje zabrane reprezentativnosti poslovnih velikih podataka, vidi Buelens et al. (2014) .

U poglavlju 3, opisat ću uzorkovanje i procjenu u mnogo više detalja. Čak i ako podaci nisu reprezentativni, pod određenim uvjetima, mogu biti ponderirani proizvesti dobre procjene.

Drifting

Sustav je strujanje vrlo teško vidjeti izvana. Međutim, MovieLens projekt (objašnjeno više u poglavlju 4) je trčanje za više od 15 godina od strane akademske istraživačke skupine. Dakle, oni su dokumentirani i dijeli informacije o načinu na koji je sustav napredovao je tijekom vremena i kako bi to moglo utjecati na analizu (Harper and Konstan 2015) .

Brojni znanstvenici su se fokusirali na drift na Twitteru: Liu, Kliman-Silver, and Mislove (2014) i Tufekci (2014) .

algoritamski smesti

Sam prvi put čuo izraz "algoritamski smesti" koristi Jon Kleinberg u razgovor. Osnovna ideja performativnosti je da neke društvene teorije znanosti su "motori ne fotoaparat" (Mackenzie 2008) . To jest, oni zapravo oblikuju svijet, a ne samo ga uhvatiti.

prljav

Vladine statističke agencije nazvati čišćenje podataka, statističke uređivanje podataka. De Waal, Puts, and Daas (2014) opisuju statističke tehnike za uređivanje podataka razvijen za anketi i ispitati u kojoj su mjeri odnosi se na velikim izvorima podataka i Puts, Daas, and Waal (2015) predstavlja neke od istih ideja za još široj publici.

Za neke primjere studija usmjerenih na spam u Twitter, Clark et al. (2016) te Chu et al. (2012) . Konačno, Subrahmanian et al. (2016) opisuje rezultate DARPA Twitter Bot Challenge.

Osjetljiv

Ohm (2015) daje pregled ranije istraživanje o ideji osjetljivih informacija i nudi multi-faktor test. Četiri čimbenika Predlaže se: vjerojatnost štete; Vjerojatnost štete; Prisutnost povjerljivih odnosa; i da li je rizik odražava većinsko zabrinutost.

  • Brojanje stvari (točka 2.4.1)

Farber studija taksija u New Yorku se temelji na ranijem istraživanju Camerer et al. (1997) koji su koristili tri različita uzorka praktičnost Rad putovanja listovi-papirnatih obrazaca koji se koriste vozači za snimanje putovanja vrijeme početka, kraja vremena i vozarina. To je ranije istraživanje pokazalo je da vozači se činilo da se ciljne zarađuju: radili su manje na dane u kojima njihove plaće bile veće.

Kossinets and Watts (2009) bio je usmjeren na porijeklu homophily u društvenim mrežama. Pogledajte Wimmer and Lewis (2010) za drugačiji pristup istom problemu koji koristi podatke s Facebooka.

U kasnijem radu, kralj i njegovi kolege su dodatno istražiti online cenzuru u Kini (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Za pristup kako bi se mjerenje online cenzuru u Kini, vidi Bamman, O'Connor, and Smith (2012) . Za više informacija o statističkim metodama, poput one koja se koristi u King, Pan, and Roberts (2013) za procjenu osjećaj od 11 milijuna radnih mjesta, vidi Hopkins and King (2010) . Za više informacija o nadziranoj učenje, vidi James et al. (2013) (manje tehničke) i Hastie, Tibshirani, and Friedman (2009) (više tehnički).

  • Predviđanje (točka 2.4.2)

Predviđanje je veliki dio industrijskih podataka znanosti (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jedna vrsta predviđanja koja se obično obavlja društvenih znanstvenika su demografska predviđanja, na primjer Raftery et al. (2012) .

Google Raširenost gripe nije bio prvi projekt koristiti podatke pretraživanja za nowcast učestalost gripe. U stvari, znanstvenici u Sjedinjenim Američkim Državama (Polgreen et al. 2008; Ginsberg et al. 2009) i Švedskoj (Hulth, Rydevik, and Linde 2009) su otkrili da određeni pojmovi za pretraživanje (primjerice, "prehlada") predviđa nacionalno javno zdravstveni nadzor podaci prije nego što je pušten na slobodu. Nakon toga mnogi, mnogi drugi projekti su pokušali da koriste digitalne podatke u tragovima za detekciju nadzor bolesti, vidi Althouse et al. (2015) za pregled.

Osim pomoću digitalnih podataka u tragovima predvidjeti zdravstvene ishode, tu je i ogromna količina rada, koristeći Twitter podatke za predviđanje izbornih rezultata; za preglede vidi Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (pogl. 7), a Huberty (2015) .

Koristeći podatke pretraživanja za predviđanje učestalost gripe i korištenje Twitter podatke za predviđanje izbori su i primjeri koriste neki od digitalnih traga predvidjeti nekakav događaj na svijetu. Postoji ogroman broj studija koje su tu opću strukturu. Tablica 2.5 sadrži nekoliko drugih primjera.

Tablica 2.5: Dio popis studija koristiti neki digitalni trag predvidjeti neki događaj.
Digitalni trag Ishod Citat
Cvrkut Ured prihod Box filmova u SAD-u Asur and Huberman (2010)
Pretraga za rezanje Prodaja filmova, glazbe, knjiga i video igara u SAD-u Goel et al. (2010)
Cvrkut Dow Jones Industrial Average (US tržište dionica) Bollen, Mao, and Zeng (2011)
  • Približnih eksperimenti (točka 2.4.3)

Časopis PS politološka imali simpozij o velikom podacima, uzročnog zaključivanja i formalne teorije i Clark and Golder (2015) sažima svaki doprinos. Zbornik Journal of National Academy of Sciences, United States of America imala je simpozij o uzročnoj zaključivanja i velikih podataka, te Shiffrin (2016) sažima svaki doprinos.

Što se tiče prirodnih eksperimenata, Dunning (2012) pruža izvrstan tretman duljine knjiga. Za više informacija o korištenju Vijetnam nacrt lutrija kao prirodni eksperiment, vidi Berinsky and Chatfield (2015) . Za pristupa strojnog učenja koji pokušavaju automatski otkriti prirodne eksperimente unutar velikih izvora podataka, vidi Jensen et al. (2008) i Sharma, Hofman, and Watts (2015) .

U smislu podudaranja, jer optimističan pregled, vidi Stuart (2010) , a za pesimističnom pregled vidi Sekhon (2009) . Za više informacija o podudaranje kao neka vrsta obrezivanja, vidi Ho et al. (2007) . Za knjige koje pružaju odlične tretmane podudaranja, vidi Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , te Imbens and Rubin (2015) .