Dodatne komentar

Ta del je namenjen za uporabo kot referenca, namesto da se glasi pripoved.

  • Uvod (oddelek 2.1)

Ena vrsta opazovanja je, da ni vključena v tem poglavju je etnografijo. Za več informacij o etnografije v digitalnih prostorov glej Boellstorff et al. (2012) , in za več informacij o etnografije v mešanih digitalne in fizične prostore glej Lane (2016) .

  • Big podatkov (oddelek 2.2)

Ko repurposing podatke, obstajata dve miselni triki, ki vam lahko pomagajo razumeti morebitne težave, do katerih lahko pride. Prvič, lahko poskusite zamisliti idealno nabor podatkov za vaš problem in primerjate, da nabora podatkov, ki ga uporabljate. Kako so podobni in kako se razlikujejo? Če niste zbrali Vaši podatki sami, je verjetno, da bo razlika med tem, kar si želite in kaj imaš. Ampak, moraš odločiti, če so te razlike manjše ali večje.

Drugič, ne pozabite, da je nekdo ustvaril in zbrali podatke iz nekega razloga. Morate poskusiti razumeti njihovo obrazložitev. Te vrste povratne inženirstvom lahko pomagajo ugotoviti morebitne težave in pristranskosti v vaših repurposed podatkov.

Ne obstaja ena sama definicija soglasje "big podatkov", vendar je veliko opredelitev se zdi, da se osredotoči na 3 Vs: (npr obseg, raznolikost in hitrost Japec et al. (2015) ). Namesto da se osredotoča na značilnosti podatkov, moja definicija bolj osredotoča na to, zakaj so bili podatki ustvarjena.

Moj vključitev administrativnih podatkov državnih znotraj kategoriji velikih podatkov je malo nenavadno. Drugi, ki so se ta primer, vključujejo Legewie (2015) , Connelly et al. (2016) , ter Einav and Levin (2014) . Za več informacij o vrednosti administrativnih podatkov vlade za raziskave, glej Card et al. (2010) , Taskforce (2012) , in Grusky, Smeeding, and Snipp (2015) .

Za pogledom upravno raziskav od znotraj statističnega sistema vlade, zlasti US Census Bureau, glej Jarmin and O'Hara (2016) . Za zdravljenje dolžino knjige raziskav o upravnih evidenc na švedskem statističnem glej Wallgren and Wallgren (2007) .

V poglavju bom na kratko v primerjavi s tradicionalno raziskavo kot družboslovne raziskave Generalne (GSS) na vir socialne nosilcev podatkov, kot je Twitter. Za temeljito in skrbno primerjavo med tradicionalnimi raziskav in podatkov družabnih medijev, glejte Schober et al. (2016) .

  • Skupne značilnosti velikih podatkov (oddelek 2.3)

Teh 10 značilnosti velikih podatkov so opisani v različnih načinov z različnih avtorjev. Pisanje, ki vplivajo moje razmišljanje o teh vprašanjih, vključujejo: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , in Goldstone and Lupyan (2016) .

V tem poglavju sem uporabil izraz digitalnih sledi, ki mislim, da je razmeroma nevtralen. Druga priljubljena izraz za digitalne sledi, je digitalni odtis (Golder and Macy 2014) , ampak kot Hal Abelson, Ken Ledeen in Harry Lewis (2008) poudarjajo, bolj primeren izraz je verjetno digitalni prstni odtisi. Ko ustvarite odtise, se zavedate, kaj se dogaja in svoje stopinje na splošno ni mogoče izslediti za vas osebno. Enako pa ne velja za digitalne sledi. V bistvu, ste zapustili sledove ves čas, o katerem imate zelo malo znanja. In, čeprav so ti sledovi nimajo svoje ime na njih, jih je pogosto mogoče povezati nazaj. Z drugimi besedami, da so bolj kot so prstni odtisi: nevidna in osebno identifikacijo.

Big

Za več o tem, zakaj velike podatkovne nize, postanejo statistične teste problematična, glej Lin, Lucas, and Shmueli (2013) in McFarland and McFarland (2015) . Ta vprašanja bi morala voditi raziskovalcem, da se osredotoči na praktičnega pomena in ne statistične pomembnosti.

Vedno vklopljen

Pri odločanju vedno-na podatkih, je treba preučiti, ali ste primerjajo natančno iste ljudi v daljšem časovnem obdobju, ali ste primerjali nekaj spreminjajoče skupino ljudi; glej na primer Diaz et al. (2016) .

Nereaktivni

Klasična knjiga o ne-reaktivnih ukrepov je Webb et al. (1966) . Primeri v knjižni pre-datumu digitalni dobi, vendar so še vedno svetleče. Za primere ljudi, spreminjanja njihovega vedenja zaradi prisotnosti množičnega nadzora, glej Penney (2016) in Brayne (2014) .

nepopolna

Za več informacij o rekordnem povezovanja, glej Dunn (1946) in Fellegi and Sunter (1969) (zgodovinsko) in Larsen and Winkler (2014) (sodobno). Podobno obrnila so bili razviti tudi na področju računalništva pod imeni, kot so deduplication podatkov, identifikacijo primer, ime ujemanja dvojnik odkrivanje in podvojene odkrivanje zapis (Elmagarmid, Ipeirotis, and Verykios 2007) . Obstajajo tudi zasebnost ohranjanje pristope za snemanje povezavo, ki ne zahtevajo prenos osebnih podatkih (Schnell 2013) . Facebook je prav tako razvil nadaljuje povezati svoje zapise na glasovalno obnašanje; To se je zgodilo, da oceni poskus, da vam bom povedal o tem v poglavju 4 (Bond et al. 2012; Jones et al. 2013) .

Za več informacij o veljavnosti konstrukta, glej Shadish, Cook, and Campbell (2001) , poglavje 3.

nedostopna

Za več informacij o AOL iskanje dnevnika polomu, glej Ohm (2010) . I ponujajo nasvete o partnerstvu s podjetji in vladami v poglavju 4, ko bom opisal poskuse. Številni avtorji so izrazili zaskrbljenost zaradi raziskav, ki temelji na nedostopnih podatkov, glej Huberman (2012) in boyd and Crawford (2012) .

En dober način za univerzitetni raziskovalci, da pridobijo dostop do podatkov je, da delo v podjetju kot pripravnik ali gostujoči raziskovalec. Poleg tega, da omogoča dostop do podatkov, bo ta proces pomaga tudi raziskovalec izvedeti več o tem, kako je nastal podatkov, kar je pomembno za analizo.

Non-zastopnik

Non-reprezentativnost je velik problem za raziskovalce in vlade, ki želijo, da se izjave o celotne populacije. To je manj skrbi za podjetja, ki so običajno osredotočeni na svoje uporabnike. Za več informacij o tem, kako statistika Nizozemska meni, da je vprašanje prepovedi reprezentativnosti poslovnih velikih podatkov, glej Buelens et al. (2014) .

V poglavju 3, bom opisati vzorčenje in ocenjevanje v veliko bolj podrobno. Tudi če so podatki, ki niso reprezentativni, pod določenimi pogoji, se lahko prilagojene za proizvodnjo dobre ocene.

Drifting

Sistem drift je zelo težko videti od zunaj. Vendar pa je bil projekt MovieLens (razpravljalo več v poglavju 4), ki delujejo že več kot 15 let, z akademsko raziskovalne skupine. Zato so dokumentirani in delijo informacije o tem, kako da se je sistem razvijal skozi čas in kako je ta analiza bi vplivalo (Harper and Konstan 2015) .

Številni znanstveniki so se osredotočili na drift na Twitterju: Liu, Kliman-Silver, and Mislove (2014) in Tufekci (2014) .

algoritmom utišala

Sem prvič slišal izraz "algoritmom presenetljivi" Jon Kleinberg uporablja v pogovoru. Glavna ideja performativnosti je, da so nekatere teorije družbene znanosti "motorji niso kamere" (Mackenzie 2008) . To pomeni, da dejansko oblikujejo svet, ne pa samo zajemanje.

Dirty

Vladne statistične agencije poklical čiščenje podatkov, statistično urejanje podatkov. De Waal, Puts, and Daas (2014) opisuje statistične metode za urejanje podatkov, razvite za podatke raziskave in preveri, v kakšnem obsegu se uporabljajo do velikih podatkovnih virov, in Puts, Daas, and Waal (2015) predstavlja nekatere iste ideje za bolj splošno občinstvo.

Za nekatere primere študij, ki se osredotočajo na spam na Twitter, Clark et al. (2016) in Chu et al. (2012) . Končno, Subrahmanian et al. (2016) opisuje rezultate DARPA Twitter Bot Challenge.

Sensitive

Ohm (2015) ocenjuje prejšnje raziskave na ideji občutljivih informacij in ponuja test multi-faktor. Štirje dejavniki jih predlaga, so: verjetnost škode; verjetnost škode; Prisotnost zaupnem razmerju; in ali tveganja odražajo večinski skrbi.

  • Štetje stvari (oddelek 2.4.1)

Študija Farber je taksijev v New Yorku je temeljila na prejšnji študiji Camerer et al. (1997) , ki se uporablja tri različne priročno vzorce potovanja papir oblik listov papirja, ki ga vozniki, ki se uporabljajo za snemanje potovanja začetni čas, končni čas, in fare. Ta predhodna študija je pokazala, da se je zdelo voznikom, da so ciljni dohodki: delali manj na dan, ko so bile njihove plače višje.

Kossinets and Watts (2009) je bila usmerjena na izvor homophily v socialnih omrežjih. Glej Wimmer and Lewis (2010) za drugačen pristop k isti problem, ki uporablja podatke iz Facebook.

V nadaljnje delo, so kralj in kolegi nadalje raziskati spletno cenzuro na Kitajskem (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Za povezane pristop k merjenju spletno cenzuro na Kitajskem, glej Bamman, O'Connor, and Smith (2012) . Za več informacij o statističnih metodah, kot je bil uporabljen v King, Pan, and Roberts (2013) se oceni čustvo 11 milijonov delovnih mest, glej Hopkins and King (2010) . Za več informacij o nadzorovanega učenja, glej James et al. (2013) (manj tehnično) in Hastie, Tibshirani, and Friedman (2009) (več tehničnih).

  • Napovedovanje (oddelek 2.4.2)

Napovedovanje je velik del industrijskih podatkov znanosti (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ena vrsta napovedi, ki se običajno opravi z družbenimi raziskovalci so demografske napovedi, na primer Raftery et al. (2012) .

Google Flu Trends ni bil prvi projekt za uporabo podatkov iskanja nowcast razširjenosti gripe. V resnici so raziskovalci v Združenih državah Amerike (Polgreen et al. 2008; Ginsberg et al. 2009) in na Švedskem (Hulth, Rydevik, and Linde 2009) so ugotovili, da določene iskalne poizvedbe (npr, "gripa") napovedal nacionalni nadzor javnega zdravja podatki pred njo je bila sproščena. Kasneje so mnogi, mnogi drugi projekti poskušali uporabiti podatke digitalnih sledov za odkrivanje nadzora bolezni, glej Althouse et al. (2015) za pregled.

Poleg tega, da na podlagi podatkov, digitalnih sledovih napovedati zdravstvenih rezultatov, je prišlo tudi veliko dela s podatki, Twitter napovedati volilnih rezultatov; za preglede glej Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) in Huberty (2015) .

Uporaba podatkov iskanja za napovedovanje razširjenosti gripe in uporabo podatkov, Twitter napovedati volitve so tako primeri uporabe nekakšno digitalno sled napovedati nekakšen dogodek na svetu. Obstaja ogromno število študij, ki imajo to splošno strukturo. Tabela 2.5 vključuje nekaj drugih primerov.

Tabela 2.5: Delni seznam študij uporabo nekaterih digitalno sled napovedati nekaj dogodek.
Digitalni sled Izid Navedba
Twitter Blagajna prihodki filmov v ZDA Asur and Huberman (2010)
iskanje dnevniki Prodaja filmov, glasbe, knjig in video iger v ZDA Goel et al. (2010)
Twitter Dow Jones Industrial Average (US borzi) Bollen, Mao, and Zeng (2011)
  • Približevanjem poskusi (oddelek 2.4.3)

Revija PS Political Science imeli simpozij o velikem podatkov, vzročno sklepanje in formalne teorije, in Clark and Golder (2015) povzema vsak prispevek. Zbornik list National Academy of Sciences Združenih držav Amerike so imeli simpozij o vzročno sklepanje in velikih podatkov, in Shiffrin (2016) povzema vsak prispevek.

Z vidika naravnih poskusov, Dunning (2012) zagotavlja odlično zdravljenje pri dolžini knjige. Za več informacij o uporabi osnutek loteriji Vietnam kot naravni eksperiment, glej Berinsky and Chatfield (2015) . Za strojnega učenja pristope, ki poskušajo samodejno odkriti naravne poskusi znotraj iz velikih podatkovnih virov, glej Jensen et al. (2008) in Sharma, Hofman, and Watts (2015) .

V smislu prilagajanja, za optimističnega pregled, glej Stuart (2010) , in za pesimistično pregled glej Sekhon (2009) . Več na ujemanju kot neke vrste obrezovanja glej Ho et al. (2007) . Za knjige, ki zagotavljajo odlične storitve iz ujemanja, glej Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , in Imbens and Rubin (2015) .