Hierdie afdeling is ontwerp om gebruik te word as 'n verwysing, eerder as om te lees as 'n vertelling.
Een soort waarneming van wat nie ingesluit is in hierdie hoofstuk is etnografie. Vir meer inligting oor etnografie in digitale ruimtes sien Boellstorff et al. (2012) , en vir meer inligting oor etnografie in gemengde digitale en fisiese ruimtes sien Lane (2016) .
Wanneer jy herb stemmingen data, is daar twee geestelike truuks wat kan jou help om die moontlike probleme wat jy kan teëkom verstaan. Eerstens, kan jy probeer om die ideale dataset dink vir jou probleem en die vergelyk dit met die datastel wat jy gebruik. Hoe stem hulle ooreen en hoe verskil hulle? As jy nie jou data jouself het in te samel, is daar waarskynlik verskil tussen wat jy wil hê en wat jy het. Maar, het jy om te besluit of hierdie verskille is klein of groot.
Tweedens, onthou dat iemand geskep en jou data wat ingesamel is vir een of ander rede. Jy moet probeer om hul redenasie verstaan. Hierdie soort omgekeerde ingenieurswese kan jou help om moontlike probleme en vooroordele in jou repurposed data te identifiseer.
Daar is geen enkele konsensus definisie van "groot data", maar baie definisies blyk te fokus op die 3 Vs: (bv, volume, verskeidenheid, en snelheid Japec et al. (2015) ). Eerder as om te fokus op die eienskappe van die data, my definisie fokus meer op die rede waarom die data geskep is.
My insluiting van die regering administratiewe data binne die kategorie van groot data is 'n bietjie ongewoon. Ander wat hierdie geval het, sluit in Legewie (2015) , Connelly et al. (2016) , en Einav and Levin (2014) . Vir meer inligting oor die waarde van die regering administratiewe data vir navorsing, sien Card et al. (2010) , Taskforce (2012) , en Grusky, Smeeding, and Snipp (2015) .
Vir die doel van administratiewe navorsing van binne die regering statistiese stelsel, veral die Amerikaanse Sensus Buro, sien Jarmin and O'Hara (2016) . Vir 'n boek lengte behandeling van die administratiewe rekords navorsing by Statistiek Swede, sien Wallgren and Wallgren (2007) .
In die hoofstuk, ek vergelyk kortliks 'n tradisionele opname soos die algemene sosiale Survey (GSS) om 'n sosiale media data bron soos Twitter. Vir 'n deeglike en sorgvuldige vergelyking tussen tradisionele opnames en sosiale media data, sien Schober et al. (2016) .
Hierdie 10 eienskappe van 'n groot data is in 'n verskeidenheid van verskillende maniere beskryf word deur 'n verskeidenheid van verskillende skrywers. Skryf dat my denke beïnvloed op hierdie kwessies sluit in: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , en Goldstone and Lupyan (2016) .
Dwarsdeur hierdie hoofstuk, het ek die term digitale spore, wat ek dink is relatief neutraal gebruik. Nog 'n gewilde term vir digitale spore is digitale voetspore (Golder and Macy 2014) , maar as Hal Abelson, Ken Ledeen, en Harry Lewis (2008) wys daarop, 'n meer gepaste term is waarskynlik digitale vingerafdrukke. Wanneer jy voetspore te skep, is jy bewus van wat gebeur en jou voetspore kan nie oor die algemeen persoonlik teruggevoer word na jou. Dieselfde is nie waar vir jou digitale spore. Trouens, jy verlaat spore al die tyd waaroor jy baie min kennis. En, alhoewel hierdie spore nie jou naam op hulle, hulle kan dikwels terug gekoppel aan jou. Met ander woorde, hulle is meer soos vingerafdrukke: onsigbare en persoonlike.
Big
Vir meer inligting oor die rede waarom groot datastelle, lewer statistiese toetse problematies, sien Lin, Lucas, and Shmueli (2013) en McFarland and McFarland (2015) . Hierdie kwessies moet navorsers lei om te fokus op praktiese betekenis eerder as statistiese betekenisvolheid.
Altyd aan
By die oorweging van altyd-op data, is dit belangrik om te oorweeg of jy presies dieselfde mense te vergelyk met verloop van tyd en of jy vergelyk 'n paar veranderende groep mense; sien byvoorbeeld Diaz et al. (2016) .
Nie-reaktief
'N klassieke boek oor nie-reaktiewe maatreëls is Webb et al. (1966) . Die voorbeelde in die boek vooraf datum die digitale era, maar hulle is nog steeds insiggewend. Vir voorbeelde van mense verander hul gedrag as gevolg van die teenwoordigheid van massa toesig, sien Penney (2016) en Brayne (2014) .
onvolledige
Vir meer inligting oor rekord koppeling, sien Dunn (1946) en Fellegi and Sunter (1969) (historiese) en Larsen and Winkler (2014) (moderne). Soortgelyke genader is ook ontwikkel in rekenaarwetenskap onder die name soos data deduplicatie, byvoorbeeld identifisering, stem ooreen, dupliseer opsporing, en dupliseer rekord opsporing (Elmagarmid, Ipeirotis, and Verykios 2007) . Daar is ook privaatheid behoud benaderings tot koppeling wat nie die oordrag van persoonlike inligting vereis teken (Schnell 2013) . Facebook het ook 'n voort te gaan om hul rekords verwys na stemgedrag; Dit is gedoen om 'n eksperiment wat ek jou sal vertel in Hoofstuk 4 evalueer (Bond et al. 2012; Jones et al. 2013) .
Vir meer inligting oor konstrukgeldigheid, sien Shadish, Cook, and Campbell (2001) , Hoofstuk 3.
ontoeganklik
Vir meer inligting oor die AOL soek log debakel, sien Ohm (2010) . Ek bied advies oor 'n vennootskap met maatskappye en regerings in Hoofstuk 4 toe ek eksperimente beskryf. 'N Aantal skrywers het kommer uitgespreek oor navorsing wat staatmaak op ontoeganklik data uitgedruk, sien Huberman (2012) en boyd and Crawford (2012) .
Een goeie manier vir universiteit navorsers om toegang tot die inligting te bekom is om te werk aan 'n maatskappy as 'n intern of besoek navorser. Benewens sodat toegang tot die inligting, sal hierdie proses ook help om die navorser meer te leer oor hoe die data geskep is, wat belangrik is vir ontleding.
Nie-verteenwoordiger
Nie-verteenwoordigendheid is 'n groot probleem vir navorsers en regerings wat wil stellings oor 'n hele bevolking te maak. Dit is minder van kommer vir maatskappye wat tipies is gefokus op hul gebruikers. Vir meer inligting oor hoe Nederland Statistiek van mening dat die kwessie van nie-verteenwoordiging van besigheid groot data, sien Buelens et al. (2014) .
In Hoofstuk 3, sal ek steekproefneming en skatting beskryf in veel groter detail. Selfs as data is nie-verteenwoordiger, onder sekere omstandighede, kan hulle word ten einde 'n goeie raming produseer.
dryf
Stelsel drif is baie moeilik om te sien van buite af. Tog het die MovieLens projek (bespreek meer in Hoofstuk 4) is hardloop vir meer as 15 jaar deur 'n akademiese navorsing groep. Daarom het hulle gedokumenteer en gedeelde inligting oor die manier waarop die stelsel met verloop van tyd ontwikkel het en hoe dit kan 'n impak analise (Harper and Konstan 2015) .
'N Aantal navorsers het gefokus op drif op Twitter: Liu, Kliman-Silver, and Mislove (2014) en Tufekci (2014) .
algoritmies skande kom
Ek hoor eers die term "algoritmies skande kom" deur Jon Kleinberg in 'n praatjie. Die belangrikste idee agter performatiwiteit is dat sommige sosiale wetenskappe teorieë "enjins nie kameras" (Mackenzie 2008) . Dit is, hulle eintlik die vorm van die wêreld eerder as om net te vang nie.
Dirty
Regeringsorganisasies statistiese agentskappe bel data skoonmaak, statistiese data redigering. De Waal, Puts, and Daas (2014) beskryf statistiese data redigering tegnieke ontwikkel vir opname data en ondersoek tot watter mate hulle van toepassing is op 'n groot data bronne, en is Puts, Daas, and Waal (2015) bied 'n paar van dieselfde idees vir 'n meer algemene publiek.
Vir 'n paar voorbeelde van studies het gefokus op spam in Twitter, Clark et al. (2016) en Chu et al. (2012) . Ten slotte, Subrahmanian et al. (2016) beskryf die resultate van die DARPA Twitter Bot Challenge.
sensitiewe
Ohm (2015) resensies vroeër navorsing oor die idee van sensitiewe inligting en bied 'n multi-faktor toets. Die vier faktore hy stel is: die waarskynlikheid van skade; waarskynlikheid van skade; teenwoordigheid van 'n vertroulike verhouding; en of die risiko te weerspieël majoritarian kommer.
Studie van taxi's in New York Farber se is gebaseer op 'n vroeëre studie deur Camerer et al. (1997) wat drie verskillende gerief monsters papier reis velle papier vorms wat gebruik word deur bestuurders te reis begin tyd aan te teken, eindtyd, en kos gebruik. Dit het vroeër studie het bevind dat bestuurders blyk te teiken verdieners wees: hulle minder gewerk dae waar hul lone was hoër.
Kossinets and Watts (2009) is gerig op die oorsprong van homophily in sosiale netwerke. Sien Wimmer and Lewis (2010) vir 'n ander benadering tot die dieselfde probleem wat data gebruik van Facebook.
In die daaropvolgende werk, het King en kollegas verdere ondersoek aanlyn sensuur in China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Vir 'n verwante benadering tot die meting van online sensuur in China, sien Bamman, O'Connor, and Smith (2012) . Vir meer inligting oor statistiese metodes soos die een wat in King, Pan, and Roberts (2013) om die sentiment van die 11 miljoen poste te skat, te sien Hopkins and King (2010) . Vir meer inligting oor toesig leer, sien James et al. (2013) (minder tegnies) en Hastie, Tibshirani, and Friedman (2009) (meer tegniese).
Vooruitskatting is 'n groot deel van industriële data wetenskap (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Een tipe voorspelling wat algemeen deur sosiale navorsers is demografiese voorspelling, byvoorbeeld Raftery et al. (2012) .
Google Flu Trends was nie die eerste projek soek data gebruik om influensa voorkoms nowcast. Trouens, navorsers in die Verenigde State van Amerika (Polgreen et al. 2008; Ginsberg et al. 2009) en Swede (Hulth, Rydevik, and Linde 2009) het bevind dat sekere soekterme (bv, "griep") voorspel nasionale openbare gesondheid toesig data voor dit vrygestel is. Daarna baie, baie ander projekte het probeer om digitale spoor data gebruik vir siektewaarneming opsporing, sien Althouse et al. (2015) vir 'n oorsig.
Benewens die gebruik van digitale spoor data vir die gesondheid uitkomste voorspel, is daar ook 'n groot hoeveelheid van die werk met behulp van Twitter data te verkiesing uitkomste voorspel is; vir resensies te sien Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Hfst. 7), en Huberty (2015) .
Die gebruik van search data te voorspel griep voorkoms en gebruik van Twitter data te voorspel verkiesings is albei voorbeelde van die gebruik van 'n soort van digitale spoor om 'n soort van gebeurtenis in die wêreld voorspel. Daar 'n enorme aantal studies wat hierdie algemene struktuur het. Table 2.5 sluit 'n paar ander voorbeelde.
digitale spoor | uitkoms | Citation |
---|---|---|
Loket inkomste van films in die VSA | Asur and Huberman (2010) | |
Soek logs | Verkope van films, musiek, boeke, en video-speletjies in die VSA | Goel et al. (2010) |
Dow Jones Industrial Average (Amerikaanse aandelemark) | Bollen, Mao, and Zeng (2011) |
Die tydskrif PS Politieke Wetenskap het 'n simposium oor groot data, kousale inferensie, en formele teorie, en Clark and Golder (2015) gee 'n opsomming elke bydrae. Die tydskrif Verrigtinge van die Nasionale Akademie van Wetenskappe van die Verenigde State van Amerika het 'n simposium oor kousale inferensie en groot data, en Shiffrin (2016) gee 'n opsomming elke bydrae.
In terme van natuurlike eksperimente, Dunning (2012) bied 'n uitstekende boek lengte behandeling. Vir meer inligting oor die gebruik van die Viëtnam-konsep lotery as 'n natuurlike eksperiment, sien Berinsky and Chatfield (2015) . Vir masjien leerbenaderings wat probeer om outomaties te ontdek natuurlike eksperimente binnekant van die groot data bronne, sien Jensen et al. (2008) en Sharma, Hofman, and Watts (2015) .
In terme van wat ooreenstem, vir 'n optimistiese hersiening, sien Stuart (2010) , en vir 'n pessimistiese hersiening sien Sekhon (2009) . Vir meer inligting oor wat ooreenstem met 'n soort van snoei, sien Ho et al. (2007) . Vir boeke wat uitstekende behandeling van bypassende verskaf, sien Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , en Imbens and Rubin (2015) .