Dizze paragraaf is ûntwurpen om brûkt wurde as in ferwizing, earder as om te lêzen as in ferhaal.
Ien soarte fan observearjen dat is net opnaam yn dit haadstik is etnografy. Foar mear op etnografy yn digitale romten sjogge Boellstorff et al. (2012) , en foar mear op etnografy yn mingde digitaal en fysike romte sjogge Lane (2016) .
As jo in nije bestimming gegevens, binne der twa mentale tricks dy't jo helpe jo begripe it mooglike problemen dy't jo miskien tsjinkomme. Earst, kinne jo besykje te tinken út de ideale dataset foar jo probleem en de ferlykje dat oan de dataset dat jo brûke. Hoe binne se ek en hoe binne se oars? As jo net sammelje jo gegevens sels, binne der nei alle gedachten te wêzen ferskil tusken wat jo wolle en wat jo hawwe. Mar, je moatte beslute oft dy ferskillen binne lytse of grutte.
Twadde, tink dat immen makke en sammele jo gegevens foar guon reden. Jo moatte besykje te begripen harren redenearring. Dit soarte fan omkearde-engineering kin helpe jo identifisearjen mooglike problemen en biases yn jo repurposed gegevens.
Der is gjin inkel konsensus definysje fan "grutte gegevens", mar in soad definysjes lykje te rjochtsjen op de 3 Vs: volume, ferskaat, en snelheid (bygelyks, Japec et al. (2015) ). Leaver as yn te setten op de skaaimerken fan de gegevens, myn definysje rjochtet him mear op wêrom't de gegevens waard makke.
Myn opnimmen fan de oerheid bestjoerlike gegevens binnen de kategory fan grutte gegevens is in bytsje ûngewoan. Oaren dy't hawwe makke dat gefal, binne Legewie (2015) , Connelly et al. (2016) , en Einav and Levin (2014) . Foar mear oer it wearde fan de oerheid bestjoerlike gegevens foar ûndersyk, sjoch Card et al. (2010) , Taskforce (2012) , en Grusky, Smeeding, and Snipp (2015) .
Foar in sicht fan bestjoerlike ûndersyk út binnen de oerheid statistyske systeem, benammen de US Census Bureau, sjoch Jarmin and O'Hara (2016) . Foar in boek lingte behanneling fan de bestjoerlike records ûndersyk op Statistiken Sweden, sjoch Wallgren and Wallgren (2007) .
Yn it haadstik, ik koart ferlike in tradisjonele ûndersyk lykas it Algemien Maatskiplik Survey (GSS) oan in sosjale media gegevens boarne lykas Twitter. Foar in yngeande en foarsichtich ferliking tusken tradisjonele ûndersiken en sosjale media gegevens, sjoch Schober et al. (2016) .
Dy 10 skaaimerken fan grutte gegevens binne beskreaun yn in ferskaat oan ferskillende manieren troch in ferskaat oan ferskillende auteurs. Skriuwen dy't beynfloede myn tinken op dizze saken binne: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , en Goldstone and Lupyan (2016) .
Yn dit haadstik, ik haw brûkt de term digitale spoaren, dat ik tink is relatyf neutraal. In oare populêre term foar digitale spoaren is digitale fuotspoaren (Golder and Macy 2014) , mar as Hal Abelson, Ken Ledeen, en Harry Lewis (2008) wize út, in mear passende term is nei alle gedachten digitale fingerprinten. As jo meitsje fuotspoaren, jo binne bewust fan wat der bart en jo fuotspoaren kin net algemien wurde traced oan dy persoanlik. Itselde is net wier foar jo digitale spoaren. Yn feite, jo binne leaving spoaren al de tiid oer dêr't jo hiel bytsje kennis. En, hoewol't dy spoaren net hawwe jo namme op har, se kinne faak wurde keppele werom oan jo. Yn oare wurden, se binne mear as fingerprinten: ûnsichtber en persoanlik fêststellen.
Grut
Foar mear op wêrom grutte datasets, render statistyske tests problematysk, sjoch Lin, Lucas, and Shmueli (2013) en McFarland and McFarland (2015) . Dy saken moatte liede ûndersikers te rjochtsjen op praktyske betsjutting ynstee statistyske betsjutting.
Altyd op
As sjoen altyd-op gegevens, is it fan belang om te beskôgje oft jo binne fergelykjen de eksakte deselde minsken oer tiid of oft jo binne fergelykjen guon feroarjende groep fan minsken; sjoch bygelyks, Diaz et al. (2016) .
Non-reaktive
In klassike boek op net-reaktive maatregels is Webb et al. (1966) . De foarbylden yn it boek pre-date de digitale leeftyd, mar se binne noch ferljochtsje. Foar foarbylden fan minsken feroaret harren gedrach fanwege de oanwêzigens fan de massa tafersjoch, sjoch Penney (2016) en Brayne (2014) .
Ûnfolslein
Foar mear op record linkage, sjoch Dunn (1946) en Fellegi and Sunter (1969) (histoaryske) en Larsen and Winkler (2014) (moderne). Similar benadere hawwe ek al ûntwikkele yn kompjûter wittenskip ûnder de nammen lykas gegevens deduplication, bygelyks identifikaasje, namme matching, duplicate opspoaring, en duplicate record detection (Elmagarmid, Ipeirotis, and Verykios 2007) . Der binne ek privacy behâld oanpakken te nimmen linkage dy't net nedich de oerdracht fan persoanlik sinjalearjen ynformaasje (Schnell 2013) . Facebook ek hat ûntwikkele in fierder te keppele harren platen oan stimgedrach; dizze waard dien nei evaluearje in eksperimint dat ik fertelle jo oer yn haadstik 4 (Bond et al. 2012; Jones et al. 2013) .
Foar mear op matearje jildichheid, sjoch Shadish, Cook, and Campbell (2001) , haadstik 3.
net tagonklik
Foar mear op de AOL sykje log debacle, sjoch Ohm (2010) . Ik biede advys oer partner te bedriuwen en oerheden yn haadstik 4 doe't ik beskriuwe eksperiminten. In tal fan skriuwers hawwe útsprutsen soargen oer ûndersyk dat fertrout op ûntagonklik gegevens, sjoch Huberman (2012) en boyd and Crawford (2012) .
Ien goede manier foar universiteit ûndersikers te krijen gegevens tagong is oan it wurk by in bedriuw as stazjêr of besite ûndersiker. Neist it ynskeakeljen fan gegevens tagong, dit proses sil ek helpe de ûndersiker leare mear oer hoe't de gegevens wie makke, dat is wichtich foar analyze.
Non-fertsjintwurdiger
Non-representativeness is in grutte probleem foar ûndersikers en oerheden dy't wolle om útspraken oer in komplete populaasje. Dat is minder fan soarch foar bedriuwen dy't meastal rjochte op harren brûkers. Foar mear op hoe't Statistiken Nederlân beskôget de dei fan net-representativeness fan saken grutte gegevens, sjoch Buelens et al. (2014) .
Yn haadstik 3, ik beskriuwe sampling en schatting yn folle grutter detail. Sels as gegevens binne net-represintatyf, ûnder beskate betingsten, se kinne wurde woegen te produsearjen goed rûzings.
driuwe
System drift is tige dreech om te sjen fan it bûten. Lykwols, de MovieLens projekt (besprutsen mear yn haadstik 4) is rinne foar mear as 15 jier troch in akademysk ûndersyk groep. Dêrom, hja hawwe dokumintearre en dield ynformaasje oer de wei dy't it systeem hat him ûntwikkele oer tiid en hoe't dit miskien effekt analyse (Harper and Konstan 2015) .
In oantal fan gelearden hawwe rjochte op drift yn Twitter: Liu, Kliman-Silver, and Mislove (2014) en Tufekci (2014) .
Algorithmically biskamme
Ik earst hearde de term "algorithmically biskamme" brûkt troch Jon Kleinberg yn in oerlis. De wichtichste idee efter performativity is dat guon sosjale wittenskip teoryen binne "motoren gjin kamera" (Mackenzie 2008) . Dat is, se eins stal de wrâld earder as gewoan fêstlizze it.
Smoarch
Bestjoersrjocht statistyske ynstânsjes neame gegevens cleaning, statistyske gegevens editing. De Waal, Puts, and Daas (2014) beskriuwe statistyske gegevens editing techniken ûntwikkele foar ûndersyk gegevens en ûndersykje nei hokker mjitte se binne fan tapassing foar grutte gegevens boarnen, en Puts, Daas, and Waal (2015) presintearret guon fan de deselde ideeën foar in mear algemien publyk.
Foar guon foarbylden fan stúdzjes rjochte op spam yn Twitter, Clark et al. (2016) en Chu et al. (2012) . Ta beslút, Subrahmanian et al. (2016) beskriuwt de resultaten fan de DARPA Twitter Bot Challenge.
Gefoelich
Ohm (2015) reviews earder ûndersyk op it idee fan gefoelige ynformaasje en biedt in multi-factor test. De fjouwer faktoaren er stelt binne: de kâns fan kwea; kâns fan kwea; oanwêzigens fan in fertroulik relaasje; en oft de risiko wjerspegelje majoritarian soargen.
Keiswetter syn stúdzje fan taksys yn New York waard basearre op in earder ûndersyk troch Camerer et al. (1997) , dat brûkt trije ferskillende gemak gebrûk fan papier trip sheets-papier foarmen brûkt troch bestjoerders te nimmen tocht start tiid, ein tiid, en fare. Dit earder ûndersyk fûn dat sjauffeurs like te wêzen doelgroep earners: se wurke minder op dagen dêr't harren lean wienen heger.
Kossinets and Watts (2009) wie rjochte op de oarsprong fan homophily yn sosjale netwurken. Sjoch Wimmer and Lewis (2010) foar in oare oanpak fan it itselde probleem dat brûkt gegevens fan Facebook.
Yn lettere wurk, kening en kollega hawwe fierder ferkend online sensuer yn Sina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Foar in besibbe oanpak te mjitten online sensuer yn Sina, sjoch Bamman, O'Connor, and Smith (2012) . Foar mear op statistyske metoaden lykas de iene brûkt yn King, Pan, and Roberts (2013) te skatten it fiellen fan 'e 11 miljoen berichten, sjoch Hopkins and King (2010) . Foar mear op begelaat learen, sjoch James et al. (2013) (minder technyske) en Hastie, Tibshirani, and Friedman (2009) (mear technyske).
Forecasting is in grut part fan de yndustriële gegevens wittenskip (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ien soarte fan forecasting dy't faak dien troch sosjale ûndersikers binne demografyske forecasting, bygelyks Raftery et al. (2012) .
Google Flu Trends wie net de earste projekt te brûken sykje gegevens te nowcast influenza prevalence. Yn feite, ûndersikers yn 'e Feriene Steaten (Polgreen et al. 2008; Ginsberg et al. 2009) en Sweden (Hulth, Rydevik, and Linde 2009) hawwe fûn dat bepaalde syktermen (bygelyks, "gryp") foarseine nasjonale folkssûnens tafersjoch gegevens foardat it waard útbrocht. Dêrnei in soad, in protte oare projekten hawwe besocht te brûken digitale spoare gegevens foar sykte tafersjoch opspoaren, sjoch Althouse et al. (2015) foar in resinsje.
Neist mei help fan digitale spoare gegevens te foarsizzen sûnens útkomsten, der hat ek al in grutte bedrach fan wurk mei help fan Twitter gegevens te foarsizzen ferkiezings útkomsten; foar beoordelingen sjogge Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), en Huberty (2015) .
Mei help sykje gegevens oan it foarsizzen fan influenza foarkommen en mei help fan Twitter gegevens te foarsizzen ferkiezings binne beide foarbylden fan it brûken fan in soarte fan digitale spoare te foarsizze wat soarte fan barren yn 'e wrâld. Der wurdt in hiel soad fan ûndersiken dy't hawwe dizze algemiene struktuer. Tabel 2.5 befettet in pear oare foarbylden.
digitale spoor | Útkomst | Citation |
---|---|---|
Kassa ynkomsten fan films yn 'e Feriene Steaten | Asur and Huberman (2010) | |
Sykje logs | Ferkeap fan films, muzyk, boeken, en fideospultsjes yn de Amerikaanske | Goel et al. (2010) |
Dow Jones Industrial Gemiddeld (US stock merk) | Bollen, Mao, and Zeng (2011) |
It tydskrift PS politikology hie in sympoasium op grutte gegevens, kausale konklúzje, en formeel teory, en Clark and Golder (2015) fettet eltse bydrage. It tydskrift Skiednis fan 'e Nasjonale Akademy fan Wittenskippen fan de Feriene Steaten fan Amearika hie in sympoasium op kausale konklúzje en grutte gegevens, en Shiffrin (2016) fettet eltse bydrage.
Yn termen fan natuerlike eksperiminten, Dunning (2012) jout in treflik boek lingte behanneling. Foar mear op help fan de Fietnam ûntwerp lottery as in natuerlike eksperimint, sjoch Berinsky and Chatfield (2015) . Foar masine learning oanpakken dy't besykje om automatysk ûntdekke natuerlike eksperiminten de binnenkant fan de grutte gegevens boarnen, sjoch Jensen et al. (2008) en Sharma, Hofman, and Watts (2015) .
Yn termen fan oerienkommende, foar in optimistysk review, sjoch Stuart (2010) , en foar in pessimistyske resinsje sjen Sekhon (2009) . Foar mear op oerienkommende as in soarte fan pruning, sjoch Ho et al. (2007) . Foar boeken dy't soargje poerbêst behannelingen fan oerienkommende, sjoch Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , en Imbens and Rubin (2015) .