Ien soarte fan beoardieling dat net yn dit haadstik opnommen is etnografy. Foar mear oer etnografy yn digitale romten, sjoch Boellstorff et al. (2012) , en mear oer etnografy yn mingde digitale en fysike romten, sjoch Lane (2016) .
Der is gjin inkele konsensus-definysje fan "grutte gegevens", mar in soad definysjes lykje op 'e "3 Vs": fokus, ferskaat, en snelheid (bygelyks Japec et al. (2015) ). Sjoch De Mauro et al. (2015) foar in oersicht fan definysjes.
Myn opnimming fan bestjoerlike bestjoerlike gegevens yn 'e kategory fan grutte gegevens is in bytsje geweldig, hoewol't oaren ek dit gefal makke hawwe, wêrûnder Legewie (2015) , Connelly et al. (2016) en Einav and Levin (2014) . Foar mear oer de wearde fan bestjoerlike bestjoerlike gegevens foar ûndersyk, sjoch Card et al. (2010) , Adminstrative Data Taskforce (2012) , en Grusky, Smeeding, and Snipp (2015) .
Foar in sicht fan bestjoerlike ûndersiken fan binnen it bestjoerlik statistysk systeem, benammen it US Census Bureau, sjogge Jarmin and O'Hara (2016) . Foar in boeklange behanneling fan it ûndersyk fan bestjoerlike registers by Statistiken Sweden, sjoch Wallgren and Wallgren (2007) .
Yn it haadstik fergelike ik koartlyn in tradisjoneel ûndersyk lykas de Algemiene Sosjale Survey (GSS) mei in sosjale media-gegevensboarne lykas Twitter. Foar in grou en sjogge fergeliking tusken tradisjonele surveys en sosjale media-data, sjoch Schober et al. (2016) .
Dizze 10 skaaimerken fan grutte gegevens binne op in ferskaat oan ferskillende manieren beskreaun troch in ferskaat fan ferskate auteurs. Skriuwen dy't my tinke oan dizze tema's beynfloedet lykas Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , en Goldstone and Lupyan (2016) .
Yn dit haadstik haw ik de term digitale spoaren brûkt , dy't ik tinke is relatyf neutraal. In oare populêre term foar digitale spoaren is digitale fuotprinten (Golder and Macy 2014) , mar as Hal Abelson, Ken Ledeen, en Harry Lewis (2008) besjogge, in passende term is wierskynlik digitale fingerprints . As jo fuotprinten oanmeitsje, binne jo bewust fan wat der bart en jo fuotprinten kinne net algemien foar jo persoanlik ferwachte wurde. Itselde is net wier foar jo digitale spoaren. Yn feite litte jo de spoaren altyd ferlitte oer hokker jo lyts kennis hawwe. En, hoewol dizze spoaren net hawwe jo namme op har, kinne se faak fergees wêze oan jo. Mei oare wurden, se binne mear as fingerprints: ûnsichtber en persoanlik identifisearjen.
Foar mear oer wêrom grutte datasetten statistyske toetsen probearje, sjoch M. Lin, Lucas, and Shmueli (2013) en McFarland and McFarland (2015) . Dizze problemen moatte ûndersikers liede ta rjochtsjen op praktyske betsjutting earder as statistyske betsjutting.
Foar mear oer hoe't Raj Chetty en kollega's tagong krije ta de belestingtsjinners, sjoch Mervis (2014) .
Grutte datasetten kinne ek komputative problemen meitsje dy't oer it generaal boppe de mooglikheden fan in inkele kompjûter binne. Dêrtroch ûndersiikje ûndersikers op grutte datasetten faak de wurken ferspraat oer in protte komputer, in proses dat soms parallele programmearring neamd wurdt . Foar in ynlieding foar parallele programmearring, benammen in taal neamd Hadoop, sjoch Vo and Silvia (2016) .
Wannear't jo altyd op gegevens beskôgje, is it wichtich om te prüjen oft jo de krekte deselde minsken yn 't fergelykjen ferwize of as jo fergelykje wat feroaring fan groepen fergelykje; Sjoch bygelyks Diaz et al. (2016) .
In klassike boek oer net reaktive maatregels is Webb et al. (1966) . De foarbylden yn dat boek bepale de digitale leeftiid, mar se binne noch altyd ljocht. Foar foarbylden fan minsken feroarjen fan har gedrach fanwegen de oanwêzichheid fan massaugeraasje, sjoch Penney (2016) en Brayne (2014) .
Reactiviteit is nau ferbûn mei wat ûndersikers neamt (Orne 1962; Zizzo 2010) en de Hawthorne-effekt (Adair 1984; Levitt and List 2011) .
For more on record linkage, sjoch Dunn (1946) en Fellegi and Sunter (1969) (histoarysk) en Larsen and Winkler (2014) (moderne). Ferlykbere oanwêzigen binne ek ûntwikkele yn kompjûterwittens ûnder nammen lykas gegevensdupuplikaasje, eksimplaar fan identiteiten, nammen oerienkomme, dûbele detectie en dûbele rekkenbewurking (Elmagarmid, Ipeirotis, and Verykios 2007) . Der binne ek privacy-oanwêzige oanwêzigen om keppeling op te nimmen dat de transmission fan persoanlike identifikaasje net nedich is (Schnell 2013) . Facebook hat ek in proses ûntwikkele om har registers te keppeljen foar it stimulearjen fan gedrach; Dit waard dien om in eksperimint te evaluearjen dat ik jo fertelle oer yn haadstik 4 (Bond et al. 2012; Jones et al. 2013) .
Foar mear op jildichheid bouwe, sjoch haadstik 3 fan Shadish, Cook, and Campbell (2001) .
Foar mear op it AOL-sykaksje-debak, sjoch Ohm (2010) . Ik jou it advys oer partnersearjen mei bedriuwen en oerheden yn haadstik 4 as ik eksperiminten beskriuwt. In oantal auteurs hawwe deugden ekspresje oer ûndersiik dy't op net-tagonklike data berikt, sjoch Huberman (2012) en boyd and Crawford (2012) .
Ien goede manier foar universiteit ûndersikers te krijen gegevens tagong is oan it wurk by in bedriuw as stazjêr of besite ûndersiker. Neist it ynskeakeljen fan gegevens tagong, dit proses sil ek helpe de ûndersiker leare mear oer hoe't de gegevens wie makke, dat is wichtich foar analyze.
Om it tagong te krijen ta Mervis (2014) bespreket Mervis (2014) , hoe't Raj Chetty en kollega's tagong krije ta tagonklikens fan 'e belestingtsjinsten dy't brûkt waarden yn har ûndersyk oer sosjale mobiliteit.
Foar mear oer de skiednis fan "represintative" as konsept, sjoch Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , en Kruskal and Mosteller (1980) .
My gearfloeden fan it wurk fan Snow en it wurk fan Doll en Hill waarden koart. For more on Snow's work on cholera, see Freedman (1991) . Foar mear oer de Britske doktersûndersiken sjoch Doll et al. (2004) en Keating (2014) .
In soad ûndersikers sille ferrast wurde om te learen dat hoewol Doll en Hill gegevens sammele hawwe fan froulike dokters en fan dokters ûnder 35, hawwe se yntinsyf dizze gebrûk net yn har earste analyze brûkt. As se it argumint hawwe: "Sûnt langer kanker is relatyf seldsume yn froulju en manlju ûnder 35, binne nuttige sifers gewoan te krijen yn 'e groepen foar guon jierren te kommen. Yn dit foarrige rapport hawwe wy ús omtinken foar manlju fan 35 en boppe beskreaun. " Rothman, Gallacher, and Hatch (2013) , dy't de provokative titel hat" Wêrom represintative moet wurde moatte ", meitsje in algemien argumint foar de wearde fan yntinsyf skeppe net-represintative gegevens.
Unrepresentaasje is in wichtich probleem foar ûndersikers en regearingen dy't in ferklearring fan in hiele befolking meitsje wolle. Dit is minder fan in soarch foar bedriuwen, dy't typysk rjochte binne op har brûkers. Foar mear oer hoe't Statistik Nederlân it probleem fan nonrepresentativiteit fan bedriuwige grutte gegevens beskôget, sjoch Buelens et al. (2014) .
Foar foarbylden fan ûndersikers dy't dreech hawwe oer net-fertsjinwurdlik aard fan grutte gegevensboarnen, sjoch boyd and Crawford (2012) , K. Lewis (2015b) , en Hargittai (2015) .
Foar in mear detaillearre fergeliking fan de doelen fan sosjale ûndersiken en epidemyalyske ûndersiken, sjoch Keiding and Louis (2016) .
Om mear te besykjen om Twitter te brûken om Jungherr (2013) generalisaasjes oer kiezers te meitsjen, benammen it gefal fan 'e Dútse ferkiezings 2009, sjoch Jungherr (2013) en Jungherr (2015) . Nei it wurk fan Tumasjan et al. (2010) ûndersikers fan 'e wrâld hawwe gebrûk fan metoades brûkt, lykas gebrûk fan sentimens analyze fan positive en negative ferwizings fan' e partijen - om de mooglikheid te meitsjen fan Twitter-gegevens om in ferskaat oan ferskillende types fan ferkiezings te (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hjir is lykwols hoe't Huberty (2015) de útkomsten fan dizze besikings Huberty (2015) ferkiezingen ferklearre:
"Alle bekende foarbyldmethoden basearre op sosjale media binne mislearre as ûnderstreke fan de easken fan 'e wiere nei foar kommende wittenskiplike prestaasje. Dizze mislearsten ferskynden op grûn fan fundamentale eigenskippen fan sosjale media, ynstee fan metoadyske of algoritmyske swierrichheden. Koartsein, sosjale media soene, en wierskynlik noait, in stabile, ûnbidige, fertsjintwurdige byld fan 'e wittenskip biede; en befetsje samples fan sosjale media misse genôch gegevens om dizze problemen post hoc te beheinen. "
Yn haadstik 3 sil ik sampling en skatting yn folle mear detail beskriuwe. Sels as gegevens net-represintative binne, kinne se ûnder bepaalde betingsten gewicht wurde om goede skatten te meitsjen.
System drift is hiel heul te sjen fan bûten. It Projekt MovieLens (lykwols mear yn haadstik 4 wurdt besprutsen) is foar mear as 15 jier útfierd troch in akademyske ûndersyksgroep. Sa kinne se ynformeel hawwe en ynformaasje te dielen oer de manier wêrop it systeem oer 'e tiid ûntwikkele hat en hoe't dizze analyse ynfloed wurde kin (Harper and Konstan 2015) .
In oantal gelearden hawwe rjochte op drift yn Twitter: Liu, Kliman-Silver, and Mislove (2014) en Tufekci (2014) .
Ien oanpak om te behanneljen mei befolkingsdrift is om in paniel fan brûkers te meitsjen, wêrtroch't ûndersikers itselde minsken oer tiid besjen kinne, sjoch Diaz et al. (2016) .
Ik hearde earst de term "algorithmysk konfrontearre" brûkber fan Jon Kleinberg yn in petear, mar spitigernôch ik it net werom as wannear't de diskusje jûn waard. De earste kear dat ik de term yn print seach, wie yn Anderson et al. (2015) , wat in ynteressante diskusje is oer hoe't de algoritmen dy't brûkt wurde troch date-sites kinne de feardichheid fan 'e wittenskippers komplisearje om gegevens fan dizze websites te brûken om sosjale foarkarren te studearjen. Dit soarch waard oandien troch K. Lewis (2015a) yn antwurd op Anderson et al. (2014) .
Njonken Facebook Twitter advisearret ek minsken minsken foar brûkers te folgjen basearre op it idee fan trijade sluting; Sjoch Su, Sharma, and Goel (2016) . Sa is it nivo fan trijadeftige sluting yn Twitter in kombinaasje fan guon minsklike tendins foar trijade sluting en inkele algoritmyske tendins om triadyske sluting te befoarderjen.
Foar mear op produktiviteit - benammen it idee dat guon sosjale wittenskipte teoryen binne "motoren net kamera's" (dęr't se de wrâld foarmje mar net allinich beskriuwe) -see Mackenzie (2008) .
Registraal statistyske ynstânsjes neamt data skjinmjittings statistyske data-bewurking . De Waal, Puts, and Daas (2014) beskriuwe statistyske data-editingtekeningen dy't ûntwikkele binne foar survey data en ûndersykje de hichte wêrmei't se tapast wurde foar grutte data boarnen, en Puts, Daas, and Waal (2015) presintearje guon fan deselde ideeën foar in algemien publyk.
Foar in oersjoch fan maatskiplike botsjes, sjoch Ferrara et al. (2016) . Foar guon foarbylden fan stúdzjes dy't rjochte binne op it sykjen fan spam yn Twitter, sjoch Clark et al. (2016) en Chu et al. (2012) . Uteinlik, Subrahmanian et al. (2016) beskriuwt de resultaten fan 'e DARPA Twitter Bot Challenge, in massaaktwurk dy't ûntwikkele om ferwizings te fergelykjen foar botsingen op Twitter te ferlykjen.
Ohm (2015) beoardiele eardere ûndersiken oer it idee fan gefoelige ynformaasje en biedt in multyfunksje-test. De fjouwer faktoaren dy't hy stelt, binne de grutte fan 'e skea, de problemen fan skea, de oanwêzigens fan in fertroulik relaasje, en oft it risiko as wichtige wichtige belangen is.
Farber's stúdzje fan taksy yn New York waard basearre op in eardere stúdzje fan Camerer et al. (1997) , dy't trije ferskillende foarsjenningen problemen fan papierregelblêden brûke. Dizze eardere stúdzje fûn dat de bestjoerders like doelbewusters wiene: se wurken minder op dagen dêr't har leannings heger wienen.
Yn 'e lettere wurksumheden hawwe kening en kollega's fierder ûndersiikre online sensure yn Sina (King, Pan, and Roberts 2014, [@king_how_2016] ) . For a related approach to measuring online Bamman, O'Connor, and Smith (2012) in China, see Bamman, O'Connor, and Smith (2012) . Foar mear op statistyske metoaden lykas dy yn King, Pan, and Roberts (2013) brûkt wurde om de gefoel fan 'e 11 miljoen posten te skatten, sjoch Hopkins and King (2010) . Foar mear op opsjoch learen, sjoch James et al. (2013) (minder technysk) en Hastie, Tibshirani, and Friedman (2009) (mear technysk).
De foarstelling is in grut part fan bedriuweterrektoryske datawittenskip (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Ien soart foarsizzing dat normaal dien wurdt troch sosjale ûndersikers is demografyske prognizearring; Sjoch, bygelyks, Raftery et al. (2012) .
Google Flu Trends wie net it earste projekt dat sykopdata brûke koe oant nasjonale grypprovinsje. Yn 't gefal hawwe ûndersikers yn' e Feriene Steaten (Polgreen et al. 2008; Ginsberg et al. 2009) en Sweden (Hulth, Rydevik, and Linde 2009) fûn dat bestimmende sykwurden (bgl, "gryp") de nasjonale publike sûnenssoarch data foardat it frijlitten waard. Dêrnei hawwe in protte oare projekten besocht om digitale spoargegevens te brûken foar syndersaksje-detectie; sjoch Althouse et al. (2015) foar in resinsje.
Neist it digitale spoargegevens brûke om sûnder resultaten te fergelykjen, is der ek in geweldige wurkwurksumheden brûkt om Twittergegevens te brûken om ferkiezingsresultaten te foarsizzen; foar resinsjes binne Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (haadstik 7), en Huberty (2015) . De nocht fan ekonomyske yndikatoaren, lykas brutich binnenlânske produkten (BIP), is ek gewoan yn sintraal banken, sjoch Bańbura et al. (2013) . Tabel 2.8 befettet in pear foarbylden fan stúdzjes dy't inkeld digitale spoaren brûke om in soarte fan evenemint yn 'e wrâld foar te foarsjen.
Digital trace | Útkomst | Citation |
---|---|---|
Kockeryfermogen fan films yn 'e Feriene Steaten | Asur and Huberman (2010) | |
Sykje logs | Ferkeap fan films, muzyk, boeken en fideospultsjes yn 'e Feriene Steaten | Goel et al. (2010) |
Dow Jones Industrial Average (US Stock Market) | Bollen, Mao, and Zeng (2011) | |
Sosjale media en sykwurden | Untfongen fan ynvestearder sentimens en bedriuwsmjärgen yn 'e Feriene Steaten, Feriene Keninkryk, Kanada en Sina | Mao et al. (2015) |
Sykje logs | Prevalence fan Dengue Fever yn Singapore en Bangkok | Althouse, Ng, and Cummings (2011) |
Uteinlik hawwe Jon Kleinberg en kollega's (2015) oantsjutte dat prognostykproblemen yn twa, subtyl ferskate kategoryen falle, en dat sosjale wittenskippers tenei op ien rjochtsje op it iene en de oare ignorearje. Stel dan ien beliedsmakker, ik sil har Anna neame, dy't in droege sit is en moat beslute of in shaman te meitsjen om in rein dûns te meitsjen om de kâns op rein te fergrutsjen. In oar beliedsmakker, ik sil har Betty neame, moat beslute of in domein te dwaan om te wurkjen om foarkomme te litten op 'e wei nei hûs. Sawol Anna en Betty kinne in bettere beslút meitsje as se wetter begripe, mar se moatte oare dingen witte. Anna moat begripe oft de reint dûns feroaret. Betty, oan 'e oare hân, moat neat nedich hawwe oer kûlesaliteit; Se hat gewoan in krekte foarstelling nedich. Sosjaal ûndersikers faak fokusje op 'e problemen lykas de iene dy't fan Anna - dy't Kleinberg en kollega's "reine dûnslike" beliedsproblemen neamme, - om't se fragen hawwe oer kausaliteiten. Fragen lykas de iene dy't Betty-tsjinje, wat Kleinberg en kollega's "paradijs-like" beliedsproblemen neame, kinne ek tige wichtich wêze, mar hawwe folle minder omtinken krigen fan sosjale ûndersikers.
De tydskrift PS Political Science hie in sympoasium oer grutte gegevens, kausale ynlieding, en formele teory, en Clark and Golder (2015) fermelde elke bydrage. It sjoernaal fan 'e nasjonale Akademy fan' e wittenskippen fan 'e Feriene Steaten fan Amearika hie in sympoasium oer kausale ynlieding en grutte gegevens, en Shiffrin (2016) fermelde elke bydrage. Foar it masine learen giet it om dat besykjen om natuerlike eksperiminten automatysk te ûntdekken binnen grutte data boarnen, sjoch Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , en Sharma, Hofman, and Watts (2016) .
Yn betingsten fan natuerlike eksperiminten jout Dunning (2012) in ynliedende, boeklange behanneling mei in protte foarbylden. Foar in skeptyske útsjoch fan natuerlike eksperiminten, sjoch Rosenzweig and Wolpin (2000) (ekonomy) of Sekhon and Titiunik (2012) (politike wittenskip). Deaton (2010) en Heckman and Urzúa (2010) argjerre dat it konsintrearje op natuerlike eksperiminten kin ûndersikers liede ta rjochte op it skatteljen fan unimportant kausale effekten; Imbens (2010) kontrolearret dizze arguminten mei in optimistysk sichtberens fan 'e wearde fan natuerlike eksperiminten.
By it beskriuwen fan hoe't in ûndersiker út it skatteljen fan it effekt fan it draaisjen fan 'e wurking fan' e betsjutting koe wurde, wie ik beskriuwingen fan in technyske fariabele techniken. Imbens and Rubin (2015) , yn har haadstikken 23 en 24, jouwe in yntroduksje en gebrûk meitsje fan it draaiboek as foarbyld. It effekt fan militêre tsjinst op kompleksjes wurdt soms de komplete gemiddelde kausale effekt (CAcE) neamd en somtiden de lokale gemiddelde behannelingseffekt (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , en Bollen (2012) biede beoordelingen oer it brûken fan ynstrumintale fariabelen yn politike wittenskip, ekonomy en sosjology, en Sovey and Green (2011) leveret in "lêzerlist" foar evaluearjen fan stúdzjes mei ynstrumintale fariabelen.
It docht bliken dat de konsintraasje fan 'e lokaasje fan 1970 net, feitlik goed randomisearre; Der wienen lytse ôfwikingen fan 'e (Fienberg 1971) . Berinsky and Chatfield (2015) argjerre dat dizze lytse ôfwaging net wichtich is en wichtich is oer it belang fan goede randomisaasje.
As wat oerienkomt, sjoch Stuart (2010) foar in optimistysk oersicht, en Sekhon (2009) foar in pessimistyske oersicht. Foar mear oer oerienkomst as in soarte fan pruning, sjoch Ho et al. (2007) . It fynjen fan in inkele perfekte wedstriid foar elke persoan is faak lestich, en dit bringt in oantal kompleksjes yn. Earst, as genoatige wedstriden net beskikber binne, moatte ûndersikers beslute hoe't de ôfstân tusken twa ienheden mjitten wurdt en as in opjûne ôfstân ticht genôch is. In twadde kompleksiteit is ûntstien as ûndersikers wolle foar elke saak in meardere wedstriden brûke wolle yn 'e behanningsgroep, omdat dit liede kin foar genoatiger skatten. Beide fan dizze ûnderwerpen, lykas oaren, wurde yn detail beskreaun yn haadstik 18 fan Imbens and Rubin (2015) . Sjoch ek diel II fan ( ??? ) .
Sjoch Dehejia and Wahba (1999) foar in foarbyld wêr't oerienkomsten metoaden krekt meitsje koene, krektlyk as dy fan in randomisearre kontrolearre eksperiment. Mar, sjoch Arceneaux, Gerber, and Green (2006) en Arceneaux, Gerber, and Green (2010) foar foarbylden wêrby't oerienkomst metoaden mislearre in eksperimintele benchmark.
Rosenbaum (2015) en Hernán and Robins (2016) biede oare advizen foar ûntdekke nuttige fergeliking yn grutte data boarnen.