weider Kommentaire

Dësen Deel ass entworf als Referenz gebraucht ginn, amplaz als eng Geschicht gelies ze ginn.

  • Aféierung (Section 2.1)

Eng Zort vun Observatiounen, déi ass net an dësem Kapitel mat abegraff ass ethnography. Fir méi iwwert ethnography am digital Plaazen gesinn Boellstorff et al. (2012) , a fir méi iwwert ethnography zu gemëscht digital a kierperlech Plaazen gesinn Lane (2016) .

  • Big Donnéeën (Section 2,2)

Wann Dir Donnéeë sinn repurposing, ginn et zwou geeschteg Dimensioun, datt Dir déi méiglech Problemer verstoen kann hëllefen, datt Dir begéine kënnen. Éischt, kënnt dir ën ideal Donnéeën fir Äre Problem virzestellen an der vergläichen, datt bis d'Donnéeën, déi Dir benotzt. Wéi ginn si ähnlechen a wéi sinn se anescht? Wann Dir net gemaach Är Donnéeën selwer sammelen, sin do wahrscheinlech Ënnerscheed tëschent ze ginn, wat Dir wëllt a wat Dir hunn. Mä, muss du entscheeden, wann dës Ënnerscheeder kleng oder grouss sinn.

Zweet, erënneren dass iergendeen hunn a gesammelt Är Donnéeën fir nämmlechten. Dir misst versichen hir dofir ze verstoen. Dës Zort vun ëmgedréint-Ingenieur kann hëllefen dir méiglech Problemer an biases zu Är repurposed Donnéeën z'identifizéieren.

Et ass keng eenzeg Konsens Definitioun vun "grouss Daten", mä vill Definitiounen schéngen op der 3 géint ze konzentréieren: (zB, Volumen, Villfalt, an Drorakéit Japec et al. (2015) ). Anstatt op de Charakter vun den Donnéeën leeën, axéiert meng Definitioun méi op, firwat d'Donnéeën geschaf gouf.

Meng Inclusioun vu Regierung administrative Donnéeën am Kategorie vun grouss Daten ass e bëssen erstaunlech. Anerer déi dësem Fall gemaach hunn, gehéiert Legewie (2015) , Connelly et al. (2016) , an Einav and Levin (2014) . Fir méi iwwert de Wäert vu Regierung administrative Daten fir Fuerschung, gesinn Card et al. (2010) , Taskforce (2012) , an Grusky, Smeeding, and Snipp (2015) .

Fir eng Vue vun administrative Recherche vu bannen der Regierung Statistik, besonnesch d'US Vollekszielung Bureau, gesinn Jarmin and O'Hara (2016) . Fir e Buch Längt Behandlung vun der administrativer records Fuerschung um Statistics Schweden, gesinn Wallgren and Wallgren (2007) .

Am Kapitel, am Verglach ech kuerz eng traditionell Ëmfro wéi de Generol Social Survey (GSS) zu engem soziale Medien Donnéeën Quell wéi Twitter. Fir eng grëndlech a virsiichteg Verglach tëscht traditionell Ëmfroen a soziale Medien Donnéeën, gesinn Schober et al. (2016) .

  • Gemeinsam Charakteristiken vun grouss Daten (Section 2,3)

Dës 10 Charakteristiken vun groussen Date goufen zu enger Rei vu verschiddene Méiglechkeeten, déi vun enger Rei vu verschiddenen Auteuren beschriwwen. Schreiwen dass meng denkt op dës Froen beaflosst och: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , an Goldstone and Lupyan (2016) .

Uechter dat Kapitel, hunn ech de Begrëff digital Spure benotzt, wat ech mengen, relativ neutral ass. Aner populär Begrëff fir digital Spure ass digital Stroossebau (Golder and Macy 2014) , mä als Hal Abelson, Ken Ledeen, an Harry Lewis (2008) Punkt eraus, eng méi adäquat Begrëff wahrscheinlech digital Fangerofdréck ass. Wann Dir Stroossebau schafen, sidd Dir bewosst wat ass geschitt an Är Stroossebau net allgemeng fir Iech perséinlech verdanken kënnen. D'selwecht ass net wouer fir Är digital Spure. An Tatsaach, Dir loosst Spure all déi Zäit iwwer déi Dir ganz wéineg Kenntnisser hunn. An, obwuel dëse Spure hu däi Numm do net op se, kënnen se dacks zu Dir ginn Zesummenhang zréck. An anere Wierder, si méi wéi Fangerofdréck: onsichtbar a perséinlech Identifikatioun.

Big

Fir méi iwwert firwat grouss konsultéieren, uerdnen statistesch Tester problematesch, gesinn Lin, Lucas, and Shmueli (2013) an McFarland and McFarland (2015) . Dës Froen sollen Fuerscher Virsprong op praktesch Bedeitung ze duerchbriechen anstatt statistesch Bedeitung.

Ëmmer-iwwert

Wéi ëmmer-iwwert Daten que, ass et wichteg ze denken, ob Dir déi genee déiselwecht Leit méi Zäit ginn vergläichen oder ob Dir e puer Änneren Grupp vu Leit sinn vergläichen; gesinn zum Beispill, Diaz et al. (2016) .

Non-reaktiv

Eng klassesch Buch op Net-reaktiv Mesuren ass Webb et al. (1966) . D'Beispiller am Buch Pre-Datum der digitaler Ära, mee si schéngen nach. Fir Beispiller vun Leit hiert Verhalen wéinst der Präsenz vun Mass Iwwerwaachung änneren, gesinn Penney (2016) an Brayne (2014) .

onkomplett

Fir méi iwwert Rekord linkage, gesinn Dunn (1946) an Fellegi and Sunter (1969) (historesche) an Larsen and Winkler (2014) (modern). Ähnlech gudden hunn och zu Computerentwécklungen ënnert d'Nimm wéi Donnéeën deduplication, zB Identifikatioun, Numm bruecht, zweete erkennen, an en zweete Rekord erkennen entwéckelt ginn (Elmagarmid, Ipeirotis, and Verykios 2007) . Et sinn och Privatsphär Approche konservativ linkage zu Rekord verlaangen nët d'Transmissioun vun perséinlech Identifikatiounselement (Schnell 2013) . Facebook ass och entwéckelt engem virugoe hir records zu Wahl Verhalen ze Link; dës fäerdeg war en Experiment ze diskutéieren, datt ech Iech iwwer am Kapitel soen ech 4 (Bond et al. 2012; Jones et al. 2013) .

Fir méi iwwert bauen Validitéit, gesinn Shadish, Cook, and Campbell (2001) , Kapitel 3.

onzougänglechen

Fir méi op der Lëscht debacle AOL Sich, gesinn Ohm (2010) . Ech proposéieren Rotschléi iwwer Partnerschafft matt Entreprisen a Regierungen am Kapitel 4 wann ech Experimenter beschreiwen. Eng Zuel vun den Auteuren Suergen iwwert Fuerschung ausgedréckt hunn, datt op onzougänglechen Donnéeë bezitt, gesinn Huberman (2012) an boyd and Crawford (2012) .

Eng gutt Manéier fir Uni Fuerscher Donnéeën Zougrëff kréien ass bei engem Betrib als Interne oder besicht Fuerscher ze schaffen. Nieft Donnéeën Zougrëff Meldunge, wäert dëse Prozess hëllefen och de Fuerscher méi iwwer léieren wéi d'Donnéeë geschaf gouf, déi fir Analyse wichteg ass.

Non-Vertrieder

Non-Representatioun ass e grousse Problem fir Fuerscher a Regierungen déi wënschen Aussoen iwwer eng ganz Bevëlkerung ze maachen. Dëst ass manner vun Suerg fir Betriber, déi op hir Benotzer typesch do sinn. Fir méi op wéi Statistics Holland d'Fro vun Net-Representatioun vum Betrib grouss Daten méngt, gesinn Buelens et al. (2014) .

Am Kapitel 3, wäert ech probéieren an Estimatioun an vill méi am Detail beschreiwen. Och wann Donnéeë sinn Net-Vertrieder, ënner gewësse Conditiounen, kann se déifgräifender Kris gutt Schätzunge ze produzéieren.

vergin

System sech ass ganz schwéier vu baussen ze gesinn. Allerdéngs gouf fir méi wéi 15 Joer duerch eng akademesch Fuerschung Grupp lafen d'MovieLens Projet (diskutéiert méi am Kapitel 4). Dofir, si hun Informatiounen iwwer d'Manéier dokumentéiert an gedeelt, datt de System méi Zäit entwéckelt huet a wéi geséit Analyse Impakt (Harper and Konstan 2015) .

: Eng Zuel vu Geléiert hunn op sech an Twitter do Liu, Kliman-Silver, and Mislove (2014) an Tufekci (2014) .

Algorithmically verwiesselt

Ech héieren éischt de Begrëff vum Jon Kleinberg zu enger Diskussioun benotzt "algorithmically verwiesselt". Den Haaptgrond Iddi hannert performativity ass, datt e puer sozial Wëssenschaft Theorië gi "Motore net Kameraen" (Mackenzie 2008) . Dat ass, Form si eigentlech d'Welt anstatt just dat knipsen.

Dirty

Staatlech statistesch Agencen Opruff Donnéeën Botzen, statistesch Donnéeën Redaktioun. De Waal, Puts, and Daas (2014) beschreiwen Techniken statistesch Donnéeën Redaktioun fir Ëmfro Donnéeën entwéckelt an iwwerpréifen an deem Mooss se eventuell ze grouss Daten Quellen, an Puts, Daas, and Waal (2015) , deen e puer vun de selwechten Iddien fir eng méi allgemeng Publikum.

Fir e puer Beispiller vun op Spam an Twitter, do Studien Clark et al. (2016) an Chu et al. (2012) . Endlech, Subrahmanian et al. (2016) beschreift d'Resultater vun der DARPA Twitter Bot Challenge.

sensiblen

Ohm (2015) Kritik virdrun Fuerschung op der Iddi vun sensiblen Informatiounen a bitt enger Multi-Faktor Test. Déi véier Faktoren hie proposéiert ginn: d'Wahrscheinlechkeet vun schueden; Probabilitéit vun schueden; Präsenz vun engem confidentielle Relatioun; an ob déi Risiko spigelen majoritarian betrëfft.

  • Zielen Saachen (Section 2.4.1)

Farber d'Etude vun Taxispräisser zu New York war baséiert op e virdrun Etude vun Camerer et al. (1997) déi dräi verschidde Kamoudheet Echantillon vun Pabeier Rees Blieder-Pabeier Formen benotzt déi Chauffeuren déi ze Rees Start Zäit, Enn Zäit, an heel Rekord. Dëst éischter Etude fonnt dass Chauffeuren hu Zil- Salariéen ze ginn: si geschafft manner op Deeg wou hir Léin héich waren.

Kossinets and Watts (2009) gouf am sozialen Netzwierker op d'Ursaache vun homophily konzentréiert. Zréck Wimmer and Lewis (2010) fir eng aner Approche zu de selwechte Problem, deen Donnéeë vu Facebook Utilisatioune.

Zu Kierzunge Aarbecht, hunn Kinnek a Kollegen weider online Zensur an China lant (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Fir eng wëssenschaftlech Approche un online Zensur an China Moossen, gesinn Bamman, O'Connor, and Smith (2012) . Fir méi iwwert statisteschen Methoden wéi déi ee gebraucht an King, Pan, and Roberts (2013) de Choix vun den 11 Milliounen posts ze schätzen, gesinn Hopkins and King (2010) . Fir méi iwwert iwwerwaachter Léieren, gesinn James et al. (2013) (manner technesch) an Hastie, Tibshirani, and Friedman (2009) (méi technesch).

  • Prévisiouns- (Section 2.4.2)

Prévisiouns- ass e groussen Deel vun industriellen Donnéeën Wëssenschaft (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Eng Zort vun Viraussoen datt allgemeng gemaach gi vun der sozialer Fuerscher demographescher Viraussoen, zum Beispill Raftery et al. (2012) .

Google Gripp Trends war net déi éischte Projet Sich Donnéeën ze benotzen influenza prevalence zu nowcast. An Tatsaach, Fuerscher an d'Vereenegt Staaten (Polgreen et al. 2008; Ginsberg et al. 2009) a Schweden (Hulth, Rydevik, and Linde 2009) hun fonnt dass verschidde Sichbegrëffer (zB, "Erkältung") national öffentlech Gesondheet Iwwerwaachung virausgesot Donnéeën ier et dann. Duerno vill, hunn vill aner Projeten probéiert digital Spuer Daten fir Krankheet Iwwerwaachung erkennen ze benotzen, gesinn Althouse et al. (2015) fir eng Revisioun.

Nieft digital Spuer Daten benotzt Gesondheet Resultater ze soe, muss do och eng grouss Quantitéit vun Aarbecht mat Twitter Daten ginn Wahlen Resultater ze soe; fir Kritik gesinn Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), an Huberty (2015) .

Benotzt Sich Donnéeën ze influenza prevalence virausgesot a mat Daten Twitter Wahlen ze soe wéi si souwuel Beispiller vun iergend vun digitale Spuer mat iergend vum Event an der Welt ze virauszesoen. Et gëtt eng enorm Zuel vu Studien, datt dat allgemengt Struktur hunn. Table 2,5 anerem e puer aner Beispiller.

Table 2,5: Deelweis Lëscht vun Studien benotzen puer digital Spuer puer Event ze virauszesoen.
digital Spuer Konklusiounen Fro
Twitter Box Büro Recetten vun Filmer an der US Asur and Huberman (2010)
Sichprotokoll Verkaf vu Filmer, Musek, Bicher, an Beherrsche vun der US Goel et al. (2010)
Twitter Dow Jones Industriezon duerchschnëttlech (US Bourse) Bollen, Mao, and Zeng (2011)
  • Approximating Experimenter (Section 2.4.3)

D'Zäitschrëft PS Politesch Wëssenschaften hat e Symposium op grouss Daten, causal Ufank ware, a formal Theorie, an Clark and Golder (2015) resüméiert all Bäitrag. D'Zäitschrëft Schrëtter vun der National Academy of Sciences vun de Vereenegte Staate vun Amerika no engem Symposium iwwert causal Ufank ware a grouss Daten, an Shiffrin (2016) resüméiert all Bäitrag.

Am Sënn vun natierleche Experimenter, Dunning (2012) gëtt eng excellent Buch Längt Behandlung. Fir méi iwwert de Projet Bauerefänkerei als natierlech Experimenter Vietnam benotzt, gesinn Berinsky and Chatfield (2015) . Fir Maschinn Léieren Approche déi automatesch Versuch natierlech Experimenter bannenzeg vun groussen Datequellen entdecken, gesinn Jensen et al. (2008) an Sharma, Hofman, and Watts (2015) .

Am Sënn vu passenden Elementer, fir eng optimistesch iwwerpréiwen, kucken Stuart (2010) , a fir eng pessimistesch review gesinn Sekhon (2009) . Fir méi op wéi eng Aart vun pruning passend, gesinn Ho et al. (2007) . Fir Bicher déi excellent Traitementer vu passenden gëtt, gesinn Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , an Imbens and Rubin (2015) .