Eng Aart vun Observatioun, déi net an dësem Kapitel opgeholl gëtt ass Ethnographie. Fir méi iwwer Ethnographie an digitale Plazen, kuckt Boellstorff et al. (2012) , a fir méi iwwer Ethnographie an enger gemëschter digitaler a physescher Leet, kuck Lane (2016) .
Et gëtt keng eenzel Konsensbestëmmung vu "grouss Daten", mee vill Definitioune schéngen op d'"3 V" ze konzentréieren: Volumen, Diversitéit a Velocity (zB Japec et al. (2015) ). De Mauro et al. (2015) fir eng Iwwerpréiwung vu Definitioune.
Méng Inclusioun vu Verwaltungsdaten vun der Regierung an der Kategorie vu groussen Daten ass e bëssen ungewéinlech, ob anerer och dësen Fall gemaach hunn, dorënner Legewie (2015) , Connelly et al. (2016) an Einav and Levin (2014) . Fir méi iwwer de Wäert vun de Verwaltungsdaten vun der Regierung fir d'Recherche, kuckt et Card et al. (2010) , Adminstrative Data Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .
Fir e Bléck op administrativ Fuerschung aus dem Statistiksystem vun der Regierung, virun allem de US Census Bureau, kuckt Jarmin and O'Hara (2016) . Fir eng Brochstéck Behandlung vun de Verwaltungsaufsichtsforschung op der Statistik Schwedin, kuckt Wallgren and Wallgren (2007) .
Am Kapitel hu ech eng kuerz traditionell Ëmfeld verfaasst wéi d'General Social Survey (GSS) mat enger sozialer Datebank wéi Twitter. Fir e grëndlech a séchere Vergläich tëscht traditionelle Ëmfuerderungen a sozialen Netzwierkdaten, kuckt Schober et al. (2016) .
Dës 10 Charakteristiken vu groussen Daten sinn an enger Rei vu verschiddenen Aart duerch verschiddene Autoe beschriwwe ginn. Schreiwen, datt meng Gedanken iwwer dës Fro beaflosst beinhalt et Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , an Goldstone and Lupyan (2016) .
Während dësen Kapitel huet ech d'Begrëff digitale Spuren benotzt , wat ech denken ass relativ neutral. Eng aner populär Terme fir digitale Spuren ass digitale Spadspräisser (Golder and Macy 2014) , awer wéi Hal Abelson, Ken Ledeen an Harry Lewis (2008) weisen op, e méi adäquat Term ass wahrscheinlech digital Fangerofdréck . Wann Dir Foussprägeren erstallt hutt, sidd Dir bewosst wat dat geschitt ass an Är Footprints kënnen net allgemeng fir Iech perséinlech verfollegt ginn. Dat selwecht ass net fir Är digitale Spuren. Tatsächlech verloossen ech all d'Zäit, wou Dir ganz wéineg Wëssen hunn. An obwuel dës Spuren net Ären Numm op hinnen hunn, kënnen se oft mat Iech verknëppelt ginn. An anere Wierder si se méi wéi de Fangerofdréck: onsichtbar a perséinlich Identifikatioun.
Fir méi iwwer d'Grënn fir grouss Datebanken statistesch Tester problemer ze gesinn, kuckt M. Lin, Lucas, and Shmueli (2013) an McFarland and McFarland (2015) . Dës Froen sollen d'Fuerscher féieren, op praktesch Bedeitung ze konzentréieren anstatt statistesch Bedeitung.
Fir méi iwwer wéi d'Raj Chetty a seng Kollegen den Zougang zu de Steiererklärunge kréien, kuckt Mervis (2014) .
Grouss Daten kënnen och Computatiounsproblemer kreéieren, déi allgemeng d'Fähigkeiten vun engem eenzegen Computer sinn. Dofir wëlle Fuerscher mat Rechnungen op grousse Datebank oft d'Aarbecht iwwert vill Computer verbreet, e Prozess deen heiansdo als parallele Programméierter genannt gëtt . Fir eng parallele Programméierungsinformatioun, besonnesch eng Sprooch genannt Hadoop, kuckt Vo and Silvia (2016) .
Wann Dir eis ëmmer op Daten informéiert, ass et wichteg ze präziséieren, ob Dir d'genau d'selwecht Leit an der Zäit vergläicht oder ob Dir et verännert Gruppe vu Leit vergläicht; Zum Beispill, Diaz et al. (2016) .
Ee klassescht Buch iwwer net-reaktive Mesuren ass Webb et al. (1966) . D'Beispiller an dësem Buch hu virun der Digital Age gebraucht, awer si sinn ëmmer nach erleuchtend. Fir Beispiller vu Leit, déi hire Verhalen änneren, wéinst der Präsenz vun der Mass Iwwerwaachung, kuckt Penney (2016) an Brayne (2014) .
Reaktivitéit ass eng rela téiert mat deem wat d'Fuerscher verlangen Effekt (Orne 1962; Zizzo 2010) an den Hawthorne Effekt (Adair 1984; Levitt and List 2011) .
Fir méi op Rekordverknëppung, kuckt Dunn (1946) an Fellegi and Sunter (1969) (historesch) an Larsen and Winkler (2014) (modern). Ähnlech Approche sinn och an der Informatik entwéckelt ginn ënnert Nimm wéi d'Deduplizéierung, d'Identifikatioun vun der Instanz, den Numm passend, d'Duplikat Detectioun an d'Duplizéierungserkennung (Elmagarmid, Ipeirotis, and Verykios 2007) . Et sinn och Privatsphär konservéiert Approche fir eng Link ze schreiwen, déi d'Transmissioun vun perséinlech Identifikatiounsinformatioun (Schnell 2013) net erforderen. Facebook huet och e Prozess ugemellt, fir hir Rekorder op de Wahleverhalen ze verbannen; Dëst gouf gemaach fir e Experiment ze evaluéieren deen ech Iech am Kapitel 4 soen (Bond et al. 2012; Jones et al. 2013) .
Fir méi iwwer d'Gëltegkeet ze konstruéieren, kuckt Kapitel 3 vun Shadish, Cook, and Campbell (2001) .
Fir méi iwwer d'AOL Recherche-Protokoll ze gesinn, kuckt Ohm (2010) . Ech proposéieren Rotschléi iwwer Partnerschaft mat Betriber a Regierungen am Kapitel 4, wann ech Experimenter beschreift. E puer Auteuren hunn d'Bedenken iwwer d'Fuerschung ausgedréckt, déi op accessibel Donnéeën baséiert, kuckt Huberman (2012) a boyd and Crawford (2012) .
Eng gutt Manéier fir Uni Fuerscher Donnéeën Zougrëff kréien ass bei engem Betrib als Interne oder besicht Fuerscher ze schaffen. Nieft Donnéeën Zougrëff Meldunge, wäert dëse Prozess hëllefen och de Fuerscher méi iwwer léieren wéi d'Donnéeë geschaf gouf, déi fir Analyse wichteg ass.
Am Beräich vum Zougang zu den Regierungsdaten gëtt Mervis (2014) diskutéiert wéi d'Raj Chetty an d'Kollegen den Zougang zu de Steierrecorden kritt hunn an hir Fuerschung op sozialer Mobilitéit.
Fir méi iwwer d'Geschicht vun "Repräsentativitéit" als Konzept ze gesinn, kuck Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , a Kruskal and Mosteller (1980) .
Méng Summaréeë vun der Schëpp vum Snow an der Aarbecht vu Puppel an Helle ware kuerz. Fir méi op der Aarbecht vun der Sonn op Cholera kuckt Freedman (1991) . Fir méi iwwer d'britesch Doktoratstudie kuckt Doll et al. (2004) an Keating (2014) .
Vill Wëssenschaftler wäerten iwwerrascht ginn, datt d'Puppelen an d'Hänn Daten aus weiblechen Dokteren a vun Dokteren ënner 35 gesammelt hunn, hunn se dës Donnéeën net an hir éischt Analyse benotzt. Wéi se amgaang sinn: "Well d'Lungenkrebs relativ wéineg an Fraen an Männer ënner 35 Joer ass, sinn nëtzlech Zuelen net wahrscheinlech an deene Gruppen e puer Joer ze kommen. An dësem preliminarer Bericht hunn mir eis och op d'Männer vu 35 Joer uewen beschränkt. " Rothman, Gallacher, and Hatch (2013) , deen de provozéierte Titel" Why representativeness should be avoided " Intresséierend Dateschutzdiskussioun.
Nonrepresentativitéit ass e wichtege Problem fir Fuerscher a Regierungen, déi Aussoen iwwert eng ganz Bevëlkerung bréngen. Dëst ass manner e Betrib fir Betriber, déi normalerweis op hir Benotzer fokusséiert sinn. Fir méi iwwer wéi d'Statistiken Holland d'Fro vun der onrepresentéierter Aarbecht vu groussem Buelens et al. (2014) , kuckt de Buelens et al. (2014) .
Fir Beispiller vu Fuerscher, déi Besuergt iwwer Nët-Vertrieder vu grousser Datenquelle ausdrécken, kuckt boyd and Crawford (2012) , K. Lewis (2015b) , an Hargittai (2015) .
Fir e méi detailléierte Verglach vun den Ziler vu sozialen Ëmfroen a epidemiologëschem Fuerschung, kuckt Keiding and Louis (2016) .
Fir méi iwwer d'Versuche vum Twitter ze benotzen fir d'Verhalensreaktiounen iwwer Wôteren ze maachen, virun allem de Fall vun den Jungherr (2013) Wahlen, kuckt Jungherr (2013) an Jungherr (2015) . No der Aarbecht vun Tumasjan et al. (2010) Fuerscher aus der ganzen Welt hunn Fanntmethoden benotzt - wéi d'Benotzung vun der Sentimensanalyse fir positiv an negativ Erklärunge vun de Parteien ze ënnerscheeden - fir d'Fähigkeit vun Twitter-Donnéeën ze verbesseren, fir eng Rei vun verschiddene Wahle vu Wahlen z'ënnerschreiwen (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hei ass d' Huberty (2015) d'Resultater vun dësen Versuche zesumme mat de Wahlen ze vermeiden:
"All bekannte Prognostikmethoden baséieren op sozialer Medien erlaabt wann së de Fuerderunge vun engem echte forward-looking electoral forecasting ausgesat ginn. Dës Ausfällegungen si wahrscheinlech wéinst fundamentalen Eegeschafte vu sozialen Medien, wéi mat methodeschen oder algorithmesche Schwieregkeeten. A kuerzen, sozialen Medien maachen net a wahrscheinlech och ni, en stabilen, onreegelméissegen, repräsentativen Bild vun der Wahle sinn; an d'Bequemlechkeet vun sozialen Medien lack genuch Daten fir dës Problemer hoc ze fixéieren. "
Am Kapitel 3 beschreift ech d'Probabilitéit a Schätzung a vill méi Detailer. Och wann d'Donnéeën net repräsentativ sinn, kënnen se ënner gewësse Konditioune gewéckelt gi fir gudde Schätz ze produzéieren.
System drift ass ganz schwéier fir vu baussen ze gesinn. Allerdings gouf de FilmLens Projet (Diskussioun méi am Kapitel 4) fir méi wéi 15 Joer vun enger wëssenschaftlecher Fuerschungsgruppe lafen. Si konnten also dokumentéieren an Informatiounen iwwer d'Art a Weis wéi de System am Laaf vun der Zäit entwéckelt huet a wéi dës Influenz gemaach gouf (Harper and Konstan 2015) .
Eng Rei Wëssenschaftler hunn sech op Twitter Liu, Kliman-Silver, and Mislove (2014) : Liu, Kliman-Silver, and Mislove (2014) an Tufekci (2014) .
Eng Approche fir d'Bevëlkerung drift ze handelen ass eng Panel vu Benotzer, déi et erméiglecht, d'selwescht Leit am Laf vun der Zäit ze studéieren, kuckt Diaz et al. (2016) .
Ech hunn de Begrëff "algorithmesch verwiesselt" genannt vum Jon Kleinberg an engem Gespréich héieren, awer leider erënnere mir net wéi a wéi oder wann d'Diskussioun gegeben gouf. Déi éischt Kéier, datt ech de Begrëff am Ausland fonnt gouf, war an Anderson et al. (2015) , wat eng interessant Diskussioun ass wéi d'Algorithmen vun Date Site kënnen d'Wëssen vun de Fuerscher komplizéiert sinn d'Donnéeën vun dësen Websäiten benotze fir Sozialproblemer ze studéieren. Dëse Betrib ass vu K. Lewis (2015a) u Respekt op Anderson et al. (2014) .
Zousätzlech zu Facebook, Twitter recommandéiert och Leit fir Benotzer op Basis vun der Iddi vun der triadescher Schließung; Su, Sharma, and Goel (2016) . Also den Niveau vun der triadescher Verschlësselung an Twitter ass eng Kombinatioun vun e puer mënschlech Tendenz zu triadesche Verschlussung an e puer algorithmesch Neigestaltung fir triadesch Versperrung ze förderen.
Fir méi op Performativitéit, besonnesch d'Iddi, datt verschidde Sozialwëssenschaften Theorie "Motoren net Kameraen" sinn (dh si maachen d'Welt anescht wéi se just se beschreiwen) -see Mackenzie (2008) .
Statistik-Regierungsorganer ruffen d'Donnéeën d' statistesch Daten änneren . De Waal, Puts, and Daas (2014) beschreiwe statistesch Daten Editing Techniken, déi fir Survey Daten entwéckelt ginn an iwwerpréift wéi d'Ausmooss zu där se fir grouss Datenquellen an der Puts, Daas, and Waal (2015) presentéieren. méi allgemeng Publikum.
Fir eng Iwwersiicht vu sozialen Bots, siehe Ferrara et al. (2016) . Fir e puer Beispiller vu Studien op Spam ze kucken op Twitter, kuckt Clark et al. (2016) an Chu et al. (2012) . Endlech, Subrahmanian et al. (2016) beschreift d'Resultater vun der DARPA Twitter Bot Challenge, eng Massekollaboratioun, fir Approche fir Botzmeldung iwwer Twitter ze vergläichen.
Ohm (2015) Kritiker fréier Recherchen iwwer d'Idee vun sensiblen Informatiounen a bitt e Multifaktoren Test. Déi véier Faktoren déi hie proposéiert, sinn d'Hellegkeet vum Schued, d'Wahrscheinlechkeet vum Schued, d'Präsenz vun enger vertraulech Bezéiung, an ob d'Risiko eng Majoritäritéit ugeet.
D'Farber's Studie vun Taxis an New York baséiert op enger fréierer Studie vu Camerer et al. (1997) , déi dräi verschidde Bequemlechkeetstypen vun Pabeierausfléchbicher benotzt hunn. Dës fréier Studie huet festgestallt, datt d'Chauffeure als Zousatzpersonnicer geduecht sinn: Si hunn manner op Deeg geschafft, wou hir Léin méi héich waren.
An der folgender Aarbecht hu Kinnek a Kollegen d'Internet Zensur an China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Fir eng relancéiert Approche fir d'Zensur online zu Zensur ze meeschteren, kuckt Bamman, O'Connor, and Smith (2012) . Fir méi iwwer statistesch Methoden wéi deen, deen zu King, Pan, and Roberts (2013) fir de Gefühl vun den 11 Milliounen Awunner ofzeginn, kuckt Hopkins and King (2010) . Fir méi op iwwerwaachter Léieren, kuckt James et al. (2013) (manner technesch) an Hastie, Tibshirani, and Friedman (2009) (méi technesch).
Prognostikatioun ass e groussen Deel vun der Industriedatenwëssenschaft (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Eng Zort vu Prognostizatioun, déi allgemeng vun de Sozial Researcher gemaach gëtt, ass demographesch virgeschriwwe ginn; kuck, zum Beispill, Raftery et al. (2012) .
Google Gepost Trends war net deen éischte Projet, fir Suchdateien ze benotzen fir d'Influenza Prävalenz. De Fakt ass d'Fuerscher an den USA (Polgreen et al. 2008; Ginsberg et al. 2009) an Schweden (Hulth, Rydevik, and Linde 2009) festgestallt datt verschidde Sichbegrëffer (zB "Grippe") de nationale Gesondheetsservicer iwwerpréift Donnéen virun e gouf verëffentlecht. Duerno hunn vill aner Projeten probéiere fir digitale Spuerdaten fir Krankheetenerkennung ze benotzen; Althouse et al. (2015) fir eng Iwwerpréifung.
Niewent der digitaler Trace Daten, fir gesondheetlech Resultater viru geet, gouf et och eng riesech Aarbecht ze benotze mat Twitter-Donnéeën fir Wale Resultater virzebereeden; fir Rezensionen siehe Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7), an Huberty (2015) . D'Nowuess fir wirtschaftlech Indikatiounen, wéi zum Beispill Bruttoinlandsprodukt (BIP), ass och heefeg an Zentralbanken, kuckt Bańbura et al. (2013) . Tabelle 2.8 enthält e puer Beispiller vu Studien, déi eng Aart digitale Spuer benotzen, fir eng Aart vun der Welt virzebereeden.
Digitaler Spur | Resultat | Citation |
---|---|---|
Box office Revenue vu Filmer an den USA | Asur and Huberman (2010) | |
Sich no Logbicher | Verkaf vu Filmer, Musek, Bicher an Videospiller an den USA | Goel et al. (2010) |
Dow Jones Industrial Duerchschnëtt (US Aktienmarkt) | Bollen, Mao, and Zeng (2011) | |
Sozial Medien an Sichprotokoller | D'Surveys vum Investor Stëftung an Aktienmäert an den USA, Groussbritannien, Kanada a China | Mao et al. (2015) |
Sich no Logbicher | Prävalenz vum Dengue Féiwer a Singapur a Bangkok | Althouse, Ng, and Cummings (2011) |
Schlussendlech hunn Jon Kleinberg a Kollegen (2015) ugewisen, datt d'Prévisiounsproblemer an zwee, subtly verschidde Kategorië falsch sinn an datt d'Sozialwëssenschaftler sech op eng aner konzentréieren an déi aner ignoréieren. Stellt Iech een Politiker, ech wäert d'Anna nennen, deen enger Drénkwaasser steet a muss entscheeden ob eng Schamanen eng Regentanz ze liwweren fir d'Chance opregen ze erhéijen. En aner Politiker, ech wäert se Betty nennen, muss entscheeden ob en Dach schafft fir ze schaffen, fir ze vermeiden fir naass ze ginn op der Heemwee. Eng aner Anna an Betty kënnen eng besser Decisioun maache wann se d'Wieder verstinn, awer se mussen aner Saache wëssen. Anna muss verstoen, ob de Regentanz veruurtelt. Betty, op der anerer Säit, braucht näischt iwwer Kausalitéit ze verstoen; Si brauch just eng genee Prognose. D'Sozialwëssenschaftler konzentréieren sech oft op d'Problemer wéi d'Anna, déi d'Kleederschaft an d'Kollegen vu "rain dance-like" politesche Problemer nennen - well se Froe vu Kausalitéit befaassen. Froen wéi de Betty-deen d'Kleinberg a Kollegen "Regulär-ähnlech" politesche Problemer nennen - kënnen och ganz wichteg sinn, awer vill méi Opmierksamkeet vun den sozialen Fuerscher kréien.
D'Zäitschrëft PS Political Science hat e Symposium op grouss Daten, Kausal Inference a formelle Theorie, an Clark and Golder (2015) zesummegefaasst e Bäitrag. D'Zäitschrëft Proceedings vun der National Academy of Sciences vun de Vereenegte Staaten vun Amerika hat e Symposium op kausal Inference a grouss Daten, an Shiffrin (2016) summéiert all Kontributiounen. Fir d'Maschinn léiert de Versuch automatesch fir Naturkompetenz an de groussen Datenquellen ze entdecken, kuckt Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , an Sharma, Hofman, and Watts (2016) .
Am Beräich vun natierleche Experimenten gëtt Dunning (2012) eng virsiichtegt Buchbehandlungsbehandlung mat ville Beispiller. Fir eng Skeptesch Sicht op natierleche Experimenten, kuckt Rosenzweig and Wolpin (2000) (Wirtschaft) oder Sekhon and Titiunik (2012) (Politikwëssenschaft). Deaton (2010) an Heckman and Urzúa (2010) argumentéieren datt d'Fokussioun op natierleche Experimenten kann Fuerscher gefouert ginn fir un onschätzende onheemlech kausal Effekter ze behalen; Imbens (2010) zielt dës Argumenter mat méi optimistesche Bléck op d'Wäert vun den natierlechen Experimenten.
Wann ech beschreiwen, wéi e Fuerscher kéint aus der Schätzung vum Effet vun der Entworf fir den Effet vum Serven ze schreiwen, beschreift ech eng Technik déi instrumentell Variablen agefouert ginn . Imbens and Rubin (2015) , a seng Kapitelen 23 an 24, bieden eng Introduktioun a benotzen d'Lotterie fir e Beispill. De Effet vum militäreschen Déngscht op Komplizen ass heiansdo den komplette mëttlere Kausal Effekt (CAcE) a heiansdo de lokalen Duerchschnëtts-Behandlungseffekt (LATE) genannt. Sovey and Green (2011) , Angrist and Krueger (2001) , an Bollen (2012) bieden Rezensiounen iwwer d'Utiliséierung vu variabelen Variablen an der Politescher Wëssenschaften, vun der Wirtschaft a vun der Soziologie, a Sovey and Green (2011) liefert eng "Checkliste" Auswertung vu Studien mat Instrumentalvariablen.
Et stellt sech eraus datt de Lotteries 1970 d'Luucht gaangen ass net tatsächlech zoufälleg; Et waren kleng Abteile vu pure Zäiten (Fienberg 1971) . Berinsky and Chatfield (2015) behaapten datt dës kleng Ofhängehung net wichteg wichteg ass an iwwer d'Wichtegkeet vun enger richteg randomiséierter Diskussioun ze diskutéieren.
Am Fall vu Matching, kuckt Stuart (2010) fir eng optimistesch Iwwerpréifung an Sekhon (2009) fir eng pessimistesch Revue. Fir méi iwwer wéi eng Art ze sprangen, kuckt Ho et al. (2007) . Fir eng eenzeg perfekt Partie fir jiddereen ze fannen ass oft schwéier, an dat féiert eng Rei Komplexitéit. Eischtens, wann d'exakt Matcher net verfügbar sinn, musse d'Fuerscher décidéieren, wéi d'Distanz tëschent zwou Unitéiten misst menger ginn an wann eng Distanz nostinn genuch ass. Eng zweet Komplexitéit, wann d'Fuerscher méi Multiple Matcher fir all Fall an der Behandlungsgruppe benotze wëllen, well dëst kann zu méi präzis Schätzungen féieren. Béid Froe wéi och aner sinn am Detail am Kapitel 18 vun Imbens and Rubin (2015) . Kuckt och Deel II vun ( ??? ) .
Dehejia and Wahba (1999) fir ee Beispill, wou d'passende Methoden d'Schätzungen ähnlech wéi bei engem randomiséierte kontrolléierten Experiment produzéieren. Awer kuckt Arceneaux, Gerber, and Green (2006) an Arceneaux, Gerber, and Green (2010) fir Beispiller wou iwwerpréiipte Methoden net e experimentellen Benchmark reproduzéiere kënnen.
Rosenbaum (2015) an Hernán and Robins (2016) bieden aner Rot fir d'nëtzlech Vergläicher vu groussen Datenquellen ze entdecken.