Een soort waarneming die niet in dit hoofdstuk is opgenomen, is etnografie. Voor meer informatie over etnografie in digitale ruimtes, zie Boellstorff et al. (2012) , en voor meer over etnografie in gemengde digitale en fysieke ruimtes, zie Lane (2016) .
Er bestaat geen eenduidige consensusdefinitie van "big data", maar veel definities lijken te focussen op de "3 V's": volume, variëteit en snelheid (bijv. Japec et al. (2015) ). Zie De Mauro et al. (2015) voor een herziening van definities.
Mijn opname van overheidsadministratieve gegevens in de categorie big data is een beetje ongewoon, hoewel anderen ook deze case hebben gemaakt, waaronder Legewie (2015) , Connelly et al. (2016) , en Einav and Levin (2014) . Zie Card et al. (2010) Voor meer informatie over de waarde van overheidsadministratiegegevens voor onderzoek Card et al. (2010) , Adminstrative Data Taskforce (2012) en Grusky, Smeeding, and Snipp (2015) .
Voor een overzicht van administratief onderzoek vanuit het statistische systeem van de overheid, in het bijzonder het US Census Bureau, zie Jarmin and O'Hara (2016) . Zie Wallgren and Wallgren (2007) voor een volledige behandeling van het administratieve archiefonderzoek bij Statistics Sweden.
In het hoofdstuk heb ik kort een traditionele enquête zoals de General Social Survey (GSS) vergeleken met een gegevensbron voor sociale media zoals Twitter. Voor een grondige en zorgvuldige vergelijking tussen traditionele enquêtes en sociale-mediagegevens, zie Schober et al. (2016) .
Deze 10 kenmerken van big data zijn op verschillende manieren door verschillende auteurs beschreven. Schrijven dat mijn denken over deze kwesties heeft beïnvloed, omvat Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) en Goldstone and Lupyan (2016) .
In dit hoofdstuk heb ik de term digitale sporen gebruikt , waarvan ik denk dat die relatief neutraal is. Een andere populaire term voor digitale sporen is digitale voetafdrukken (Golder and Macy 2014) , maar zoals Hal Abelson, Ken Ledeen en Harry Lewis (2008) aangeven, is een meer geschikte term waarschijnlijk digitale vingerafdrukken . Wanneer u voetafdrukken maakt, bent u zich bewust van wat er gebeurt en zijn uw voetafdrukken over het algemeen niet te herleiden naar u persoonlijk. Hetzelfde geldt niet voor uw digitale sporen. Sterker nog, je laat de hele tijd sporen achter waar je heel weinig kennis van hebt. En hoewel deze sporen uw naam niet hebben, kunnen ze vaak aan u worden gekoppeld. Met andere woorden, ze lijken meer op vingerafdrukken: onzichtbaar en persoonlijk identificerend.
Voor meer informatie over waarom grote datasets statistische tests problematisch maken, zie M. Lin, Lucas, and Shmueli (2013) en McFarland and McFarland (2015) . Deze kwesties moeten ertoe leiden dat onderzoekers zich meer richten op praktische betekenis dan op statistische significantie.
Zie Mervis (2014) voor meer informatie over hoe Raj Chetty en collega's toegang hebben gekregen tot de belastingregistratie.
Grote datasets kunnen ook rekenproblemen creëren die in het algemeen de mogelijkheden van een enkele computer te boven gaan. Daarom verspreiden onderzoekers die berekeningen maken op grote datasets het werk vaak over meerdere computers, een proces dat soms parallelle programmering wordt genoemd . Voor een inleiding tot parallelle programmering, in het bijzonder een taal genaamd Hadoop, zie Vo and Silvia (2016) .
Bij het in aanmerking nemen van always-on data, is het belangrijk om te overwegen of je exact dezelfde mensen in de tijd vergelijkt of dat je een aantal veranderende groep mensen vergelijkt; zie bijvoorbeeld Diaz et al. (2016) .
Een klassiek boek over niet-reactieve maatregelen is Webb et al. (1966) . De voorbeelden in dat boek dateren van vóór het digitale tijdperk, maar ze zijn nog steeds verhelderend. Voor voorbeelden van mensen die hun gedrag veranderen vanwege de aanwezigheid van massasurveillance, zie Penney (2016) en Brayne (2014) .
Reactiviteit hangt nauw samen met wat onderzoekers (Orne 1962; Zizzo 2010) noemen (Orne 1962; Zizzo 2010) en het Hawthorne-effect (Adair 1984; Levitt and List 2011) .
Zie Dunn (1946) en Fellegi and Sunter (1969) (historisch) en Larsen and Winkler (2014) (modern) voor meer informatie over koppelingen. Vergelijkbare benaderingen zijn ook ontwikkeld in de informatica onder namen als datadeduplicatie, instantie-identificatie, (Elmagarmid, Ipeirotis, and Verykios 2007) duplicaatdetectie en duplicaatrecorddetectie (Elmagarmid, Ipeirotis, and Verykios 2007) . Er zijn ook privacybehoudende benaderingen voor recordkoppeling die geen overdracht van persoonlijk identificeerbare informatie vereisen (Schnell 2013) . Facebook heeft ook een proces ontwikkeld om hun gegevens te koppelen aan stemgedrag; dit is gedaan om een experiment te evalueren waarover ik u in hoofdstuk 4 zal vertellen (Bond et al. 2012; Jones et al. 2013) .
Zie hoofdstuk 3 van Shadish, Cook, and Campbell (2001) voor meer informatie over constructvaliditeit.
Zie Ohm (2010) voor meer informatie over het debacle van AOL-zoeklogboeken. Ik geef advies over samenwerking met bedrijven en overheden in hoofdstuk 4 als ik experimenten beschrijf. Een aantal auteurs heeft hun bezorgdheid uitgesproken over onderzoek dat vertrouwt op ontoegankelijke gegevens, zie Huberman (2012) en boyd and Crawford (2012) .
Een goede manier voor universitaire onderzoekers om toegang tot de gegevens te verkrijgen is om te werken bij een bedrijf als stagiair of gastonderzoeker. Naast het inschakelen toegangsgegevens Dit proces zal ook helpen de onderzoeker meer informatie over hoe de data is gecreëerd, wat belangrijk is voor analyse.
Wat betreft het verkrijgen van toegang tot overheidsgegevens, Mervis (2014) hoe Raj Chetty en collega's toegang kregen tot de belastingregistratie die werd gebruikt in hun onderzoek naar sociale mobiliteit.
Voor meer informatie over de geschiedenis van 'representativiteit' als concept, zie Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , en Kruskal and Mosteller (1980) .
Mijn samenvattingen van het werk van Snow en het werk van Doll en Hill waren kort. Voor meer informatie over het werk van Snow over cholera, zie Freedman (1991) . Voor meer informatie over de British Doctors Study, zie Doll et al. (2004) en Keating (2014) .
Veel onderzoekers zullen verrast zijn om te horen dat hoewel Doll en Hill gegevens van vrouwelijke artsen en artsen onder de 35 hadden verzameld, ze deze gegevens bewust niet in hun eerste analyse hebben gebruikt. Zoals ze beweerden: "Aangezien longkanker relatief zeldzaam is bij vrouwen en mannen onder de 35 jaar, is het onwaarschijnlijk dat bruikbare cijfers in deze groepen nog enige jaren zullen worden verkregen. In dit voorlopige rapport hebben we daarom onze aandacht beperkt tot mannen van 35 jaar en ouder. " Rothman, Gallacher, and Hatch (2013) , met de provocatieve titel" Waarom representativiteit moet worden vermeden ", maken een meer algemeen argument voor de waarde van opzettelijk niet-representatieve gegevens creëren.
Niet-presentativiteit is een groot probleem voor onderzoekers en overheden die uitspraken willen doen over een hele populatie. Dit is minder een zorg voor bedrijven, die meestal gericht zijn op hun gebruikers. Zie Buelens et al. (2014) Voor meer informatie over hoe het CBS de kwestie van niet-presentativiteit van zakelijke big data beschouwt Buelens et al. (2014) .
Voor voorbeelden van onderzoekers die hun bezorgdheid uiten over het niet-representatieve karakter van big data-bronnen, zie boyd and Crawford (2012) , K. Lewis (2015b) en Hargittai (2015) .
Zie Keiding and Louis (2016) voor een meer gedetailleerde vergelijking van de doelen van sociale enquêtes en epidemiologisch onderzoek.
Voor meer informatie over pogingen om Twitter te gebruiken om out-of-sample generalisaties over kiezers te maken, met name de zaak van de Duitse verkiezingen van 2009, zie Jungherr (2013) en Jungherr (2015) . Volgend op het werk van Tumasjan et al. (2010) onderzoekers over de hele wereld hebben liefhebbermethoden gebruikt - zoals het gebruik van sentimentanalyse om onderscheid te maken tussen positieve en negatieve vermeldingen van de partijen - om het vermogen van Twitter-gegevens om een verscheidenheid aan verschillende soorten verkiezingen te voorspellen te verbeteren (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hier is hoe Huberty (2015) de resultaten samenvatte van deze pogingen om verkiezingen te voorspellen:
"Alle bekende prognosemethoden op basis van sociale media zijn mislukt toen ze werden onderworpen aan de eisen van echte toekomstgerichte verkiezingsvoorspellingen. Deze mislukkingen lijken het gevolg te zijn van fundamentele eigenschappen van sociale media, eerder dan van methodologische of algoritmische problemen. Kortom, sociale media bieden, en zullen waarschijnlijk nooit, een stabiel, onbevooroordeeld en representatief beeld van het electoraat; en gemaksmonsters van sociale media missen voldoende gegevens om deze problemen post-hoc op te lossen. "
In hoofdstuk 3 beschrijf ik bemonstering en schatting veel gedetailleerder. Zelfs als gegevens niet-representatief zijn, kunnen ze onder bepaalde voorwaarden worden gewogen om goede schattingen te produceren.
Systeemafwijking is van buitenaf erg moeilijk te zien. Het MovieLens-project (meer besproken in hoofdstuk 4) wordt echter al meer dan 15 jaar door een academische onderzoeksgroep uitgevoerd. Zo hebben ze informatie kunnen documenteren en delen over de manier waarop het systeem in de loop van de tijd is geëvolueerd en hoe dit de analyse kan beïnvloeden (Harper and Konstan 2015) .
Een aantal wetenschappers hebben zich gericht op drift op Twitter: Liu, Kliman-Silver, and Mislove (2014) en Tufekci (2014) .
Een manier om om te gaan met bevolkingsverloop is om een panel van gebruikers te creëren, waarmee onderzoekers dezelfde mensen in de loop van de tijd kunnen bestuderen, zie Diaz et al. (2016) .
Ik hoorde voor het eerst de term "algoritmisch verward" gebruikt door Jon Kleinberg in een toespraak, maar helaas kan ik me niet herinneren wanneer of waar het gesprek werd gegeven. De eerste keer dat ik de term in druk zag was in Anderson et al. (2015) , wat een interessante discussie is over hoe de algoritmen gebruikt door datingsites het vermogen van onderzoekers om gegevens van deze websites te gebruiken om sociale voorkeuren te bestuderen, kan bemoeilijken. Deze zorg werd opgeworpen door K. Lewis (2015a) in antwoord op Anderson et al. (2014) .
Naast Facebook beveelt Twitter gebruikers ook aan om gebruikers te volgen op basis van het idee van triadische sluiting; zie Su, Sharma, and Goel (2016) . Dus het niveau van triadische afsluiting in Twitter is een combinatie van een menselijke tendens tot triadische afsluiting en enige algoritmische neiging om triadische afsluiting te bevorderen.
Voor meer informatie over de performativiteit - in het bijzonder het idee dat sommige theorieën over sociale wetenschappen "motoren en geen camera's" zijn (dwz ze vormen de wereld in plaats van ze alleen maar te beschrijven) - zie Mackenzie (2008) .
Regeringsstatistische bureaus noemen het opschonen van statistische gegevensverwerking . De Waal, Puts, and Daas (2014) beschrijven technieken voor het bewerken van statistische gegevens die zijn ontwikkeld voor onderzoeksgegevens en onderzoeken in hoeverre deze van toepassing zijn op big data-bronnen, en Puts, Daas, and Waal (2015) presenteren enkele van dezelfde ideeën voor een meer algemeen publiek.
Voor een overzicht van sociale bots, zie Ferrara et al. (2016) . Voor enkele voorbeelden van onderzoeken gericht op het vinden van spam op Twitter, zie Clark et al. (2016) en Chu et al. (2012) . Eindelijk, Subrahmanian et al. (2016) beschrijven de resultaten van de DARPA Twitter Bot Challenge, een massasamenwerking ontworpen om benaderingen voor het detecteren van bots op Twitter te vergelijken.
Ohm (2015) bespreekt eerder onderzoek naar het idee van gevoelige informatie en biedt een multifactorentest aan. De vier factoren die hij voorstelt, zijn de omvang van de schade, de waarschijnlijkheid van schade, de aanwezigheid van een vertrouwelijke relatie en of het risico een weerspiegeling is van meerderheidsbelangen.
Farbers studie van taxi's in New York was gebaseerd op een eerdere studie van Camerer et al. (1997) die drie verschillende gemaksmonsters van papieren reisbladen gebruikte. Uit dit eerdere onderzoek bleek dat chauffeurs doelwinner lijken te zijn: ze werkten minder op dagen dat hun loon hoger was.
In het daaropvolgende werk hebben King en collega's de online censuur in China verder onderzocht (King, Pan, and Roberts 2014, [@king_how_2016] ) . Zie Bamman, O'Connor, and Smith (2012) voor een gerelateerde aanpak voor het meten van online censuur in China. Voor meer informatie over statistische methoden zoals die gebruikt in King, Pan, and Roberts (2013) om het sentiment van de 11 miljoen berichten te schatten, zie Hopkins and King (2010) . Kijk voor meer informatie over gesuperviseerd leren bij James et al. (2013) (minder technisch) en Hastie, Tibshirani, and Friedman (2009) (meer technisch).
Forecasting is een groot deel van industriële data science (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Een type voorspelling dat vaak door sociale onderzoekers wordt gedaan, is demografische prognose; zie, bijvoorbeeld, Raftery et al. (2012) .
Google Flu Trends was niet het eerste project dat zoekgegevens gebruikte om de prevalentie van influenza nu te detecteren. In feite hebben onderzoekers in de Verenigde Staten (Polgreen et al. 2008; Ginsberg et al. 2009) en Zweden (Hulth, Rydevik, and Linde 2009) vastgesteld dat bepaalde zoektermen (bijv. "Griep") nationale volksgezondheidstoezicht voorspelden gegevens voordat deze werd vrijgegeven. Vervolgens hebben vele, vele andere projecten geprobeerd digitale traceergegevens te gebruiken voor detectie van ziektebewaking; zie Althouse et al. (2015) voor een beoordeling.
Naast het gebruik van digitale traceergegevens om gezondheidsresultaten te voorspellen, is er ook enorm veel werk verricht met behulp van Twitter-gegevens om verkiezingsresultaten te voorspellen; voor beoordelingen zie Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (hoofdstuk 7) en Huberty (2015) . Het uitgeven van economische indicatoren, zoals het bruto binnenlands product (BBP), is ook gebruikelijk bij centrale banken, zie Bańbura et al. (2013) . tabel 2.8 bevat enkele voorbeelden van onderzoeken die een soort digitaal spoor gebruiken om een soort gebeurtenis in de wereld te voorspellen.
Digitaal spoor | Resultaat | Citaat |
---|---|---|
tjilpen | Box office-inkomsten van films in de VS. | Asur and Huberman (2010) |
Zoek in logboeken | Verkoop van films, muziek, boeken en videogames in de VS. | Goel et al. (2010) |
tjilpen | Dow Jones Industrial Average (Amerikaanse aandelenmarkt) | Bollen, Mao, and Zeng (2011) |
Social media en zoeklogboeken | Enquêtes onder beleggerssentiment en aandelenmarkten in de Verenigde Staten, het Verenigd Koninkrijk, Canada en China | Mao et al. (2015) |
Zoek in logboeken | Prevalentie van Dengue Fever in Singapore en Bangkok | Althouse, Ng, and Cummings (2011) |
Ten slotte hebben Jon Kleinberg en collega's (2015) erop gewezen dat prognoseproblemen in twee subtiel verschillende categorieën vallen en dat sociale wetenschappers zich meestal op de ene hebben gericht en de andere negeren. Stel je een beleidsmaker voor, ik zal haar Anna noemen, die geconfronteerd wordt met droogte en moet beslissen of ze een sjamaan moet inhuren om een regendans te doen om de kans op regen te vergroten. Een andere beleidsmaker, ik zal haar Betty noemen, moet beslissen of hij een paraplu meeneemt om te werken om te voorkomen dat hij op weg naar huis nat wordt. Zowel Anna als Betty kunnen een betere beslissing nemen als ze het weer begrijpen, maar ze moeten verschillende dingen weten. Anna moet begrijpen of de regendans regen veroorzaakt. Betty, aan de andere kant, hoeft niets van causaliteit te begrijpen; ze heeft alleen een nauwkeurige voorspelling nodig. Sociale onderzoekers concentreren zich vaak op de problemen zoals die van Anna - die Kleinberg en zijn collega's "regendansachtige" beleidsproblemen noemen - omdat ze vragen van causaliteit met zich meebrengen. Vragen als die van Betty - die Kleinberg en collega's 'paraplu-achtige' beleidsproblemen noemen - kunnen ook heel belangrijk zijn, maar hebben veel minder aandacht gekregen van sociale onderzoekers.
Het tijdschrift PS Political Science had een symposium over big data, causale gevolgtrekking en formele theorie, en Clark and Golder (2015) vatten elke bijdrage samen. Het tijdschrift Proceedings van de National Academy of Sciences in de Verenigde Staten van Amerika had een symposium over causale gevolgtrekkingen en big data, en Shiffrin (2016) vat elke bijdrage samen. Voor methoden voor het leren van machines die proberen automatisch natuurlijke experimenten in big data-bronnen te ontdekken, zie Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) en Sharma, Hofman, and Watts (2016) .
In termen van natuurlijke experimenten biedt Dunning (2012) een inleidende, boekenlange behandeling met veel voorbeelden. Voor een sceptische kijk op natuurlijke experimenten, zie Rosenzweig and Wolpin (2000) (economie) of Sekhon and Titiunik (2012) (politieke wetenschappen). Deaton (2010) en Heckman and Urzúa (2010) stellen dat focussen op natuurlijke experimenten onderzoekers ertoe kan brengen zich te concentreren op het schatten van onbelangrijke causale effecten; Imbens (2010) betwist deze argumenten met een meer optimistische kijk op de waarde van natuurlijke experimenten.
Bij het beschrijven van hoe een onderzoeker zou kunnen gaan van het inschatten van het effect van het opstellen tot het effect van het dienen, beschreef ik een techniek die instrumentele variabelen worden genoemd . Imbens and Rubin (2015) in hun hoofdstuk 23 en 24 een introductie en gebruiken de loterij als voorbeeld. Het effect van militaire dienst op compliers wordt soms het gemiddelde causale effect van de complier genoemd (CAcE) en soms het lokale gemiddelde behandeleffect (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) en Bollen (2012) bieden beoordelingen van het gebruik van instrumentele variabelen in de politieke wetenschappen, economie en sociologie, en Sovey and Green (2011) biedt een "reader's checklist" voor onderzoeken evalueren met instrumentele variabelen.
Het blijkt dat de loterij van 1970 niet, in feite behoorlijk gerandomiseerd was; er waren kleine afwijkingen van pure willekeur (Fienberg 1971) . Berinsky and Chatfield (2015) dat deze kleine afwijking niet van wezenlijk belang is en bespreken het belang van goed uitgevoerde randomisatie.
In termen van matching, zie Stuart (2010) voor een optimistische beoordeling, en Sekhon (2009) voor een pessimistische review. Voor meer informatie over matching als een soort snoeien, zie Ho et al. (2007) . Het vinden van een perfecte match voor elke persoon is vaak moeilijk, en dit introduceert een aantal complexiteiten. Ten eerste, wanneer exacte overeenkomsten niet beschikbaar zijn, moeten onderzoekers beslissen hoe de afstand tussen twee eenheden moet worden gemeten en of een bepaalde afstand dichtbij genoeg is. Een tweede complexiteit ontstaat als onderzoekers voor elke casus in de behandelgroep meerdere matches willen gebruiken, omdat dit tot preciezere schattingen kan leiden. Beide kwesties, evenals andere, worden in detail beschreven in hoofdstuk 18 van Imbens and Rubin (2015) . Zie ook Deel II van ( ??? ) .
Zie Dehejia and Wahba (1999) voor een voorbeeld waarbij Dehejia and Wahba (1999) schattingen konden produceren die vergelijkbaar waren met die van een gerandomiseerd, gecontroleerd experiment. Maar zie Arceneaux, Gerber, and Green (2006) en Arceneaux, Gerber, and Green (2010) voor voorbeelden waarbij matching-methoden geen experimentele benchmark konden reproduceren.
Rosenbaum (2015) en Hernán and Robins (2016) bieden ander advies voor het vinden van bruikbare vergelijkingen binnen big data-bronnen.