Deze sectie is ontworpen om te worden gebruikt als referentie, in plaats van te worden gelezen als een verhaal.
Een soort van het waarnemen die niet is opgenomen in dit hoofdstuk is etnografie. Voor meer informatie over de etnografie in digitale ruimten zie Boellstorff et al. (2012) , en voor meer informatie over etnografie in gemengde digitale en fysieke ruimtes zien Lane (2016) .
Wanneer u herbestemming data, zijn er twee mentale trucs die u kunnen helpen de mogelijke problemen die u kunt tegenkomen te begrijpen. Ten eerste, kunt u proberen om de ideale dataset voorstellen voor uw probleem en dat vergelijken met de dataset die u gebruikt. Hoe zijn ze vergelijkbaar zijn en hoe zijn ze anders? Als u uw gegevens niet zelf hebt te verzamelen, zijn er waarschijnlijk een verschil tussen wat je wilt en wat je hebt. Maar, je moet beslissen of deze verschillen zijn klein of groot.
Ten tweede, bedenk dan dat iemand gemaakt en uw gegevens verzameld voor een of andere reden. Je moet proberen om hun redenering begrijpen. Dit soort van reverse engineering kan u helpen bij eventuele problemen en vooroordelen in uw hergebruikt data te identificeren.
Er is geen eenduidige consensus definitie van "big data", maar veel definities lijken te richten op de 3 Vs: (bijvoorbeeld volume, variëteit, en de snelheid Japec et al. (2015) ). In plaats van zich te concentreren op de kenmerken van de gegevens, mijn definitie richt zich meer op de reden waarom de gegevens is gemaakt.
Mijn opname van de overheid de administratieve gegevens in de categorie van big data is een beetje ongewoon. Anderen die dit geval hebben gemaakt, onder meer Legewie (2015) , Connelly et al. (2016) , en Einav and Levin (2014) . Voor meer informatie over de waarde van de overheid administratieve gegevens voor onderzoek, zie Card et al. (2010) , Taskforce (2012) , en Grusky, Smeeding, and Snipp (2015) .
Voor het oog van de administratieve onderzoek vanuit de overheid statistisch systeem, met name de US Census Bureau, zie Jarmin and O'Hara (2016) . Voor een boek lengte behandeling van de administratie onderzoek op Statistics Sweden, zie Wallgren and Wallgren (2007) .
In het hoofdstuk vergeleek ik kort een traditionele enquête zoals de Algemene Social Survey (GSS) om een social media-gegevensbron, zoals Twitter. Voor een grondige en zorgvuldige vergelijking tussen de traditionele enquêtes en social media data, zie Schober et al. (2016) .
De 10 kenmerken van grote data werden op verschillende manieren beschreven door verschillende auteurs. Schrijven dat mijn denken beïnvloed over deze onderwerpen zijn onder meer: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , en Goldstone and Lupyan (2016) .
In dit hoofdstuk heb ik de term digitale sporen, waarvan ik denk dat relatief neutrale gebruikt. Een andere populaire term voor digitale sporen is digitale footprints (Golder and Macy 2014) , maar als Hal Abelson, Ken Ledeen, en Harry Lewis (2008) wijzen op een meer geschikte term is waarschijnlijk digitale vingerafdrukken. Wanneer u voetafdrukken maken, je je bewust bent van wat er gebeurt en uw footprints kunnen over het algemeen niet persoonlijk worden herleid tot jou. Hetzelfde geldt niet voor uw digitale sporen. In feite, verlaat u sporen al de tijd waarover u zeer weinig kennis. En hoewel deze sporen niet uw naam op hen, ze kunnen vaak worden terug gekoppeld aan jou. Met andere woorden, ze zijn meer vingerafdrukken: onzichtbaar en persoonlijke identificatie.
Groot
Voor meer informatie over de reden waarom grote datasets, renderen statistische testen problematisch, zie Lin, Lucas, and Shmueli (2013) en McFarland and McFarland (2015) . Deze kwesties moeten onderzoekers leiden om zich te concentreren op de praktische betekenis in plaats van statistische significantie.
Altijd aan
Bij het overwegen van always-on data, is het belangrijk om te overwegen of u exact dezelfde mensen zijn het vergelijken van de tijd, of dat je vergelijkt wat wisselende groep mensen; zie bijvoorbeeld, Diaz et al. (2016) .
Niet reactief
Een klassiek boek over niet-reactieve maatregelen Webb et al. (1966) . De voorbeelden in het boek dateren van het digitale tijdperk, maar ze zijn nog steeds verhelderend. Voor voorbeelden van mensen veranderen hun gedrag vanwege de aanwezigheid van grootschalig onderzoek, zie Penney (2016) en Brayne (2014) .
Incompleet
Voor meer informatie over recordkoppeling, zie Dunn (1946) en Fellegi and Sunter (1969) (historische) en Larsen and Winkler (2014) (moderne). Vergelijkbare benaderd zijn ook ontwikkeld in de informatica onder de namen zoals data deduplicatie, bijvoorbeeld identificatie, naam matching, dupliceren detectie en dubbele records (Elmagarmid, Ipeirotis, and Verykios 2007) . Er zijn ook de privacy behoud benaderingen koppeling die de overdracht van persoonlijke gegevens vereisen opnemen (Schnell 2013) . Facebook heeft ook een overgaan tot hun gegevens te koppelen aan het stemgedrag; Dit werd gedaan om een experiment dat ik je vertellen over de in hoofdstuk 4 te evalueren (Bond et al. 2012; Jones et al. 2013) .
Voor meer informatie over construct validiteit, zie Shadish, Cook, and Campbell (2001) , hoofdstuk 3.
Ontoegankelijk
Voor meer informatie over de AOL zoeklogboek debacle, zie Ohm (2010) . Ik advies verstrekken over de samenwerking met bedrijven en overheden in hoofdstuk 4, toen ik experimenten te beschrijven. Een aantal auteurs hebben hun bezorgdheid geuit over het onderzoek dat is gebaseerd op ontoegankelijke gegevens uitgedrukt, zie Huberman (2012) en boyd and Crawford (2012) .
Een goede manier voor universitaire onderzoekers om toegang tot de gegevens te verkrijgen is om te werken bij een bedrijf als stagiair of gastonderzoeker. Naast het inschakelen toegangsgegevens Dit proces zal ook helpen de onderzoeker meer informatie over hoe de data is gecreëerd, wat belangrijk is voor analyse.
Niet representatieve
Non-representativiteit is een groot probleem voor onderzoekers en overheden die wensen om uitspraken te doen over een gehele populatie te maken. Dit is minder van belang voor bedrijven die typisch zijn gericht op de gebruikers. Voor meer informatie over hoe Nederland de Statistiek beschouwt de kwestie van de niet-representativiteit van het bedrijfsleven big data, zie Buelens et al. (2014) .
In hoofdstuk 3, zal ik de bemonstering en de raming te beschrijven in veel meer detail. Zelfs wanneer deze gegevens zijn niet representatief, onder bepaalde voorwaarden, kunnen ze worden gewogen om een goede schatting te produceren.
drifting
System drift is zeer moeilijk te zien vanaf de buitenkant. Toch heeft de MovieLens project (besproken meer in hoofdstuk 4) is uitgevoerd voor meer dan 15 jaar door een academische onderzoeksgroep. Daarom hebben ze gedocumenteerd en gedeelde informatie over de manier waarop het systeem na verloop van tijd heeft ontwikkeld en hoe dit kan van invloed zijn analyse (Harper and Konstan 2015) .
Een aantal geleerden hebben zich gericht op drift in Twitter: Liu, Kliman-Silver, and Mislove (2014) en Tufekci (2014) .
algoritmisch beschaamd
Ik hoorde voor het eerst de term "algoritmisch vertroebeld" gebruikt door Jon Kleinberg in een gesprek. Het belangrijkste idee achter performativity is dat sommige sociaal-wetenschappelijke theorieën 'engines geen camera's " (Mackenzie 2008) . Dat wil zeggen dat ze eigenlijk de vorm van de wereld in plaats van alleen te vangen is.
Vuil
Gouvernementele bureaus voor de statistiek noemen data cleaning, statistische gegevens te bewerken. De Waal, Puts, and Daas (2014) beschrijven statistische gegevens editing technieken ontwikkeld voor onderzoeksgegevens en na te gaan in welke mate ze van toepassing zijn op grote gegevensbronnen, en zijn Puts, Daas, and Waal (2015) presenteert een aantal van dezelfde ideeën voor een meer algemeen publiek.
Voor enkele voorbeelden van onderzoeken gericht op spam Twitter, Clark et al. (2016) en Chu et al. (2012) . Tenslotte Subrahmanian et al. (2016) beschrijft de resultaten van de DARPA Twitter Bot Challenge.
Gevoelig
Ohm (2015) Beoordelingen eerder onderzoek op het idee van gevoelige informatie en biedt een multifactoriële testen. De vier factoren die hij voorstelt zijn: de kans op schade; waarschijnlijkheid van schade; aanwezigheid van een vertrouwelijke relatie; en of het risico weerspiegelen majoritair zorgen.
Studie van de taxi's in New York Farber was gebaseerd op een eerdere studie door Camerer et al. (1997) dat er drie verschillende gemak monsters papier trip vellen papieren formulieren die worden gebruikt door bestuurders reis start tijd op te nemen, eindtijd, en gerechten gebruikt. Deze eerdere studie bleek dat bestuurders leek doel verdieners: ze minder werkten op dagen waar hun lonen waren hoger.
Kossinets and Watts (2009) was gericht op het ontstaan van homofilie in sociale netwerken. Zie Wimmer and Lewis (2010) voor een andere benadering van hetzelfde probleem, die gebruik maakt van gegevens van Facebook.
In de daaropvolgende werk, hebben de koning en zijn collega's verder onderzocht online censuur in China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Voor een verwante benadering van het meten van online censuur in China, zie Bamman, O'Connor, and Smith (2012) . Voor meer informatie over statistische methoden zoals die gebruikt worden in King, Pan, and Roberts (2013) aan het sentiment van de 11 miljoen berichten te schatten, zie Hopkins and King (2010) . Voor meer informatie over toezicht leren, zie James et al. (2013) (minder technisch) en Hastie, Tibshirani, and Friedman (2009) (meer technische).
Forecasting is een groot deel van de industriële data science (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Een type van de prognose die vaak worden gedaan door sociale onderzoekers demografische prognoses, bijvoorbeeld Raftery et al. (2012) .
Google Flu Trends was niet het eerste project om zoekgegevens te gebruiken om influenza prevalentie nowcast. In feite, onderzoekers in de Verenigde Staten (Polgreen et al. 2008; Ginsberg et al. 2009) en Zweden (Hulth, Rydevik, and Linde 2009) hebben ontdekt dat bepaalde zoektermen (bijvoorbeeld "griep") voorspelde de nationale toezicht op de volksgezondheid gegevens voordat het werd uitgebracht. Vervolgens vele, vele andere projecten hebben geprobeerd om digitale trace gegevens te gebruiken voor de ziekte surveillance detectie, zie Althouse et al. (2015) voor een overzicht.
Naast het gebruik van digitale trace data voor de gezondheid resultaten te voorspellen, is er ook een enorme hoeveelheid werk met behulp van Twitter gegevens naar de verkiezing resultaten te voorspellen geweest; zie voor Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), en Huberty (2015) .
Met behulp van zoekgegevens te voorspellen influenza prevalentie en het gebruik van Twitter gegevens te voorspellen verkiezingen zijn beide voorbeelden van het gebruik van een soort van digitale sporen om een soort van evenement in de wereld te voorspellen. Er een enorm aantal studies dat deze algemene structuur hebben. Tabel 2.5 bevat een aantal voorbeelden.
Digital trace | Resultaat | Citaat |
---|---|---|
tjilpen | Box office inkomsten van films in de VS | Asur and Huberman (2010) |
zoeklogboeken | De verkoop van films, muziek, boeken en video games in de VS. | Goel et al. (2010) |
tjilpen | Dow Jones Industrial Average (Amerikaanse aandelenmarkt) | Bollen, Mao, and Zeng (2011) |
Het tijdschrift PS Politicologie had een symposium over big data, causale gevolgtrekking, en formele theorie en Clark and Golder (2015) geeft een overzicht van elke bijdrage. Het tijdschrift Proceedings van de National Academy of Sciences van de Verenigde Staten van Amerika had een symposium over causale gevolgtrekking en big data en Shiffrin (2016) geeft een overzicht van elke bijdrage.
In termen van natuurlijke experimenten, Dunning (2012) biedt een uitstekend boek lengte behandeling. Voor meer informatie over het gebruik van de Vietnam-ontwerp loterij als een natuurlijk experiment, zie Berinsky and Chatfield (2015) . Voor machine learning benaderingen die proberen om automatisch te ontdekken natuurlijke experimenten binnenkant van big data bronnen, zie Jensen et al. (2008) en Sharma, Hofman, and Watts (2015) .
In termen van matching, voor een optimistische overzicht, zie Stuart (2010) , en een pessimistische overzicht zie Sekhon (2009) . Voor meer informatie over de aanpassing van als een soort van snoeien, zie Ho et al. (2007) . Voor boeken die uitstekende behandelingen van matching te bieden, zie Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , en Imbens and Rubin (2015) .