[ , ] Algorithmische confounding was een probleem met Google Grieptrends. Lees het artikel van Lazer et al. (2014) , en schrijf een korte, duidelijke e-mail aan een technicus bij Google die het probleem uitlegt en een idee biedt van hoe het probleem kan worden opgelost.
[ ] Bollen, Mao, and Zeng (2011) beweren dat gegevens van Twitter kunnen worden gebruikt om de aandelenmarkt te voorspellen. Deze bevinding leidde tot de oprichting van een hedgefonds - Derwent Capital Markets - om te beleggen in de aandelenmarkt op basis van gegevens verzameld via Twitter (Jordan 2010) . Welk bewijs zou u willen zien voordat u uw geld in dat fonds steekt?
[ ] Sommige voorstanders van de volksgezondheid beschouwen e-sigaretten als een effectieve hulp bij het stoppen met roken, anderen waarschuwen voor de mogelijke risico's, zoals de hoge niveaus van nicotine. Stel je voor dat een onderzoeker besluit om de publieke opinie in de richting van e-sigaretten te bestuderen door e-sigaretten-gerelateerde Twitter-berichten te verzamelen en sentimentanalyses uit te voeren.
[ ] In november 2009 veranderde Twitter de vraag in het vak 'Wat doe je?' In 'Wat gebeurt er?' (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" worden vaak gebruikt om de invloed en spreiding van invloed op Twitter te meten. Aanvankelijk moesten gebruikers de tweet die ze leuk vonden kopiëren en plakken, de originele auteur taggen met zijn / haar handle en handmatig "RT" typen voor de tweet om aan te geven dat het een retweet was. Toen voegde Twitter in 2009 een knop 'retweet' toe. In juni 2016, maakte Twitter het mogelijk voor gebruikers om hun eigen tweets te retweet (https://twitter.com/twitter/status/742749353689780224). Denkt u dat deze veranderingen van invloed zouden moeten zijn op de manier waarop u retweets gebruikt in uw onderzoek? Waarom of waarom niet?
[ , , , ] In een veel besproken paper analyseerden Michel en collega's (2011) de inhoud van meer dan vijf miljoen gedigitaliseerde boeken in een poging culturele langetermijntrends te identificeren. De gegevens die ze hebben gebruikt, zijn nu vrijgegeven als de dataset van Google NGrams, en dus kunnen we de gegevens gebruiken om een deel van hun werk te repliceren en uit te breiden.
In een van de vele resultaten in de paper beweren Michel en zijn collega's dat we steeds sneller vergeten. Voor een bepaald jaar, zeg "1883", berekenden ze het aandeel van 1 gram dat elk jaar tussen 1875 en 1975 werd gepubliceerd in "1883". Zij redeneerden dat deze verhouding een maatstaf is voor de belangstelling voor gebeurtenissen die in dat jaar plaatsvonden. In hun figuur 3a hebben ze de gebruikstrajecten voor drie jaar uitgezet: 1883, 1910 en 1950. Deze drie jaar delen een gemeenschappelijk patroon: weinig gebruik vóór dat jaar, dan een piek, daarna verval. Om vervolgens de snelheid van het verval voor elk jaar te kwantificeren, berekenden Michel en collega's de "halfwaardetijd" van elk jaar voor alle jaren tussen 1875 en 1975. In hun figuur 3a (inzet) toonden ze aan dat de halfwaardetijd van elk jaar het jaar neemt af en zij voerden aan dat dit betekent dat we het verleden sneller en sneller vergeten. Ze gebruikten versie 1 van het Engelstalige corpus, maar vervolgens heeft Google een tweede versie van het corpus uitgebracht. Lees alle delen van de vraag voordat u begint met coderen.
Met deze activiteit kunt u oefenen met het schrijven van herbruikbare code, het interpreteren van resultaten en gegevensruzie (zoals het werken met lastige bestanden en het verwerken van ontbrekende gegevens). Met deze activiteit kunt u ook aan de slag met een rijke en interessante gegevensset.
Download de onbewerkte gegevens van de Google Boeken NGram Viewer-website. In het bijzonder moet u versie 2 van het Engelstalige corpus gebruiken, dat is uitgebracht op 1 juli 2012. Niet gecomprimeerd, dit bestand is 1,4 GB.
Reconstrueer het grootste deel van figuur 3a van Michel et al. (2011) . Om dit cijfer opnieuw te maken, hebt u twee bestanden nodig: degene die u hebt gedownload in deel (a) en het bestand "totaaltellingen", waarmee u de onbewerkte tellingen in verhoudingen kunt omzetten. Merk op dat het bestand met de totale tellingen een structuur heeft die het moeilijk leesbaar kan maken. Levert versie 2 van de NGram-gegevens vergelijkbare resultaten op als die gepresenteerd door Michel et al. (2011) , die gebaseerd zijn op versie 1 data?
Controleer nu uw grafiek tegen de grafiek gemaakt door de NGram Viewer.
Maak figuur 3a (hoofdfiguur) opnieuw, maar verander de \(y\) -as in het aantal ruwe vermeldingen (niet het aantal vermeldingen).
Leidt het verschil tussen (b) en (d) ertoe dat u de resultaten van Michel et al. Opnieuw evalueert? (2011). Waarom of waarom niet?
Gebruik nu het aantal vermeldingen om de inzet van figuur 3a te repliceren. Dat wil zeggen, bereken voor elk jaar tussen 1875 en 1975 de halfwaardetijd van dat jaar. De halfwaardetijd wordt gedefinieerd als het aantal jaren dat verstrijkt voordat het aandeel vermeldingen de helft van de piekwaarde bereikt. Merk op dat Michel et al. (2011) doe iets ingewikkelder om de halfwaardetijd in te schatten - zie sectie III.6 van de ondersteunende online informatie - maar zij beweren dat beide benaderingen vergelijkbare resultaten opleveren. Laat versie 2 van de NGram-gegevens vergelijkbare resultaten zien als die gepresenteerd door Michel et al. (2011) , die gebaseerd zijn op versie 1 data? (Hint: wees niet verbaasd als het dat niet doet.)
Zijn er jaren geweest die uitbijters waren, zoals jaren die bijzonder snel of bijzonder langzaam werden vergeten? Bespreek kort over mogelijke redenen voor dat patroon en leg uit hoe je de uitschieters hebt geïdentificeerd.
Herhaal dit resultaat nu voor versie 2 van de NGrams-gegevens in het Chinees, Frans, Duits, Hebreeuws, Italiaans, Russisch en Spaans.
Als er in alle talen sprake was van uitschieters, zoals jaren die bijzonder snel of bijzonder langzaam werden vergeten? Kort speculeren over mogelijke redenen voor dat patroon.
[ , , , ] Penney (2016) onderzocht of de wijdverbreide publiciteit over NSA / PRISM-bewaking (di de Snowden-onthullingen) in juni 2013 verband hield met een scherpe en plotselinge afname van het verkeer naar Wikipedia-artikelen over onderwerpen die privacykwesties aankaarten. Als dit het geval is, zou deze gedragsverandering in overeenstemming zijn met een huiveringwekkend effect als gevolg van massasurveillance. De benadering van Penney (2016) wordt soms een onderbroken tijdreeksontwerp genoemd en heeft betrekking op de benaderingen die worden beschreven in paragraaf 2.4.3.
Om de onderwerpsleutelwoorden te kiezen, verwees Penney naar de lijst die door het Amerikaanse ministerie van Binnenlandse Veiligheid werd gebruikt voor het volgen en volgen van sociale media. In de DHS-lijst worden bepaalde zoektermen onderverdeeld in een reeks problemen, namelijk 'Gezondheidszorg', 'Infrastructuurbeveiliging' en 'Terrorisme'. Voor de studiegroep gebruikte Penney de 48 sleutelwoorden in verband met 'Terrorisme' (zie bijlage 8). ). Vervolgens verzamelde hij de Wikipedia-artikelweergave op maandelijkse basis voor de corresponderende 48 Wikipedia-artikelen over een periode van 32 maanden, van begin januari 2012 tot eind augustus 2014. Om zijn argument te versterken, creëerde hij ook verschillende vergelijkingsgroepen door te volgen artikelweergaven over andere onderwerpen.
Nu ga je Penney (2016) repliceren en verlengen Penney (2016) . Alle onbewerkte gegevens die u voor deze activiteit nodig heeft, zijn beschikbaar op Wikipedia. Of haal het uit het R-pakket wikipediatrend (Meissner and R Core Team 2016) . Wanneer u uw antwoorden schrijft, noteer dan welke gegevensbron u hebt gebruikt. (Merk op dat deze zelfde activiteit ook verschijnt in hoofdstuk 6.) Deze activiteit geeft je de mogelijkheid om te oefenen in gegevensgekriebel en na te denken over natuurlijke experimenten in big data-bronnen. Het zorgt er ook voor dat u aan de slag kunt met een potentieel interessante gegevensbron voor toekomstige projecten.
[ ] Efrati (2016) rapporteerde op basis van vertrouwelijke informatie dat "total sharing" op Facebook jaar in jaar uit met ongeveer 5,5% was gedaald terwijl "original broadcast sharing" jaar op jaar met 21% was gedaald. Deze daling was met name acuut bij Facebook-gebruikers jonger dan 30 jaar. Het rapport schreef de afwijzing toe aan twee factoren. Een daarvan is de groei van het aantal "vrienden" dat mensen op Facebook hebben. De andere is dat een deelactiviteit is verschoven naar berichten en naar concurrenten zoals Snapchat. Het rapport onthulde ook de verschillende tactieken die Facebook had geprobeerd om delen te stimuleren, inclusief nieuwsfeed algoritme tweaks die originele posts meer prominent maken, evenals periodieke herinneringen van de originele berichten met de "On This Day" functie. Welke implicaties hebben deze bevindingen voor onderzoekers die Facebook als gegevensbron willen gebruiken?
[ ] Wat is het verschil tussen een socioloog en een historicus? Volgens Goldthorpe (1991) is het belangrijkste verschil controle over gegevensverzameling. Historici worden gedwongen om relikwieën te gebruiken, terwijl sociologen hun gegevensverzameling kunnen afstemmen op specifieke doeleinden. Lees Goldthorpe (1991) . Hoe verhoudt het verschil tussen sociologie en geschiedenis zich tot het idee van custommades en readymades?
[ ] Dit bouwt voort op de vorige vraag. Goldthorpe (1991) trok een aantal kritische antwoorden, waaronder een van Nicky Hart (1994) die de toewijding van Goldthorpe tot op maat gemaakte gegevens ter discussie stelde. Om de mogelijke beperkingen van op maat gemaakte gegevens te verduidelijken, beschreef Hart het Welvarende Werknemers Project, een groot onderzoek naar de relatie tussen sociale klasse en stemmen die werd uitgevoerd door Goldthorpe en collega's in het midden van de jaren zestig. Zoals je zou verwachten van een geleerde die de voorkeur gaf aan ontworpen gegevens boven gevonden gegevens, verzamelde het Welvarende Werknemersproject gegevens die waren toegesneden op een recent voorgestelde theorie over de toekomst van sociale klasse in een tijdperk van toenemende levensstandaard. Maar Goldthorpe en collega's "vergaten" op de een of andere manier om informatie te verzamelen over het stemgedrag van vrouwen. Hier is hoe Nicky Hart (1994) de hele aflevering samenvatte:
"... het is moeilijk om de conclusie te vermijden dat vrouwen zijn weggelaten omdat deze" op maat gemaakte "dataset werd beperkt door een paradigmatische logica die de vrouwelijke ervaring uitsluitte. Gedreven door een theoretische visie van klassenbewustzijn en actie als mannelijke preoccupaties ..., construeerden Goldthorpe en zijn collega's een reeks empirische bewijzen die hun eigen theoretische veronderstellingen voedden en koesterde in plaats van hen bloot te stellen aan een geldige test van adequaatheid. "
Hart vervolgde:
"De empirische bevindingen van het Welvarende Arbeidersproject vertellen ons meer over de masculinistische waarden van de sociologie van het midden van de eeuw dan dat ze de processen van gelaagdheid, politiek en materieel leven informeren."
Kun je andere voorbeelden bedenken waarin de verzameling gegevens van de gegevensverzamelaar in de gegevensverzameling is ingebouwd? Hoe verhoudt dit zich tot algoritmische verstoringen? Welke implicaties zou dit kunnen hebben wanneer onderzoekers readymades zouden moeten gebruiken en wanneer ze custommades zouden moeten gebruiken?
[ ] In dit hoofdstuk heb ik de door onderzoekers verzamelde gegevens voor onderzoekers vergeleken met administratieve gegevens die zijn gemaakt door bedrijven en overheden. Sommige mensen noemen deze administratie 'gevonden gegevens', die ze contrasteren met 'ontworpen gegevens'. Het klopt dat administratieve gegevens door onderzoekers worden gevonden, maar ze zijn ook sterk ontworpen. Moderne technologiebedrijven werken bijvoorbeeld heel hard om hun gegevens te verzamelen en te beheren. Aldus worden deze administratieve gegevens zowel gevonden als ontworpen, het hangt gewoon af van uw perspectief (figuur 2.12).
Geef een voorbeeld van een gegevensbron waarbij het zowel als gevonden als ontworpen nuttig is wanneer u die gegevensbron voor onderzoek gebruikt.
[ ] In een doordacht essay splitsten Christian Sandvig en Eszter Hargittai (2015) digitaal onderzoek in twee brede categorieën, afhankelijk van of het digitale systeem een 'instrument' of 'onderzoeksobject' is. Een voorbeeld van het eerste type - waarbij het systeem wordt gebruikt een instrument - is het onderzoek door Bengtsson en collega's (2011) over het gebruik van mobiele telefoongegevens om de migratie na de aardbeving in Haïti in 2010 te volgen. Een voorbeeld van de tweede soort - waar het systeem een object van studie is - is onderzoek door Jensen (2007) over hoe de introductie van mobiele telefoons in heel Kerala, India de werking van de vismarkt heeft beïnvloed. Ik vind dit onderscheid nuttig omdat het duidelijk maakt dat studies met behulp van digitale gegevensbronnen heel verschillende doelen kunnen hebben, zelfs als ze dezelfde soort gegevensbron gebruiken. Om dit onderscheid verder te verduidelijken, beschrijf vier studies die u hebt gezien: twee die een digitaal systeem als instrument gebruiken en twee die een digitaal systeem als een object van studie gebruiken. U kunt voorbeelden uit dit hoofdstuk gebruiken als u dat wilt.