activiteiten

  • moeilijkheidsgraad: eenvoudig gemakkelijk , medium medium , moeilijk hard , heel moeilijk heel moeilijk
  • vereist wiskunde ( vereist wiskunde )
  • vereist codering ( vereist codering )
  • gegevensverzameling ( gegevensverzameling )
  • mijn favorieten ( mijn favoriet )
  1. [ medium , mijn favoriet ] Algorithmische confounding was een probleem met Google Grieptrends. Lees het artikel van Lazer et al. (2014) , en schrijf een korte, duidelijke e-mail aan een technicus bij Google die het probleem uitlegt en een idee biedt van hoe het probleem kan worden opgelost.

  2. [ medium ] Bollen, Mao, and Zeng (2011) beweren dat gegevens van Twitter kunnen worden gebruikt om de aandelenmarkt te voorspellen. Deze bevinding leidde tot de oprichting van een hedgefonds - Derwent Capital Markets - om te beleggen in de aandelenmarkt op basis van gegevens verzameld via Twitter (Jordan 2010) . Welk bewijs zou u willen zien voordat u uw geld in dat fonds steekt?

  3. [ gemakkelijk ] Sommige voorstanders van de volksgezondheid beschouwen e-sigaretten als een effectieve hulp bij het stoppen met roken, anderen waarschuwen voor de mogelijke risico's, zoals de hoge niveaus van nicotine. Stel je voor dat een onderzoeker besluit om de publieke opinie in de richting van e-sigaretten te bestuderen door e-sigaretten-gerelateerde Twitter-berichten te verzamelen en sentimentanalyses uit te voeren.

    1. Wat zijn de drie mogelijke vooroordelen waar u het meest bezorgd over bent in deze studie?
    2. Clark et al. (2016) liep net zo'n studie. Ten eerste verzamelden ze 850.000 tweets die van januari 2012 tot december 2014 e-sigarettengerelateerde zoekwoorden gebruikten. Bij nadere beschouwing realiseerden ze zich dat veel van deze tweets geautomatiseerd waren (dus niet geproduceerd door mensen) en veel van deze geautomatiseerde tweets waren in wezen commercials. Ze ontwikkelden een menselijk detectiealgoritme om geautomatiseerde tweets te scheiden van organische tweets. Met behulp van dit algoritme voor menselijk detecteren ontdekten ze dat 80% van de tweets werd geautomatiseerd. Verandert deze bevinding je antwoord op deel (a)?
    3. Toen ze het sentiment in organische en geautomatiseerde tweets vergeleken, ontdekten ze dat de geautomatiseerde tweets positiever waren dan organische tweets (6.17 versus 5.84). Verandert deze bevinding je antwoord op (b)?
  4. [ gemakkelijk ] In november 2009 veranderde Twitter de vraag in het vak 'Wat doe je?' In 'Wat gebeurt er?' (Https://blog.twitter.com/2009/whats-happening).

    1. Hoe denk je dat de verandering van prompts invloed heeft op wie tweets en / of wat ze tweeten?
    2. Noem één onderzoeksproject waarvoor je de voorkeur geeft aan de vraag "Wat ben je aan het doen?" Leg uit waarom.
    3. Noem één onderzoeksproject waarvoor u de voorkeur geeft aan de prompt 'Wat gebeurt er?'. Leg uit waarom.
  5. [ gemakkelijk ] "Retweets" worden vaak gebruikt om de invloed en spreiding van invloed op Twitter te meten. Aanvankelijk moesten gebruikers de tweet die ze leuk vonden kopiëren en plakken, de originele auteur taggen met zijn / haar handle en handmatig "RT" typen voor de tweet om aan te geven dat het een retweet was. Toen voegde Twitter in 2009 een knop 'retweet' toe. In juni 2016, maakte Twitter het mogelijk voor gebruikers om hun eigen tweets te retweet (https://twitter.com/twitter/status/742749353689780224). Denkt u dat deze veranderingen van invloed zouden moeten zijn op de manier waarop u retweets gebruikt in uw onderzoek? Waarom of waarom niet?

  6. [ heel moeilijk , gegevensverzameling , vereist codering , mijn favoriet ] In een veel besproken paper analyseerden Michel en collega's (2011) de inhoud van meer dan vijf miljoen gedigitaliseerde boeken in een poging culturele langetermijntrends te identificeren. De gegevens die ze hebben gebruikt, zijn nu vrijgegeven als de dataset van Google NGrams, en dus kunnen we de gegevens gebruiken om een ​​deel van hun werk te repliceren en uit te breiden.

    In een van de vele resultaten in de paper beweren Michel en zijn collega's dat we steeds sneller vergeten. Voor een bepaald jaar, zeg "1883", berekenden ze het aandeel van 1 gram dat elk jaar tussen 1875 en 1975 werd gepubliceerd in "1883". Zij redeneerden dat deze verhouding een maatstaf is voor de belangstelling voor gebeurtenissen die in dat jaar plaatsvonden. In hun figuur 3a hebben ze de gebruikstrajecten voor drie jaar uitgezet: 1883, 1910 en 1950. Deze drie jaar delen een gemeenschappelijk patroon: weinig gebruik vóór dat jaar, dan een piek, daarna verval. Om vervolgens de snelheid van het verval voor elk jaar te kwantificeren, berekenden Michel en collega's de "halfwaardetijd" van elk jaar voor alle jaren tussen 1875 en 1975. In hun figuur 3a (inzet) toonden ze aan dat de halfwaardetijd van elk jaar het jaar neemt af en zij voerden aan dat dit betekent dat we het verleden sneller en sneller vergeten. Ze gebruikten versie 1 van het Engelstalige corpus, maar vervolgens heeft Google een tweede versie van het corpus uitgebracht. Lees alle delen van de vraag voordat u begint met coderen.

    Met deze activiteit kunt u oefenen met het schrijven van herbruikbare code, het interpreteren van resultaten en gegevensruzie (zoals het werken met lastige bestanden en het verwerken van ontbrekende gegevens). Met deze activiteit kunt u ook aan de slag met een rijke en interessante gegevensset.

    1. Download de onbewerkte gegevens van de Google Boeken NGram Viewer-website. In het bijzonder moet u versie 2 van het Engelstalige corpus gebruiken, dat is uitgebracht op 1 juli 2012. Niet gecomprimeerd, dit bestand is 1,4 GB.

    2. Reconstrueer het grootste deel van figuur 3a van Michel et al. (2011) . Om dit cijfer opnieuw te maken, hebt u twee bestanden nodig: degene die u hebt gedownload in deel (a) en het bestand "totaaltellingen", waarmee u de onbewerkte tellingen in verhoudingen kunt omzetten. Merk op dat het bestand met de totale tellingen een structuur heeft die het moeilijk leesbaar kan maken. Levert versie 2 van de NGram-gegevens vergelijkbare resultaten op als die gepresenteerd door Michel et al. (2011) , die gebaseerd zijn op versie 1 data?

    3. Controleer nu uw grafiek tegen de grafiek gemaakt door de NGram Viewer.

    4. Maak figuur 3a (hoofdfiguur) opnieuw, maar verander de \(y\) -as in het aantal ruwe vermeldingen (niet het aantal vermeldingen).

    5. Leidt het verschil tussen (b) en (d) ertoe dat u de resultaten van Michel et al. Opnieuw evalueert? (2011). Waarom of waarom niet?

    6. Gebruik nu het aantal vermeldingen om de inzet van figuur 3a te repliceren. Dat wil zeggen, bereken voor elk jaar tussen 1875 en 1975 de halfwaardetijd van dat jaar. De halfwaardetijd wordt gedefinieerd als het aantal jaren dat verstrijkt voordat het aandeel vermeldingen de helft van de piekwaarde bereikt. Merk op dat Michel et al. (2011) doe iets ingewikkelder om de halfwaardetijd in te schatten - zie sectie III.6 van de ondersteunende online informatie - maar zij beweren dat beide benaderingen vergelijkbare resultaten opleveren. Laat versie 2 van de NGram-gegevens vergelijkbare resultaten zien als die gepresenteerd door Michel et al. (2011) , die gebaseerd zijn op versie 1 data? (Hint: wees niet verbaasd als het dat niet doet.)

    7. Zijn er jaren geweest die uitbijters waren, zoals jaren die bijzonder snel of bijzonder langzaam werden vergeten? Bespreek kort over mogelijke redenen voor dat patroon en leg uit hoe je de uitschieters hebt geïdentificeerd.

    8. Herhaal dit resultaat nu voor versie 2 van de NGrams-gegevens in het Chinees, Frans, Duits, Hebreeuws, Italiaans, Russisch en Spaans.

    9. Als er in alle talen sprake was van uitschieters, zoals jaren die bijzonder snel of bijzonder langzaam werden vergeten? Kort speculeren over mogelijke redenen voor dat patroon.

  7. [ heel moeilijk , gegevensverzameling , vereist codering , mijn favoriet ] Penney (2016) onderzocht of de wijdverbreide publiciteit over NSA / PRISM-bewaking (di de Snowden-onthullingen) in juni 2013 verband hield met een scherpe en plotselinge afname van het verkeer naar Wikipedia-artikelen over onderwerpen die privacykwesties aankaarten. Als dit het geval is, zou deze gedragsverandering in overeenstemming zijn met een huiveringwekkend effect als gevolg van massasurveillance. De benadering van Penney (2016) wordt soms een onderbroken tijdreeksontwerp genoemd en heeft betrekking op de benaderingen die worden beschreven in paragraaf 2.4.3.

    Om de onderwerpsleutelwoorden te kiezen, verwees Penney naar de lijst die door het Amerikaanse ministerie van Binnenlandse Veiligheid werd gebruikt voor het volgen en volgen van sociale media. In de DHS-lijst worden bepaalde zoektermen onderverdeeld in een reeks problemen, namelijk 'Gezondheidszorg', 'Infrastructuurbeveiliging' en 'Terrorisme'. Voor de studiegroep gebruikte Penney de 48 sleutelwoorden in verband met 'Terrorisme' (zie bijlage 8). ). Vervolgens verzamelde hij de Wikipedia-artikelweergave op maandelijkse basis voor de corresponderende 48 Wikipedia-artikelen over een periode van 32 maanden, van begin januari 2012 tot eind augustus 2014. Om zijn argument te versterken, creëerde hij ook verschillende vergelijkingsgroepen door te volgen artikelweergaven over andere onderwerpen.

    Nu ga je Penney (2016) repliceren en verlengen Penney (2016) . Alle onbewerkte gegevens die u voor deze activiteit nodig heeft, zijn beschikbaar op Wikipedia. Of haal het uit het R-pakket wikipediatrend (Meissner and R Core Team 2016) . Wanneer u uw antwoorden schrijft, noteer dan welke gegevensbron u hebt gebruikt. (Merk op dat deze zelfde activiteit ook verschijnt in hoofdstuk 6.) Deze activiteit geeft je de mogelijkheid om te oefenen in gegevensgekriebel en na te denken over natuurlijke experimenten in big data-bronnen. Het zorgt er ook voor dat u aan de slag kunt met een potentieel interessante gegevensbron voor toekomstige projecten.

    1. Lees Penney (2016) en repliceer zijn figuur 2, die de paginaweergaven toont voor "Terrorisme" -gerelateerde pagina's voor en na de Snowden-onthullingen. Interpreteer de bevindingen.
    2. Herhaal vervolgens figuur 4A, die de studiegroep ("Terrorisme" -gerelateerde artikelen) vergelijkt met een vergelijkingsgroep met behulp van trefwoorden die zijn gecategoriseerd onder "DHS & Other Agencies" van de DHS-lijst (zie bijlage 10 en voetnoot 139). Interpreteer de bevindingen.
    3. In deel (b) hebt u de onderzoeksgroep vergeleken met één vergelijkingsgroep. Penney werd ook vergeleken met twee andere vergelijkingsgroepen: "Infrastructure Security" -gerelateerde artikelen (appendixtabel 11) en populaire Wikipedia-pagina's (appendixtabel 12). Verzin een alternatieve vergelijkingsgroep en test of de bevindingen uit deel (b) gevoelig zijn voor uw keuze van de vergelijkingsgroep. Welke keuze maakt het meest logisch? Waarom?
    4. Penney verklaarde dat sleutelwoorden met betrekking tot "Terrorisme" werden gebruikt om de Wikipedia-artikelen te selecteren omdat de Amerikaanse regering terrorisme noemde als een belangrijke rechtvaardiging voor haar online-bewakingspraktijken. Om deze 48 "Terrorisme" -gerelateerde sleutelwoorden te controleren, voerde Penney (2016) ook een onderzoek uit op MTurk, waarbij respondenten werden gevraagd elk van de ht-sleutelwoorden te beoordelen in termen van overheidsprobleem, privacygevoelig gedrag en vermijding (appendixtabel 7 en 8). ). Repliceer de enquête op MTurk en vergelijk uw resultaten.
    5. Gebaseerd op de resultaten in deel (d) en uw lezing van het artikel, bent u het eens met Penneys keuze van onderwerpsleutelwoorden in de studiegroep? Waarom of waarom niet? Zo niet, wat zou u dan voorstellen?
  8. [ gemakkelijk ] Efrati (2016) rapporteerde op basis van vertrouwelijke informatie dat "total sharing" op Facebook jaar in jaar uit met ongeveer 5,5% was gedaald terwijl "original broadcast sharing" jaar op jaar met 21% was gedaald. Deze daling was met name acuut bij Facebook-gebruikers jonger dan 30 jaar. Het rapport schreef de afwijzing toe aan twee factoren. Een daarvan is de groei van het aantal "vrienden" dat mensen op Facebook hebben. De andere is dat een deelactiviteit is verschoven naar berichten en naar concurrenten zoals Snapchat. Het rapport onthulde ook de verschillende tactieken die Facebook had geprobeerd om delen te stimuleren, inclusief nieuwsfeed algoritme tweaks die originele posts meer prominent maken, evenals periodieke herinneringen van de originele berichten met de "On This Day" functie. Welke implicaties hebben deze bevindingen voor onderzoekers die Facebook als gegevensbron willen gebruiken?

  9. [ medium ] Wat is het verschil tussen een socioloog en een historicus? Volgens Goldthorpe (1991) is het belangrijkste verschil controle over gegevensverzameling. Historici worden gedwongen om relikwieën te gebruiken, terwijl sociologen hun gegevensverzameling kunnen afstemmen op specifieke doeleinden. Lees Goldthorpe (1991) . Hoe verhoudt het verschil tussen sociologie en geschiedenis zich tot het idee van custommades en readymades?

  10. [ hard ] Dit bouwt voort op de vorige vraag. Goldthorpe (1991) trok een aantal kritische antwoorden, waaronder een van Nicky Hart (1994) die de toewijding van Goldthorpe tot op maat gemaakte gegevens ter discussie stelde. Om de mogelijke beperkingen van op maat gemaakte gegevens te verduidelijken, beschreef Hart het Welvarende Werknemers Project, een groot onderzoek naar de relatie tussen sociale klasse en stemmen die werd uitgevoerd door Goldthorpe en collega's in het midden van de jaren zestig. Zoals je zou verwachten van een geleerde die de voorkeur gaf aan ontworpen gegevens boven gevonden gegevens, verzamelde het Welvarende Werknemersproject gegevens die waren toegesneden op een recent voorgestelde theorie over de toekomst van sociale klasse in een tijdperk van toenemende levensstandaard. Maar Goldthorpe en collega's "vergaten" op de een of andere manier om informatie te verzamelen over het stemgedrag van vrouwen. Hier is hoe Nicky Hart (1994) de hele aflevering samenvatte:

    "... het is moeilijk om de conclusie te vermijden dat vrouwen zijn weggelaten omdat deze" op maat gemaakte "dataset werd beperkt door een paradigmatische logica die de vrouwelijke ervaring uitsluitte. Gedreven door een theoretische visie van klassenbewustzijn en actie als mannelijke preoccupaties ..., construeerden Goldthorpe en zijn collega's een reeks empirische bewijzen die hun eigen theoretische veronderstellingen voedden en koesterde in plaats van hen bloot te stellen aan een geldige test van adequaatheid. "

    Hart vervolgde:

    "De empirische bevindingen van het Welvarende Arbeidersproject vertellen ons meer over de masculinistische waarden van de sociologie van het midden van de eeuw dan dat ze de processen van gelaagdheid, politiek en materieel leven informeren."

    Kun je andere voorbeelden bedenken waarin de verzameling gegevens van de gegevensverzamelaar in de gegevensverzameling is ingebouwd? Hoe verhoudt dit zich tot algoritmische verstoringen? Welke implicaties zou dit kunnen hebben wanneer onderzoekers readymades zouden moeten gebruiken en wanneer ze custommades zouden moeten gebruiken?

  11. [ medium ] In dit hoofdstuk heb ik de door onderzoekers verzamelde gegevens voor onderzoekers vergeleken met administratieve gegevens die zijn gemaakt door bedrijven en overheden. Sommige mensen noemen deze administratie 'gevonden gegevens', die ze contrasteren met 'ontworpen gegevens'. Het klopt dat administratieve gegevens door onderzoekers worden gevonden, maar ze zijn ook sterk ontworpen. Moderne technologiebedrijven werken bijvoorbeeld heel hard om hun gegevens te verzamelen en te beheren. Aldus worden deze administratieve gegevens zowel gevonden als ontworpen, het hangt gewoon af van uw perspectief (figuur 2.12).

    Figuur 2.12: De afbeelding is zowel een eend als een konijn; wat je ziet, hangt af van je perspectief. Big data-bronnen zijn beide gevonden en ontworpen; nogmaals, wat je ziet, hangt af van je perspectief. De gegevensrecords van oproepen die door een bedrijf met mobiele telefoon worden verzameld, worden bijvoorbeeld gevonden in het perspectief van een onderzoeker. Maar deze exact dezelfde records zijn ontworpen gegevens vanuit het perspectief van iemand die werkt op de factureringsafdeling van het telefoonbedrijf. Bron: Popular Science Monthly (1899) / Wikimedia Commons.

    Figuur 2.12: De afbeelding is zowel een eend als een konijn; wat je ziet, hangt af van je perspectief. Big data-bronnen zijn beide gevonden en ontworpen; nogmaals, wat je ziet, hangt af van je perspectief. De gegevensrecords van oproepen die door een bedrijf met mobiele telefoon worden verzameld, worden bijvoorbeeld gevonden in het perspectief van een onderzoeker. Maar deze exact dezelfde records zijn ontworpen gegevens vanuit het perspectief van iemand die werkt op de factureringsafdeling van het telefoonbedrijf. Bron: Popular Science Monthly (1899) / Wikimedia Commons .

    Geef een voorbeeld van een gegevensbron waarbij het zowel als gevonden als ontworpen nuttig is wanneer u die gegevensbron voor onderzoek gebruikt.

  12. [ gemakkelijk ] In een doordacht essay splitsten Christian Sandvig en Eszter Hargittai (2015) digitaal onderzoek in twee brede categorieën, afhankelijk van of het digitale systeem een ​​'instrument' of 'onderzoeksobject' is. Een voorbeeld van het eerste type - waarbij het systeem wordt gebruikt een instrument - is het onderzoek door Bengtsson en collega's (2011) over het gebruik van mobiele telefoongegevens om de migratie na de aardbeving in Haïti in 2010 te volgen. Een voorbeeld van de tweede soort - waar het systeem een ​​object van studie is - is onderzoek door Jensen (2007) over hoe de introductie van mobiele telefoons in heel Kerala, India de werking van de vismarkt heeft beïnvloed. Ik vind dit onderscheid nuttig omdat het duidelijk maakt dat studies met behulp van digitale gegevensbronnen heel verschillende doelen kunnen hebben, zelfs als ze dezelfde soort gegevensbron gebruiken. Om dit onderscheid verder te verduidelijken, beschrijf vier studies die u hebt gezien: twee die een digitaal systeem als instrument gebruiken en twee die een digitaal systeem als een object van studie gebruiken. U kunt voorbeelden uit dit hoofdstuk gebruiken als u dat wilt.