Aktivitäten

  • Schwierigkeitsgrad: einfach einfach , Mittel Mittel , hart hart , sehr schwer sehr schwer
  • erfordert Mathematik ( erfordert Mathematik )
  • erfordert Codierung ( erfordert Codierung )
  • Datensammlung ( Datensammlung )
  • meine Favoriten ( mein Liebling )
  1. [ Mittel , mein Liebling ] Algorithmic Confounding war ein Problem mit Google Grippe-Trends. Lesen Sie die Arbeit von Lazer et al. (2014) , und schreiben Sie eine kurze, klare E-Mail an einen Techniker bei Google, in dem das Problem erläutert und eine Idee zur Fehlerbehebung gegeben wird.

  2. [ Mittel ] Bollen, Mao, and Zeng (2011) behaupten, dass Daten von Twitter verwendet werden könnten, um den Aktienmarkt vorherzusagen. Diese Erkenntnis führte zur Gründung eines Hedgefonds - Derwent Capital Markets -, der auf der Grundlage von Daten aus Twitter (Jordan 2010) in den Aktienmarkt investiert. Welche Beweise möchten Sie sehen, bevor Sie Ihr Geld in diesen Fonds investieren?

  3. [ einfach ] Während einige Befürworter des öffentlichen Gesundheitswesens E-Zigaretten als wirksame Hilfe bei der Raucherentwöhnung betrachten, warnen andere vor den potenziellen Risiken wie dem hohen Nikotingehalt. Stellen Sie sich vor, ein Forscher beschließt, die öffentliche Meinung zu E-Zigaretten zu untersuchen, indem er E-Zigaretten-bezogene Twitter-Beiträge sammelt und Stimmungsanalysen durchführt.

    1. Was sind die drei möglichen Vorurteile, über die Sie sich in dieser Studie am meisten Sorgen machen?
    2. Clark et al. (2016) lief gerade so eine Studie. Zunächst sammelten sie 850.000 Tweets, die E-Zigaretten-bezogene Keywords von Januar 2012 bis Dezember 2014 verwendeten. Bei näherer Betrachtung stellten sie fest, dass viele dieser Tweets automatisiert waren (dh nicht von Menschen produziert) und viele dieser automatisierten Tweets im Wesentlichen waren Werbung. Sie entwickelten einen menschlichen Erkennungsalgorithmus, um automatisierte Tweets von organischen Tweets zu trennen. Mit diesem Human Detect-Algorithmus fanden sie heraus, dass 80% der Tweets automatisiert waren. Ändert diese Feststellung Ihre Antwort auf Teil (a)?
    3. Wenn sie die Stimmung in organischen und automatisierten Tweets verglichen, stellten sie fest, dass die automatisierten Tweets positiver waren als organische Tweets (6,17 gegenüber 5,84). Ändert diese Feststellung Ihre Antwort auf (b)?
  4. [ einfach ] Im November 2009 änderte Twitter die Frage in der Tweet-Box von "Was machst du?" Zu "Was ist los?" (Https://blog.twitter.com/2009/whats-happening).

    1. Wie wird sich die Änderung der Ansagen auf die Tweets und / oder die Tweets auswirken?
    2. Benennen Sie ein Forschungsprojekt, für das Sie die Aufforderung "Was machst du?" Bevorzugen. Warum?
    3. Benennen Sie ein Forschungsprojekt, für das Sie die Aufforderung "Was passiert?" Bevorzugen. Erklären Sie warum.
  5. [ einfach ] "Retweets" werden oft verwendet, um den Einfluss und die Verbreitung von Einfluss auf Twitter zu messen. Zunächst mussten die Benutzer den Tweet, den sie mochten, kopieren und einfügen, den ursprünglichen Autor mit seinem Handle versehen und "RT" vor dem Tweet manuell eingeben, um anzuzeigen, dass es sich um ein Retweet handelte. Im Jahr 2009 fügte Twitter dann einen "Retweet" -Knopf hinzu. Im Juni 2016 ermöglichte es Twitter Nutzern, ihre eigenen Tweets zu retweeten (https://twitter.com/twitter/status/742749353689780224). Denkst du, dass diese Änderungen sich darauf auswirken sollten, wie du "Retweets" in deiner Forschung verwendest? Warum oder warum nicht?

  6. [ sehr schwer , Datensammlung , erfordert Codierung , mein Liebling ] Michel und Kollegen (2011) in einem vieldiskutierten Papier den Inhalt von mehr als fünf Millionen digitalisierter Bücher analysiert, um langfristige kulturelle Trends zu identifizieren. Die Daten, die sie verwendet haben, wurden nun als Google-NGrams-Datensatz veröffentlicht, sodass wir die Daten verwenden können, um einige ihrer Arbeiten zu replizieren und zu erweitern.

    In einem der vielen Ergebnisse in dem Papier argumentierten Michel und Kollegen, dass wir immer schneller vergessen. Für ein bestimmtes Jahr, etwa "1883", berechneten sie den Anteil von 1 Gramm, der in jedem Jahr zwischen 1875 und 1975 veröffentlicht wurde und "1883" war. Sie argumentierten, dass dieser Anteil ein Maß für das Interesse an Ereignissen in diesem Jahr ist. In ihrer Abbildung 3a zeichneten sie die Nutzungsverläufe für drei Jahre auf: 1883, 1910 und 1950. Diese drei Jahre teilen ein gemeinsames Muster: wenig Gebrauch vor diesem Jahr, dann eine Spitze, dann Verfall. Als nächstes berechneten Michel und Kollegen für jedes Jahr zwischen 1875 und 1975 die "Halbwertzeit" jedes Jahrs, um die Verfallsrate für jedes Jahr zu quantifizieren. In ihrer Abbildung 3a (Einschub) zeigten sie jeweils die Halbwertszeit Das Jahr ist rückläufig und sie argumentieren, dass dies bedeutet, dass wir die Vergangenheit schneller und schneller vergessen. Sie verwendeten die Version 1 des Korpus der englischen Sprache, aber Google veröffentlichte daraufhin eine zweite Version des Korpus. Bitte lesen Sie alle Teile der Frage, bevor Sie mit der Programmierung beginnen.

    In dieser Übung können Sie wiederverwendbaren Code schreiben, Ergebnisse interpretieren und Daten verwirren (z. B. Arbeiten mit umständlichen Dateien und Umgang mit fehlenden Daten). Diese Aktivität hilft Ihnen auch dabei, mit einem umfangreichen und interessanten Dataset zu arbeiten.

    1. Holen Sie sich die Rohdaten von der Google Books-Website von NGram Viewer. Insbesondere sollten Sie die Version 2 des englischsprachigen Korpus verwenden, die am 1. Juli 2012 veröffentlicht wurde. Unkomprimiert ist diese Datei 1,4 GB.

    2. Erstellen Sie den Hauptteil von Abbildung 3a von Michel et al. (2011) . Um diese Figur neu zu erstellen, benötigen Sie zwei Dateien: die eine, die Sie in Teil (a) heruntergeladen haben, und die Datei "Gesamtzählung", mit der Sie die Rohzählungen in Proportionen umwandeln können. Beachten Sie, dass die Gesamtzähldatei eine Struktur aufweist, die das Einlesen etwas schwierig macht. Liefert Version 2 der NGram-Daten ähnliche Ergebnisse wie die in Michel et al. (2011) , die auf Daten der Version 1 basieren?

    3. Überprüfen Sie nun Ihr Diagramm mit dem vom NGram Viewer erstellten Diagramm.

    4. Erstellen Sie die Abbildung 3a (Hauptfigur) neu, aber ändern Sie die \(y\) Achse so, dass sie die rohe Erwähnung zählt (nicht die Rate der Erwähnungen).

    5. Führt der Unterschied zwischen (b) und (d) zu einer Neubewertung der Ergebnisse von Michel et al. (2011). Warum oder warum nicht?

    6. Verwenden Sie nun den Anteil der Erwähnungen, replizieren Sie den Einsatz von Abbildung 3a. Das heißt, für jedes Jahr zwischen 1875 und 1975, berechnen Sie die Halbwertszeit dieses Jahres. Die Halbwertszeit ist definiert als die Anzahl der Jahre, die vergeht, bevor der Anteil der Erwähnungen die Hälfte seines Höchstwerts erreicht. Beachten Sie, dass Michel et al. (2011) etwas komplizierter, um die Halbwertszeit abzuschätzen - siehe Abschnitt III.6 der Online-Unterlage -, behaupten aber, dass beide Ansätze zu ähnlichen Ergebnissen führen. Bietet Version 2 der NGram-Daten ähnliche Ergebnisse wie die in Michel et al. (2011) , die auf Daten der Version 1 basieren? (Tipp: Seien Sie nicht überrascht, wenn es nicht so ist.)

    7. Gab es Jahre, die Ausreißer waren, wie Jahre, die besonders schnell oder besonders langsam vergessen wurden? Spekulieren Sie kurz über mögliche Gründe für dieses Muster und erklären Sie, wie Sie die Ausreißer identifiziert haben.

    8. Jetzt replizieren Sie dieses Ergebnis für Version 2 der NGrams-Daten in Chinesisch, Französisch, Deutsch, Hebräisch, Italienisch, Russisch und Spanisch.

    9. Gab es über Jahre hinweg Ausreißer in allen Sprachen, z. B. Jahre, die besonders schnell oder besonders langsam vergessen wurden? Kurz über mögliche Gründe für dieses Muster spekulieren.

  7. [ sehr schwer , Datensammlung , erfordert Codierung , mein Liebling ] Penney (2016) untersuchte, ob die verbreitete Öffentlichkeitsarbeit über die NSA / PRISM-Überwachung (dh die Snowden-Enthüllungen) im Juni 2013 mit einem plötzlichen und plötzlichen Rückgang der Zugriffe auf Wikipedia-Artikel zu Themen verbunden war, die Bedenken hinsichtlich des Datenschutzes aufkommen lassen. Wenn dies der Fall ist, würde diese Verhaltensänderung mit einem abschreckenden Effekt der Massenüberwachung übereinstimmen. Der Ansatz von Penney (2016) wird manchmal als unterbrochenes Zeitreihen- Design bezeichnet und steht im Zusammenhang mit den in Abschnitt 2.4.3 beschriebenen Ansätzen.

    Um die Schlagworte des Themas auszuwählen, bezog sich Penney auf die vom US-Heimatschutzministerium für die Verfolgung und Überwachung von sozialen Medien verwendete Liste. Die DHS-Liste kategorisiert bestimmte Suchbegriffe in eine Reihe von Themen, z. B. "Gesundheitsprobleme", "Infrastruktursicherheit" und "Terrorismus". Für die Studiengruppe verwendete Penney die 48 Schlüsselwörter zu "Terrorismus" (siehe Anhang Tabelle 8) ). Anschließend hat er für einen Zeitraum von 32 Monaten, beginnend Anfang Januar 2012 bis Ende August 2014, die Artikel-Views von Wikipedia monatlich für die entsprechenden 48 Wikipedia-Artikel aggregiert. Um seine Argumentation zu stärken, hat er auch mehrere Vergleichsgruppen per Tracking erstellt Artikelansichten zu anderen Themen.

    Jetzt werden Sie Penney (2016) replizieren und erweitern. Alle Rohdaten, die Sie für diese Aktivität benötigen, sind in Wikipedia verfügbar. Oder Sie bekommen es aus dem R-Paket wikipediatrend (Meissner and R Core Team 2016) . Wenn Sie Ihre Antworten schreiben, beachten Sie bitte, welche Datenquelle Sie verwendet haben. (Beachten Sie, dass diese Aktivität auch in Kapitel 6 angezeigt wird.) Diese Übung ermöglicht Ihnen das Üben von Daten und das Nachdenken über natürliche Experimente in großen Datenquellen. Außerdem erhalten Sie eine potentiell interessante Datenquelle für zukünftige Projekte.

    1. Lies Penney (2016) und repliziere seine Abbildung 2, die die Seitenansichten für "Terrorismus" -bezogene Seiten vor und nach den Snowden-Enthüllungen zeigt. Interpretieren Sie die Ergebnisse.
    2. Als nächstes replizieren Sie Abbildung 4A, die die Studiengruppe ("Terrorismus" -bezogene Artikel) mit einer Vergleichsgruppe unter Verwendung von Stichwörtern vergleicht, die unter "DHS & andere Agenturen" aus der DHS-Liste kategorisiert sind (siehe Anhang Tabelle 10 und Fußnote 139). Interpretieren Sie die Ergebnisse.
    3. In Teil (b) haben Sie die Studiengruppe mit einer Vergleichsgruppe verglichen. Penney verglichen auch mit zwei anderen Komparator-Gruppen: "Infrastructure Security" verwandte Artikel (Anhang Tabelle 11) und populäre Wikipedia-Seiten (Anhang Tabelle 12). Stellen Sie sich eine alternative Vergleichsgruppe vor und testen Sie, ob die Ergebnisse aus Teil (b) für Ihre Wahl der Vergleichsgruppe empfindlich sind. Welche Wahl ist am sinnvollsten? Warum?
    4. Penney erklärte, dass Schlüsselwörter für "Terrorismus" verwendet wurden, um die Wikipedia-Artikel auszuwählen, weil die US-Regierung den Terrorismus als eine wichtige Rechtfertigung für seine Online-Überwachungspraktiken ansah. Zur Überprüfung dieser 48 "Terrorismus" -bezogenen Stichwörter führte Penney (2016) auch eine Umfrage zu MTurk durch und forderte die Befragten auf, jedes der Schlüsselwörter in Bezug auf Probleme mit der Regierung, Privatsphäre und Vermeidung zu bewerten (Anhang Tabelle 7 und 8) ). Replizieren Sie die Umfrage auf MTurk und vergleichen Sie Ihre Ergebnisse.
    5. Berücksichtigen Sie anhand der Ergebnisse in Teil (d) und Ihrer Lektüre des Artikels, dass Penney die Themenstichwörter in der Studiengruppe ausgewählt hat? Warum oder warum nicht? Wenn nicht, was würden Sie stattdessen vorschlagen?
  8. [ einfach ] Efrati (2016) berichtete auf der Grundlage vertraulicher Informationen, dass "Total Sharing" auf Facebook im Jahresvergleich um etwa 5,5% zurückgegangen sei, während "Original Broadcast Sharing" im Jahresvergleich um 21% zurückgegangen sei. Dieser Rückgang war besonders akut bei Facebook-Nutzern unter 30 Jahren. Der Bericht führte den Rückgang auf zwei Faktoren zurück. Einer ist die Zunahme der "Freunde", die Menschen auf Facebook haben. Der andere ist, dass sich einige Sharing-Aktivitäten auf Messaging und Konkurrenten wie Snapchat verlagert haben. Der Bericht enthüllte auch die verschiedenen Taktiken, die Facebook versucht hatte, den Austausch zu fördern, einschließlich Optimierungen des News Feed-Algorithmus, die originale Posts prominenter machen, sowie regelmäßige Erinnerungen an die ursprünglichen Posts mit der Funktion "On This Day". Welche Konsequenzen haben diese Erkenntnisse für Forscher, die Facebook als Datenquelle nutzen wollen?

  9. [ Mittel ] Was ist der Unterschied zwischen einem Soziologen und einem Historiker? Nach Goldthorpe (1991) besteht der Hauptunterschied in der Kontrolle der Datenerhebung. Historiker sind gezwungen, Relikte zu verwenden, während Soziologen ihre Datenerfassung auf bestimmte Zwecke abstimmen können. Lesen Sie Goldthorpe (1991) . Wie ist der Unterschied zwischen Soziologie und Geschichte auf die Idee von custommades und Readymades bezogen?

  10. [ hart ] Dies baut auf der vorherigen Frage auf. Goldthorpe (1991) zog eine Reihe kritischer Antworten, darunter eine von Nicky Hart (1994) , die Goldthorpes Hingabe zu maßgeschneiderten Daten herausforderte. Um die potenziellen Einschränkungen maßgeschneiderter Daten zu verdeutlichen, beschrieb Hart das "Affluent Worker Project", eine große Umfrage zur Messung der Beziehung zwischen sozialer Klasse und Stimmverhalten, die Mitte der 1960er Jahre von Goldthorpe und Kollegen durchgeführt wurde. Wie man von einem Gelehrten erwarten könnte, der entworfene Daten gegenüber gefundenen Daten favorisierte, sammelte das Wohlhabende Arbeiterprojekt Daten, die zugeschnitten waren, um eine kürzlich vorgeschlagene Theorie über die Zukunft der sozialen Klasse in einer Ära steigender Lebensstandards anzusprechen. Aber "Goldthorpe und Kollegen" haben irgendwie "vergessen", Informationen über das Wahlverhalten von Frauen zu sammeln. So hat Nicky Hart (1994) die ganze Episode zusammengefasst:

    "... es ist schwierig, die Schlussfolgerung zu vermeiden, dass Frauen ausgelassen wurden, weil dieser" maßgeschneiderte "Datensatz durch eine paradigmatische Logik begrenzt war, die weibliche Erfahrungen ausschloss. Getrieben von einer theoretischen Vision des Klassenbewusstseins und des Handelns als männlicher Beschäftigung ... konstruierten Goldthorpe und seine Kollegen eine Reihe von empirischen Beweisen, die ihre eigenen theoretischen Annahmen nährten und förderten, anstatt sie einer gültigen Eignungsprüfung zu unterziehen. "

    Hart fuhr fort:

    "Die empirischen Ergebnisse des Affluent Worker Projects erzählen uns mehr über die maskulinistischen Werte der Soziologie der Mitte des Jahrhunderts, als sie die Prozesse von Stratifikation, Politik und materiellem Leben beeinflussen."

    Können Sie an andere Beispiele denken, bei denen eine maßgeschneiderte Datensammlung die Vorurteile des Datensammlers enthält? Wie ist das mit algorithmischen Confounding zu vergleichen? Welche Auswirkungen könnte dies haben, wenn Forscher ReadyMades verwenden sollten und wann sie CustomMades verwenden sollten?

  11. [ Mittel ] In diesem Kapitel habe ich Daten, die von Forschern für Forscher gesammelt wurden, mit administrativen Aufzeichnungen verglichen, die von Unternehmen und Regierungen erstellt wurden. Einige Leute nennen diese administrativen Aufzeichnungen "gefundene Daten", die sie mit "entworfenen Daten" kontrastieren. Es ist wahr, dass administrative Aufzeichnungen von Forschern gefunden werden, aber sie sind auch hoch entwickelt. Zum Beispiel arbeiten moderne Technologieunternehmen sehr hart, um ihre Daten zu sammeln und zu kuratieren. Daher werden diese administrativen Aufzeichnungen sowohl gefunden als auch entworfen, es hängt nur von Ihrer Perspektive ab (Abbildung 2.12).

    Abbildung 2.12: Das Bild ist sowohl eine Ente als auch ein Hase; Was Sie sehen, hängt von Ihrer Perspektive ab. Große Datenquellen werden gefunden und entworfen; wieder, was du siehst, hängt von deiner Perspektive ab. Zum Beispiel werden die Anrufdatensätze, die von einer Mobiltelefongesellschaft gesammelt werden, Daten aus der Perspektive eines Forschers gefunden. Aber diese exakt gleichen Datensätze sind Daten aus der Perspektive einer Person, die in der Rechnungsabteilung der Telefongesellschaft arbeitet. Quelle: Popular Science Monthly (1899) / Wikimedia Commons.

    Abbildung 2.12: Das Bild ist sowohl eine Ente als auch ein Hase; Was Sie sehen, hängt von Ihrer Perspektive ab. Große Datenquellen werden gefunden und entworfen; wieder, was du siehst, hängt von deiner Perspektive ab. Zum Beispiel werden die Anrufdatensätze, die von einer Mobiltelefongesellschaft gesammelt werden, Daten aus der Perspektive eines Forschers gefunden. Aber diese exakt gleichen Datensätze sind Daten aus der Perspektive einer Person, die in der Rechnungsabteilung der Telefongesellschaft arbeitet. Quelle: Popular Science Monthly (1899) / Wikimedia Commons .

    Geben Sie ein Beispiel für eine Datenquelle an, bei der es hilfreich ist, sie sowohl als gefunden als auch als entworfen zu betrachten, wenn Sie diese Datenquelle für die Recherche verwenden.

  12. [ einfach ] Christian Sandvig und Eszter Hargittai (2015) teilten in einem nachdenklichen Essay die digitale Forschung in zwei große Kategorien ein, je nachdem, ob das digitale System ein "Instrument" oder ein "Lernobjekt" ist. Ein Beispiel für die erste Art - wo das System ist Ein Instrument - das ist die Untersuchung von Bengtsson und Kollegen (2011) über die Nutzung von Mobiltelefondaten zur Nachverfolgung der Migration nach dem Erdbeben in Haiti im Jahr 2010. Ein Beispiel für die zweite Art, bei der das System Gegenstand des Studiums ist, ist die Forschung von Jensen (2007) darüber, wie die Einführung von Mobiltelefonen in Kerala, Indien, die Funktionsweise des Fischmarktes beeinflusste. Ich finde diese Unterscheidung hilfreich, weil sie klarstellt, dass Studien mit digitalen Datenquellen durchaus unterschiedliche Ziele verfolgen können, selbst wenn sie die gleiche Art von Datenquelle verwenden. Um diese Unterscheidung zu verdeutlichen, beschreiben Sie vier Studien, die Sie gesehen haben: zwei, die ein digitales System als ein Instrument verwenden, und zwei, die ein digitales System als Untersuchungsobjekt verwenden. Sie können Beispiele aus diesem Kapitel verwenden, wenn Sie möchten.