Schlüssel:
[ . ] Algorithmic verwirrende gab ein Problem mit Google Grippe-Trends. Lesen Sie das Papier von Lazer et al. (2014) , und schreiben Sie eine kurze, klare E - Mail an einen Ingenieur bei Google erklärt das Problem und bietet eine Vorstellung davon , wie das Problem zu beheben.
[ ] Bollen, Mao, and Zeng (2011) behauptet , dass Daten von Twitter verwendet werden kann , den Aktienmarkt zu prognostizieren. Diese Erkenntnis führte zur Gründung eines Hedge - Fonds-Derwent Kapital in den Aktienmarkt Markets zu investieren basiert auf Daten von Twitter gesammelt (Jordan 2010) . Welche Beweise würden Sie sehen wollen, bevor Sie Ihr Geld in diesem Fonds setzen?
[ ] Während einige öffentliche Gesundheit befürwortet E-Zigaretten als eine wirksame Hilfe zur Raucherentwöhnung Hagel, warnen andere über die möglichen Risiken, wie zum Beispiel die Hochebenen von Nikotin. Stellen Sie sich vor, dass ein Forscher die öffentliche Meinung zu E-Zigaretten zu untersuchen entscheidet per E-Zigaretten-bezogene Twitter Beiträge zu sammeln und Sentiment-Analyse durchführen.
[ ] Im November 2009 änderte Twitter die Frage in dem Tweet-Box von "Was machst du da?" Zu "Was ist los?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analysiert 41.700.000 Benutzerprofile, 1,47 Milliarden soziale Beziehungen, 4262 Trending Topics und 106 Millionen Tweets zwischen dem 6. Juni und 31. Juni 2009. Auf der Grundlage dieser Analyse sie zu dem Schluss , dass Twitter mehr als ein neues Informationsmedium dient als ein Austausch von Soziales Netzwerk.
[ ] "Retweets" häufig zu messen, Einfluss und die Ausbreitung des Einflusses auf Twitter benutzt. Zunächst mussten die Benutzer den Tweet sie gern kopieren und einfügen, mit seinen / ihren Griff, um den ursprünglichen Autor markieren, und manuell "RT" vor dem Tweet geben, um anzuzeigen, dass es sich um ein retweet ist. Dann im Jahr 2009 hinzugefügt Twitter ein "Retweet" Taste. Im Juni 2016 machte Twitter können Benutzer ihre eigenen Tweets retweet (https://twitter.com/twitter/status/742749353689780224). Denken Sie, diese Änderungen sollten beeinflussen, wie Sie "Retweets" in Ihrer Forschung verwenden? Warum oder warum nicht?
[ . . ] Michel et al. (2011) konstruiert einen Korpus aus dem Google-Aufwand Schwellen Bücher zu digitalisieren. Mit der ersten Version des Korpus, die im Jahr 2009 und enthielt mehr als 5 Millionen digitalisierte Bücher veröffentlicht wurde, analysiert die Autoren Wort Nutzungshäufigkeit zu sprachlichen Veränderungen und kulturellen Trends untersuchen. Bald wurde das Google Books Corpus eine beliebte Datenquelle für Forscher, und eine zweite Version der Datenbank wurde im Jahr 2012 veröffentlicht.
Allerdings Pechenick, Danforth, and Dodds (2015) davor gewarnt , dass die Forscher müssen vollständig den Bemusterungsprozess des Corpus charakterisieren , bevor es zum Zeichnen allgemeinen Schlussfolgerungen mit. Das Hauptproblem ist, dass der Korpus Bibliothek artig ist, ein jedes Buch enthält. Als Ergebnis wird ein Individuum, ist produktiver Autor in der Lage spürbar neue Sätze in die Google Bücher Lexikon einfügen. Überdies bilden wissenschaftliche Texte zunehmend inhaltliche Teil des Korpus in den 1900er Jahren. Zusätzlich wird durch den Vergleich von zwei Versionen der englischen Fiction Datensätze Pechenick et al. Beweise gefunden, dass eine unzureichende Filterung bei der Herstellung der ersten Version verwendet wurde. Alle die für die Aktivität benötigten Daten finden Sie hier: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ . . . ] Penney (2016) untersucht , ob die breite Öffentlichkeit über NSA / PRISM Überwachung (dh die Snowden Offenbarungen) im Juni 2013 zu Wikipedia - Artikeln zu Themen plötzlichen und starken Rückgang der Verkehr, der Privatsphäre im Zusammenhang mit Bedenken aufwerfen. Wenn ja, würde diese Änderung im Verhalten mit einer abschreckende Wirkung im Einklang von Massenüberwachung zur Folge hat. Der Ansatz von Penney (2016) wird manchmal als eine unterbrochene Serie Design - Zeit und wird zu den Ansätzen in das Kapitel beziehen über Experimente von Beobachtungsdaten (Abschnitt 2.4.3) annähert.
Um das Thema Keywords wählen, bezeichnet Penney in die Liste von US-Ministerium für innere Sicherheit verwendet für die Verfolgung und Überwachung von Social Media. Die DHS Liste bestimmte Suchbegriffe in einer Reihe von Fragen, das heißt "Gesundheitsbewusstsein", "Infrastructure Security" und "Terrorismus stuft." Für die Studie Gruppe, verwendet Penney die achtundvierzig Schlüsselwörter im Zusammenhang mit "Terrorismus" (siehe Tabelle 8 Anhang). Er Wikipedia-Artikel Ansicht zählt dann für die entsprechenden achtundvierzig Wikipedia-Artikel über einen 32 Monate Zeitraum auf monatlicher Basis aggregiert, von Anfang Januar 2012 bis Ende August 2014 Um sein Argument zu stärken, schuf er auch mehrere Vergleich Gruppen, die durch Artikel Ansichten zu anderen Themen zu verfolgen.
Nun werden Sie replizieren und erweitern Penney (2016) . Alle Rohdaten, die Sie für diese Tätigkeit benötigen ist von Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Oder Sie können es aus dem R - Paket wikipediatrend erhalten (Meissner and Team 2016) - (Meissner and Team 2016) . Wenn Sie Ihre Antworten Zuschreibung, bitte beachten Sie, welche Datenquelle verwendet. (Anmerkung: Die gleiche Aktivität wird auch in Kapitel 6)
[ ] Efrati (2016) berichtet, basierend auf vertraulichen Informationen, dass "total - Sharing" auf Facebook um etwa 5,5% gegenüber dem Vorjahr zurückgegangen war , während "Live - Ausstrahlung sharing" ein Rückgang um 21% gegenüber dem Vorjahr war. Dieser Rückgang war besonders akut mit Facebook-Nutzer unter 30 Jahren. Der Bericht führte den Rückgang auf zwei Faktoren zurückzuführen. Eine davon ist die Zunahme der Zahl der "Freunde" Menschen haben auf Facebook. Die andere ist, dass einige Austausch-Aktivität wurde zu Messaging verschoben und zu Konkurrenten wie Snapchat. Der Bericht zeigte auch, die verschiedenen Taktiken Facebook versucht hatte Sharing zu steigern, einschließlich News Feed Algorithmus zwickt, die ursprünglichen Beiträge mehr im Vordergrund, sowie regelmäßige Erinnerungen an die ursprünglichen Beiträge Benutzer "An diesem Tag" vor einigen Jahren machen. Welche Auswirkungen, wenn überhaupt, hat diese Erkenntnisse für die Forscher, die Facebook als Datenquelle verwendet werden soll?
[ ] Tumasjan et al. (2010) berichtet , dass Anteil der Tweets eine politische Partei entsprach der Anteil der Stimmen zu erwähnen , die Partei im Jahr 2009 in der deutschen Bundestagswahl erhalten (Abbildung 2.9). Mit anderen Worten, schien es, dass Sie Twitter zur Vorhersage der Wahl nutzen könnten. Zum Zeitpunkt dieser Studie veröffentlicht wurde, wurde es extrem spannend betrachtet, weil es einen wertvollen Einsatz für eine gemeinsame Quelle von großen Daten deuten darauf hin, schien.
aber die schlechten Eigenschaften der großen Daten gegeben, sollten Sie sofort skeptisch dieses Ergebnis. Deutsche auf Twitter im Jahr 2009 waren eine recht nicht repräsentative Gruppe und Anhänger einer Partei könnte über Politik häufiger twittern. So scheint es überraschend, dass alle möglichen Vorurteile, die man irgendwie würde kündigen sich vorstellen konnte. In der Tat sind die Ergebnisse in Tumasjan et al. (2010) stellte sich heraus , zu gut , um wahr zu sein. In ihrem Papier, Tumasjan et al. (2010) als sechs politischen Parteien: Christdemokraten (CDU), Christian Sozialdemokraten (CSU), SPD, Liberalen (FDP), Die Linke (Die Linke) und die Grüne Partei (Grüne). die genannten deutschen politischen Partei auf Twitter jedoch zu diesem Zeitpunkt war die Piratenpartei (Piraten), eine Partei, die staatliche Regulierung des Internets kämpft. Wenn die Piratenpartei in die Analyse einbezogen wurde, erwähnt Twitter eine schreckliche Prädiktor der Wahlergebnisse wird (Abbildung 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Anschließend andere Forscher auf der ganzen Welt verwendet haben ausgefallenere Methoden-wie Sentiment - Analyse unter Verwendung von zwischen positiven und negativen zu unterscheiden erwähnt der Parteien-in , um die Fähigkeit von Twitter - Daten zu verbessern , um eine Vielzahl von verschiedenen Arten von Wahlen zur Vorhersage (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hier ist , wie Huberty (2015) fasst die Ergebnisse dieser Versuche Wahlen vorherzusagen:
"Alle bekannten Prognoseverfahren auf Basis von Social Media versagt haben, wenn sie den Anforderungen einer echten vorausschauenden Wahlprognosen unterzogen. Diese Fehler erscheinen wegen der grundlegenden Eigenschaften von sozialen Medien zu sein, anstatt auf methodische oder algorithmische Schwierigkeiten. Kurz gesagt, Social Media nicht, und wahrscheinlich wird es nie, bieten eine stabile, unvoreingenommen, repräsentatives Bild der Wähler; und Convenience-Proben von Social Media ausreichend Daten fehlen diese Probleme zu beheben hoc schreiben. "
Lesen Sie einige der Forschung , die führen Huberty (2015) zu diesem Schluss, und schreiben Sie eine eine Seite Memo an einen politischen Kandidaten zu beschreiben , ob und wie Twitter verwendet werden soll Wahlen zu prognostizieren.
[ Was] ist der Unterschied zwischen einem Soziologen und Historiker? Laut Goldthorpe (1991) , der größte Unterschied zwischen einem Soziologen und Historiker ist die Kontrolle über die Datenerfassung. Die Historiker sind gezwungen, Reliquien zu verwenden, während die Soziologen ihre Datensammlung zu bestimmten Zwecken anpassen können. Lesen Goldthorpe (1991) . Wie ist der Unterschied zwischen Soziologie und Geschichte an der Idee von Custommades bezogen und Readymades?
[ ] Auf die vorhergehende Frage Gebäude, Goldthorpe (1991) zog eine Reihe von kritischen Reaktionen, darunter eines von Nicky Hart (1994) , die Goldthorpe Hingabe gefordert, aus Daten anzupassen. Um die möglichen Einschränkungen von maßgeschneiderten Daten verdeutlichen, beschrieben Hart das Affluent Worker-Projekt, eine große Umfrage, die die Beziehung zwischen der sozialen Klasse und an der Abstimmung zu messen, die von Goldthorpe und Kollegen in der Mitte der 1960er Jahre durchgeführt wurde. Wie man es von einem Gelehrten erwarten könnte, die Daten über gefundenen Daten entworfen gewünschtes, sammelte die Affluent Worker Projektdaten, die eine vor kurzem vorgeschlagene Theorie zur Adresse über die Zukunft der sozialen Klasse in einer Zeit der steigenden Lebensstandards zugeschnitten wurde. Aber Goldthorpe und Kollegen irgendwie "vergessen", Informationen über das Wahlverhalten von Frauen zu sammeln. Hier ist , wie Nicky Hart (1994) Zusammenfassungen die ganze Episode:
". . . es [ist] schwierig, die Schlussfolgerung zu vermeiden, dass Frauen weggelassen wurden, weil diese "maßgeschneiderte" Daten-Set durch eine paradigmatische Logik beschränkt war, die weibliche Erfahrung ausgeschlossen. Angetrieben durch eine theoretische Vision von Klassenbewusstsein und Handeln als männliche Anliegen. . . , Goldthorpe und seine Kollegen eine Reihe von empirischen Beweise konstruiert, die ihre eigenen theoretischen Annahmen gefüttert und gepflegt, statt sie auf einen gültigen Test der Angemessenheit auszusetzen. "
Hart fuhr fort:
"Die empirischen Ergebnisse des Affluent Worker-Projekt erzählen Sie uns mehr über die maskulinistischen Werte der Mitte des Jahrhunderts Soziologie als sie die Prozesse der Schichtung, Politik und materielle Leben zu informieren."
Können Sie weitere Beispiele denken, wo maßgeschneiderte Datenerfassung die Voreingenommenheit des Datensammlers in sie eingebaut hat? Wie wirkt sich das auf algorithmische verwirrende vergleichen? Welche Auswirkungen könnte dies für haben, wenn Forscher Readymades verwenden sollten, und wenn sie Custommades verwenden sollten?
[ In diesem Kapitel], gegen ich von den Forschern für Forscher mit administrativen Aufzeichnungen von Unternehmen und Regierungen erhobenen Daten. Manche Leute nennen diese Verwaltungsakten "Daten gefunden", die sie mit Kontrast "entwickelt, um Daten." Es ist wahr, dass die administrativen Aufzeichnungen von Forschern gefunden werden, aber sie sind auch sehr entwickelt. Zum Beispiel verbringen moderne Tech-Unternehmen enorm viel Zeit und Ressourcen zu sammeln und ihre Daten kuratieren. Somit werden diese Verwaltungsakten sowohl gefunden und entwickelt, es hängt nur von Ihrer Perspektive (Abbildung 2.10).
ein Beispiel einer Datenquelle zur Verfügung stellen, wo es zu sehen, sowohl als gefunden und entwickelt hilfreich ist, wenn diese Datenquelle für die Forschung mit.
[ ] In einem nachdenklichen Essay, Christian Sandvig und Eszter Hargittai (2015) Ein Beispiel für die erste Art von Studie ist , wo Bengtsson und Kollegen zwei Arten von digitalen Forschung beschreiben, wo das digitale System "Instrument" oder "Gegenstand der Studie." (2011) verwendet Handy Datenmigration nach dem Erdbeben in Haiti im Jahr 2010. Ein Beispiel für die zweite Art zu verfolgen ist , wo Jensen (2007) untersucht , wie die Einführung von Mobiltelefonen in ganz Kerala, Indien , das Funktionieren des Marktes für Fisch beeinflusst. Das finde ich hilfreich, weil es verdeutlicht, dass Studien digitalen Datenquellen haben ganz andere Ziele, auch wenn sie die gleiche Art von Datenquelle verwenden. Um diese Unterscheidung weiter zu verdeutlichen, beschreiben vier Studien, die Sie gesehen haben: zwei, die ein digitales System als Instrument und zwei verwenden, die ein digitales System als Gegenstand der Studie verwenden. Sie können Beispiele aus diesem Kapitel verwenden, wenn Sie möchten.