Clé:
[ , ] Confusion Algorithmic avait un problème avec Google Flu Trends. Lire l'article de Lazer et al. (2014) , et écrire un court courriel clair pour un ingénieur de Google expliquant le problème et en offrant une idée de la façon de résoudre le problème.
[ ] Bollen, Mao, and Zeng (2011) affirme que les données de Twitter peuvent être utilisées pour prédire le marché boursier. Cette constatation a conduit à la création d'un fonds de couverture-Derwent Capital Markets à investir dans le marché boursier basé sur les données recueillies à partir de Twitter (Jordan 2010) . Quelles preuves voulez-vous voir avant de mettre votre argent dans ce fonds?
[ ] Alors que certains défenseurs de la santé publique saluent les cigarettes électroniques comme une aide efficace pour arrêter de fumer, d'autres mettent en garde contre les risques potentiels, tels que les hauts niveaux de nicotine. Imaginez qu'un chercheur décide d'étudier l'opinion publique vers e-cigarettes en recueillant les messages Twitter liés à l'e-cigarette et la réalisation d'analyses de sentiment.
[ ] En Novembre 2009, Twitter a changé la question dans la zone de tweet de "Que fais-tu?" À "Qu'est-ce qui se passe?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) ont analysé 41,7 millions de profils d'utilisateurs, 1,47 milliards de relations sociales, 4262 sujets tendances, et 106 millions de tweets entre le 6 Juin et le 31 Juin, 2009. Sur la base de cette analyse , ils ont conclu que Twitter sert plus comme un nouveau moyen de partage de l' information d'un réseau social.
[ ] "Retweets" sont souvent utilisés pour mesurer l'influence et la propagation de l'influence sur Twitter. Initialement, les utilisateurs devaient copier et coller le tweet qu'ils ont aimé, marquer l'auteur original avec son / sa poignée, et tapez manuellement "RT" avant le tweet pour indiquer qu'il est un retweet. Puis, en 2009 Twitter a ajouté un bouton "retweet". En Juin 2016, Twitter a permis aux utilisateurs de retweet leurs propres tweets (https://twitter.com/twitter/status/742749353689780224). Pensez-vous que ces changements devraient affecter la façon dont vous utilisez «retweets» dans votre recherche? Pourquoi ou pourquoi pas?
[ , , ] Michel et al. (2011) ont construit un corpus émergeant de l'effort de Google pour numériser les livres. Utilisation de la première version du corpus, qui a été publié en 2009 et contenait plus de 5 millions de livres numérisés, les auteurs ont analysé la fréquence d'utilisation mot pour étudier les changements linguistiques et tendances culturelles. Bientôt le Google Livres Corpus est devenu une source de données populaire pour les chercheurs, et une 2ème version de la base de données a été publié en 2012.
Cependant, Pechenick, Danforth, and Dodds (2015) a mis en garde que les chercheurs doivent caractériser le processus d'échantillonnage du corpus avant de l' utiliser pour tirer des conclusions générales. Le principal problème est que le corpus est une bibliothèque semblable, contenant un de chaque livre. En conséquence, un individu, auteur prolifique est capable d'insérer de nouvelles phrases sensiblement dans le lexique Google Livres. En outre, les textes scientifiques constituent une partie de plus en plus de fond du corpus tout au long des années 1900. En outre, en comparant deux versions des jeux de données fiction anglais, Pechenick et al. trouvé des preuves que le filtrage insuffisant a été utilisé dans la production de la première version. Toutes les données nécessaires à l'activité est disponible ici: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) examine si la publicité généralisée sur la surveillance / PRISM NSA ( à savoir les révélations Snowden) en Juin 2013 est associée à une diminution forte et soudaine du trafic vers les articles de Wikipedia sur des sujets qui soulèvent des problèmes de confidentialité. Si oui, ce changement de comportement serait compatible avec un effet dissuasif résultant de la surveillance de masse. L'approche de Penney (2016) est parfois appelé une conception de séries chronologiques interrompues et est en relation avec les approches dans le chapitre sur le rapprochement des expériences à partir des données d' observation (section 2.4.3).
Pour choisir les mots-clés sujet, Penney fait référence à la liste utilisée par le Département américain de la Sécurité intérieure pour le suivi et la surveillance des médias sociaux. La liste DHS catégorise certains termes de recherche dans une gamme de questions, à savoir «problème de santé», «Sécurité des infrastructures» et «terrorisme». Pour le groupe d'étude, Penney a utilisé les quarante-huit mots-clés liés au «terrorisme» (voir le tableau 8 Annexe). Il a ensuite agrégé article de Wikipedia le nombre de vues sur une base mensuelle pour les quarante-huit articles de Wikipedia correspondant sur une période de 32 mois, depuis le début de Janvier 2012 pour la fin de Août 2014. Pour renforcer son argumentation, il a également créé plusieurs comparaison groupes de suivi vues article sur d'autres sujets.
Maintenant, vous allez répliquer et étendre Penney (2016) . Toutes les données brutes que vous aurez besoin pour cette activité est disponible à partir de Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ou vous pouvez l' obtenir à partir du wikipediatrend package R (Meissner and Team 2016) . Lorsque vous écrivez-up vos réponses, s'il vous plaît noter que la source de données que vous avez utilisé. (Note: Cette même activité apparaît également dans le chapitre 6)
[ ] Efrati (2016) rapports, fondés sur des renseignements confidentiels, que «partage total» sur Facebook avait diminué d'environ 5,5% sur un an alors que « le partage de diffusion originale" a diminué l' année de 21% en glissement annuel. Cette baisse a été particulièrement aigu avec les utilisateurs de Facebook de moins de 30 ans. Le rapport a attribué la baisse à deux facteurs. La première est la croissance du nombre de «amis» les gens ont sur Facebook. L'autre est que certaines activités de partage a changé à la messagerie et à des concurrents tels que Snapchat. Le rapport a également révélé plusieurs tactiques Facebook avait essayé de stimuler le partage, y compris les Nouvelles Flux tweaks algorithme qui rendent les messages originaux plus important, ainsi que des rappels périodiques des originaux utilisateurs des messages «En ce jour" il y a plusieurs années. Quelles conséquences, le cas échéant, ne ces résultats ont pour les chercheurs qui veulent utiliser Facebook comme une source de données?
[ ] Tumasjan et al. (2010) ont rapporté que la proportion de tweets mentionnant un parti politique correspondait à la proportion de votes ce parti a reçu lors de l'élection parlementaire allemande en 2009 (figure 2.9). En d'autres termes, il est apparu que vous pouvez utiliser Twitter pour prédire l'élection. Au moment où cette étude a été publiée, il a été considéré comme extrêmement intéressant, car il semblait suggérer une utilisation précieuse pour une source commune de données importantes.
Compte tenu des mauvaises caractéristiques des grandes données, cependant, vous devez immédiatement être sceptique de ce résultat. Allemands sur Twitter en 2009 étaient un groupe tout à fait non représentatif, et les partisans de l'une des parties pourrait tweet sur la politique plus souvent. Ainsi, il semble surprenant que tous les biais possibles que vous pourriez imaginer serait en quelque sorte annuler. En effet, les résultats de Tumasjan et al. (2010) avéré être trop beau pour être vrai. Dans leur article, Tumasjan et al. (2010) a examiné six partis politiques: démocrates - chrétiens (CDU), chrétiens sociaux - démocrates (CSU), SPD, libéraux (FDP), La Gauche (Die Linke), et le Parti Vert (Grüne). Cependant, le plus mentionné parti politique allemand sur Twitter à ce moment-là était le Parti Pirate (Piraten), un parti qui combat la réglementation gouvernementale de l'Internet. Lorsque le Parti Pirate a été inclus dans l'analyse, Twitter mentionne devient un prédicteur terrible des résultats des élections (figure 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Par la suite, d' autres chercheurs du monde entier ont utilisé des méthodes telles fantaisistes que l' utilisation de l' analyse des sentiments pour distinguer entre positif et négatif mentionne des parties dans le but d'améliorer la capacité des données Twitter pour prédire une variété de différents types d'élections (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Voici comment Huberty (2015) a résumé les résultats de ces tentatives pour prédire les élections:
"Toutes les méthodes de prévision connues basées sur les médias sociaux ont échoué lorsqu'ils sont soumis aux exigences de la vraie prévision électorale prospective. Ces échecs semblent être dues à des propriétés fondamentales des médias sociaux, plutôt que des difficultés méthodologiques ou algorithmiques. En bref, les médias sociaux ne sont pas, et ne sera probablement jamais, offrir une étable impartiale, image, représentant de l'électorat; et des échantillons de convenance des médias sociaux manquent de données suffisantes pour résoudre ces problèmes post-hoc ".
Lisez quelques - unes des recherches qui mènent Huberty (2015) à cette conclusion, et d' écrire une seule page mémo à un candidat politique décrivant si et comment Twitter devrait être utilisé pour prévoir des élections.
[ ] Quelle est la différence entre un sociologue et historien? Selon Goldthorpe (1991) , la principale différence entre un sociologue et historien est le contrôle de la collecte de données. Les historiens sont obligés d'utiliser des reliques alors que les sociologues peuvent adapter leur collecte de données à des fins spécifiques. Lire Goldthorpe (1991) . Comment la différence entre la sociologie et l'histoire est liée à l'idée de Custommades et Readymades?
[ ] Construire sur la question précédente, Goldthorpe (1991) a attiré un certain nombre de réponses critiques, y compris celle de Nicky Hart (1994) qui a contesté la dévotion de Goldthorpe pour adapter les données faites. Afin de clarifier les limites potentielles de données sur mesure, Hart a décrit le projet Travailleur Influents, une grande enquête pour mesurer la relation entre la classe sociale et le vote qui a été menée par Goldthorpe et ses collègues dans le milieu des années 1960. Comme on pouvait s'y attendre d'un savant qui favorisaient conçu des données sur les données trouvées, le projet travailleur Influents a recueilli des données qui a été adaptée à aborder une théorie proposée récemment à propos de l'avenir de la classe sociale à une époque de plus en plus du niveau de vie. Mais, Goldthorpe et ses collègues en quelque sorte «oublié» de recueillir des informations sur le comportement de vote des femmes. Voici comment Nicky Hart (1994) résumés tout l' épisode:
». . . il [est] difficile d'éviter la conclusion que les femmes ont été omises parce que ce 'sur mesure' ensemble de données a été limitée par une logique paradigmatique qui excluait l'expérience des femmes. Poussé par une vision théorique de la conscience de classe et de l'action que les préoccupations des hommes. . . , Goldthorpe et ses collègues ont construit un ensemble de preuves empiriques qui ont alimenté et nourri leurs propres hypothèses théoriques au lieu de les exposer à un test valide d'adéquation. "
Hart a continué:
"Les résultats empiriques du projet des travailleurs Influents nous disent plus sur les valeurs masculinistes de la sociologie du milieu du siècle qu'ils informent les processus de stratification, la politique et la vie matérielle."
Pouvez-vous penser à d'autres exemples où la collecte de données sur mesure a les biais du collecteur de données construit en elle? Comment cela se compare à confusion algorithmique? Quelles conséquences cela pourrait avoir pour quand les chercheurs devraient utiliser Readymades et quand ils doivent utiliser Custommades?
[ ] Dans ce chapitre, je comparais les données recueillies par les chercheurs pour les chercheurs avec les dossiers administratifs créés par les entreprises et les gouvernements. Certaines personnes appellent ces dossiers administratifs "ont trouvé des données,» qu'ils contrastent avec "données conçues." Il est vrai que les dossiers administratifs sont trouvés par des chercheurs, mais ils sont également très conçus. Par exemple, les entreprises de technologie modernes passent énormément de temps et de ressources pour recueillir et prendre soin de leurs données. Ainsi, ces dossiers administratifs sont tous deux trouvés et conçus, cela dépend de votre point de vue (Figure 2.10).
Fournir un exemple de source de données où le voir à la fois que l'on trouve et conçu est utile lors de l'utilisation de cette source de données pour la recherche.
[ ] Dans un essai réfléchi, Christian Sandvig et Eszter Hargittai (2015) décrivent deux types de recherche numérique, où le système numérique est «instrument» ou «objet d'étude». Un exemple du premier type d'étude est où Bengtsson et ses collègues (2011) ont utilisé des données de téléphonie mobile pour suivre la migration après le séisme en Haïti en 2010. Un exemple du deuxième type est là Jensen (2007) étudie comment l'introduction de téléphones mobiles à travers le Kerala, en Inde affecté le fonctionnement du marché du poisson. Je trouve cela utile car elle précise que des études utilisant des sources de données numériques peuvent avoir tout à fait différents objectifs, même si elles utilisent le même genre de source de données. Afin de clarifier cette distinction, décrire quatre études que vous avez vu: deux qui utilisent un système numérique comme un instrument et deux qui utilisent un système numérique comme un objet d'étude. Vous pouvez utiliser des exemples de ce chapitre si vous voulez.