Aktivitéiten

Schlëssel:

  • Ofschloss vum Schwieregkeetsgrad: liicht einfach , mëttelfristeg mëttel- , schwéier schwéier , ganz schwéier ganz schwéier
  • verlaangt temporäre ( verlaangt temporäre )
  • verlaangt coding ( verlaangt coding )
  • Donnéeën Kollektioun ( Donnéeën Kollektioun )
  • meng Favoritten ( mäin Favorit )
  1. [ mëttel- , mäin Favorit ] Algorithmic confounding war e Problem mat Google Gripp Trends. Liest de Pabeier vun Lazer et al. (2014) , a schreiwen e kuerzen, kloer Email un en Ingenieur bei Google erkläert de Problem a stellt eng Iddi, wéi de Problem ze befestegt.

  2. [ mëttel- ] Bollen, Mao, and Zeng (2011) behaapt dass Daten vun Twitter benotzt ka der Bourse zu virauszesoen. Dëst brengt Nerve der Kreatioun vun engem sougenannten Fonds-Derwent Capital vun der Bourse Markets-ze investéieren baséiert op Donnéeën aus Twitter gesammelt (Jordan 2010) . Wat Beweiser géift Dir gesinn wëllen ier Är Suen an datt Fonds ausgebaut?

  3. [ einfach ] Während e puer ëffentlech Gesondheet Affekoten E-Zigarette wéi eng efficace Hëllef fir opzehalen Astelle Knëppelsteng, warnen anerem iwwer d'méiglech Risiken, wéi déi héich-Niveau vun Nikotin. Stellt Iech vir, e Fuerscher ëffentlech Meenung Richtung E-Zigaretten ze studéieren decidéiert E-Zigarette-wëssenschaftlech Twitter posts Sammelen a Choix Analyse Orchesterdirigéieren.

    1. Wat sinn déi dräi méiglech biases datt Dir am meeschten Suergen beschäftegen an dëser Etude?
    2. Clark et al. (2016) quasi wéi just eng Etude. Éischt, si 850,000 Tweets gesammelt datt E-Zigarette-Zesummenhang benotzt Schlësselwieder vum Januar 2012 duerch Dezember 2014. Beim enk gëtt, realiséiert se datt vill vun dësen Tweets automatiséiert waren (dh, net déi vun de Mënschen produzéiert) a vill vun dësen automatiséiert Tweets huet am Fong d'Wirtschaft limitéieren. Si entwéckelt engem Mënscherechter Detektioun Algorithmus automatiséiert Tweets aus Bio katapultéiert ze trennen. Anhand Mënscherechter Algorithmus entdecken se fonnt, datt 80% vun Tweets automatiséiert goufen. Geet dat brengt Är Äntwert ze Deel änneren (e)?
    3. Wann se de Choix vun organesch an automatiséiert Tweets Verglach fonnt se dass d'automatiséiert Tweets méi positiv si wéi Bio Tweets (6.17 versus 5.84). Geet dat brengt Är Äntwert un (b) änneren?
  4. [ einfach ] Am November 2009, geännert Twitter d'Fro vun der Jeffrey Këscht aus "Wat maacht dir?" An "Wat ass geschitt?" (Https://blog.twitter.com/2009/whats-happening).

    1. Wéi mengt Dir, d'Ännerung vun hin Afloss wäert deen Jeffrey an / oder wat si Jeffrey?
    2. Numm ee Fuerschungsprojet fir déi Dir géift d'rapid léiwer "Wat sidd Dir maacht?" Virwat.
    3. Numm ee Fuerschungsprojet fir déi Dir géift d'rapid léiwer "Wat ass geschitt?" Virwat.
  5. [ mëttel- ] Kwak et al. (2010) analyséiert 41.7 Millioune Benotzer Profiler, 1.47 Milliarden sozial Relatiounen, 4262 Kategorie, an 106 Milliounen Tweets tëscht 6. Juni a Juni 31, 2009 Baséierend op dëser Analyse si Sputnik Twitter méi als nei mëttelfristeg vun Informatiounen versuergt wéi eng Connaissance sozialt Netzwierk.

    1. Betruecht Kwak et al d'Opklärung, wéi eng Zort vu Fuerschung géif Iech do mat Twitter Donnéeën? Wat fir eng Zort vu Fuerschung géif Dir mat Twitter Donnéeën net do? Firwat?
    2. Am Joer 2010, dobäi Twitter engem Wien Service nees extra Virschlag fir Benotzer Fir Solde. Dräi Recommandatiounen sinn op eng Kéier op der Haaptrei Säit gewisen. Recommandatioune sinn dacks aus een d'Natur "Frënn-vun-Frënn," a géigesäitege Kontakter sinn och an der Recommandatioun ugewisen. Benotzer kënnen Update eng nei Formatioun vu Recommandatiounen oder bei enger Säit mat engem laang Lëscht vu Recommandatiounen ze gesinn. Mengt Dir dës nei Fonctioun Är Äntwert ze Deel vun enger Verännerung géif)? Wisou oder firwat net?
    3. Su, Sharma, and Goel (2016) bewäert den Effet vun Wien Service Fir Solde a fonnt, datt während Benotzer gedeelt an d'Popularitéit Spektrum vun de Recommandatiounen profitéiert, de beléifsten Benotzer wéi Moyenne méi méi profited. Geet dat brengt Är Äntwert ze Deel b) änneren? Wisou oder firwat net?
  6. [ einfach ] "Retweets" sin oft ze moossen Afloss an Diffusioun vun Afloss op Twitter benotzt. Ufank hat Benotzer Jeffrey si beléift ze Copy an Paste, mat sengem / hirem Ëmgang der original Auteur Markéierung, an manuell "RT" virun den Jeffrey Typ ze weisen, datt et e Retweet d'. Dunn, an 2009 derbäi Twitter engem "Retweet" Knäppchen. Am Juni 2016, huet Twitter et méiglech fir Benotzer hir eege Tweets zu Retweet (https://twitter.com/twitter/status/742749353689780224). Mengt Dir dës Verännerungen sollen Afloss wéi dir "retweets" zu Är Fuerschung benotzt? Wisou oder firwat net?

  7. [ mëttel- , Donnéeën Kollektioun , verlaangt coding ] Michel et al. (2011) gouf e Corpus aus Google d'Ustrengung enstanen Bicher ze digitize. Benotzt déi éischt Versioun vun der Corpus, déi am Joer 2009 an den Texter iwwer 5 Millioune Radio Bicher publizéiert gouf, analyséiert d'Auteuren Wuert Uleedung Frequenz ze sproochlech Ännerungen a kulturell Trends ermëttelen. Geschwën der Google Books Corpus eng populär Donnéeën Quell fir Fuerscher, an eng 2. Versioun vun der Datebank war vun 2012 erauskoum.

    Allerdéngs, Pechenick, Danforth, and Dodds (2015) duerstellen, datt Fuerscher brauchen ze voll de spezielle Prozess vun der Corpus Markenzeeche ier et fir Zeechnen breet Conclusioune benotzt. Den Haaptprobleem ass dass de Corpus Bibliothéik-Element ass, eent vun all Carnet. Als Resultat, eng Privatpersoun, ass roude Auteur kënnen trotzdem un nei Ausdréck an der Google Books Lexikon opginn. Desweideren, sécherlech wëssenschaftlech Texter eng méi substantive Deel vun de Corpus uechter d'1900s. Zousätzlech, andeems zwou Versiounen vun den Englänner Fiction konsultéieren, Pechenick et al. fonnt Beweiser datt genuch gefiltert an déi éischt Versioun benotzt gouf. All vun der fir Aktivitéit waren Daten ass hei sinn: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Am Michel et al. D'Original Pabeier (2011) , ginn se der 1. Versioun vun der Formatioun Englesch Daten, d'Spektraltypen Frequenz vun Benotzen vun de Joren "1880", "1912" an "1973", a Kraaft dass "mir sinn vergiesst eis Vergaangenheet séier mat all laanschtgoungen Joer "(Figebam. 3A, Michel et al.). Behaapten d'selwecht Komplott mat 1) 1. Versioun vun der Corpus, Englesch Donnéeën (selwecht wéi de Figebam. 3A, Michel et al.)
    2. Elo behaapten d'selwecht Komplott mat der 1. Versioun, Englesch Fiction Donnéeën.
    3. Elo behaapten d'selwecht Komplott mat der 2. Versioun vun der Corpus, Englesch Donnéeën.
    4. Endlech, behaapten déi selwecht Komplott mat der 2. Versioun, Englesch Fiction Donnéeën.
    5. Beschreiwen d'Differenzen an souvill tëscht dës véier Terrainen. Sidd Dir mam Michel et al. D'Original Interpretatioun vun der observéiert Trend? (Hiweis: c) an d) sollen d'selwecht wéi Dorënner 16 an Pechenick et al ginn).
    6. Elo datt Dir dëst eng Opklärung verschiddene Google Books corpora benotzt Rollenger hunn, wielt aner sproochlech änneren oder kultureller Phenomener presentéiert zu Michel et al. D'Original Pabeier. Wëllt Dir mat hirer Interpretatioun am Liicht vun der Begrenzung an Pechenick et al virgestallt averstanen.? mat verschiddene Versioune vum Datesaz wéi virun ze Är Argument staark maachen, probéiert d'selwecht Grafik behaapten.
  8. [ ganz schwéier , Donnéeën Kollektioun , verlaangt coding , mäin Favorit ] Penney (2016) inspizeiert ob der verbreet Publizitéit iwwer NSA / PRISM Iwwerwaachung ass (dh, de Snowden opzepassen) am Juni 2013 zu Wikipedia Artikelen op Sujeten engem schaarfe an drastesch erofgoen am Verkéier datt Privatsphär verbonne mat Bedenken Dréimoment. Wa jo, géif dës Ännerung am Verhalen mat engem Schéins Effekt konsequent sinn aus Mass Iwwerwaachung doraus. D'Approche vun Penney (2016) ass genannt heiansdo eng ënnerbrach Serie Design Zäit an ass zu der Approche vun der Kapitel Zesummenhang iwwert Experimenter aus observational Donnéeën (Section 2.4.3) approximating.

    Fir de Sujet Schlësselwieder decidéieren, bezeechent Penney zu der Lëscht vun US Chiffer genuch Security benotzt fir Tracking an Iwwerwachung soziale Medien. D'DHS Lëscht bestëmmte Sichbegrëffer an enger Rei vun Themen, dh "Gesondheetsminister Suergen," "Infrastructure Sécherheetsrot," a "Terrorismus categorizes." Fir d'Etude Grupp, benotzt Penney den Letino-aacht Schlësselwieder ze dinn "Terrorismus" (kuckt Table 8 Betriebspläng). Hien Wikipedia Artikel Meenung zielt dann fir déi entspriechend véierzeg-aacht Wikipedia Artikelen iwwer eng drësseg-zwee Méint Zäit op enger gestrahlt aggregéiert, aus dem Ufank vum Januar 2012 un d'Enn vum August 2014. Fir seng Argumenter ze stäerken, huet hien och e puer Verglach Gruppe vun Manifestatioun Meenung op anere Sujeten Noféierung.

    Elo, vouse fir Iech behaapten a verlängeren Penney (2016) . All d'raw Daten dass Dir fir dës Aktivitéit brauchen wäert ass sinn aus Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Oder dir kënnt se aus der R Pak wikipediatrend kréien (Meissner and Team 2016) . Wann Dir Är Äntwerte schreiwen-up, weg Note Dir déi Donnéeën Quell benotzt. (Note: Dës selwecht Aktivitéit schéngt och zu Kapitel 6)

    1. Weiderliesen Penney (2016) a behaapten Dorënner 2 déi virun der Säit Meenung fir "Terrorismus" -related Säite weist an no der Révélatioun Snowden. Virzegoen d'Conclusiounen.
    2. Hëllef Schlësselwieder kategoriséiert ënner "DHS & Aner Législateur" aus der DHS Lëscht (Betriebspläng Table 10) Next, Lalumi 4A, déi d'Etude Grupp ( "Terrorismus" -related Artikelen) mat engem vergläichen Grupp vergläicht behaapten. Virzegoen d'Conclusiounen.
    3. Am Kader b) am Verglach Dir d'Etude Grupp zu eent vergläichen Grupp. Penney och zu zwee anere vergläichen Gruppen Verglach: "Infrastructure Security" -related Artikelen (Betriebspläng Table 11) a populär Wikipedia Säiten (Betriebspläng Table 12). Kommt mat engem alternative vergläichen Grupp weider, an Test wann d'Conclusiounen aus Deel b) zu Äre Choix vun vergläichen Grupp sensibel ass. Wat Choix vun vergläichen Grupp mécht meeschten Sënn? Firwat?
    4. Den Auteur festgehalen, datt Schlësselwieder fir "Terrorismus" Liewewiesen benotzt goufen der Wikipedia Artikelen déieren, well d'US Regierung Terrorismus als Schlëssel beinhalt fir seng online Iwwerwaachung Praktiken zitéiert. Wéi engem Scheck vun deenen 48 "Terrorismus" -related Schlësselwieder, Penney (2016) gehaal och eng Ëmfro op MTurk froen Interviewten all Schlësselwieder am Sënn vun der Regierung Trouble, Dateschutz-empfindlech, an streng Gesetzer (Betriebspläng Table 7 an 8) ze bewäerten. Hinne der Ëmfro op MTurk an Äre Resultater vergläichen.
    5. Baséierend op de Resultater am Kader d) an Är Liese vun der Manifestatioun, sidd Dir mat de Choix d'Auteur vun Sujet Schlësselwieder am Etude Grupp? Wisou oder firwat net? Wann net, wat géif proposéieren Iech amplaz?
  9. [ einfach ] Efrati (2016) Rapporten, baséiert op vertraulech Informatiounen, déi "total sharing" op Facebook, déi vun ongeféier 5.5% Joer iwwer Joer Fro hat iwwerdeems "original Emissioun sharing" iwwer 21% am Joer iwwer Joer war. Dëst Ënnergang war besonnesch Fouss mat Facebook Benotzer ënner 30 Joer. De Rapport zougeschriwwen de Réckgang zu zwee Facteuren. One ass de Wuesstem vun der Zuel vun "Frënn" Leit hun op Facebook. Déi aner ass, datt e puer sharing Aktivitéit huet zu Messagerie verréckelt an zu Konkurrenten wéi SnapChat. De Rapport verroden och puer seng Facebook probéiert haten sharing Stoffwiessel, dorënner News Feed sind tweaks déi original posts méi dichteg, wéi och periodesch Erënnerungen vun der original posts Benotzer "Op Dëst Day" e puer Joer maachen. Wat Konsequenzen, wann iwwerhaapt, muss dëse Conclusiounen fir Fuerscher déi Facebook als Donnéeën Quell ze benotzen wëllt?

  10. [ mëttel- ] Tumasjan et al. (2010) confirméiert, datt den Undeel vun Tweets enger politescher Partei reagéiert de Prozentsaz vun de Stëmmen ernimmen datt Partei an 2009 an der däitscher Parlamentswalen dobäi (Dorënner 2.9). An anere Wierder, wossten et, datt Dir Twitter ze soe wéi de Wahlen benotze konnt. An der Zäit vun dëser Etude publizéiert gouf et war extrem spannend consideréiert ginn, well et eng wäertvoll benotzen fir eng gemeinsam Quell vun grouss Daten ze proposéiere war.

    Ee vun de schlechte Charakteristike vun groussen Date, soll, Dir direkt skeptesch vun dësem Resultat. Däitschen op Twitter an 2009 huet e ganz Net-Vertrieder Grupp, a Sympathisanten vun enger Partei kéint iwwer Politik méi oft Jeffrey. Sou, schéngt et onerwaarten datt all déi méiglech biases datt Dir iergendwéi eraus géif annuléieren virstellen konnt. An Tatsaach, d'Resultater vun Tumasjan et al. (2010) war eraus ze gutt gin wouer ze sinn. An hirem Pabeier, Tumasjan et al. (2010) als sechs politesch Parteien: Christian Demokraten (CDU), Christian Sozialdemokraten (CSU), SPD, Liberal (neie), Déi Lénk (Die Linke), an déi Gréng Partei (Grüne). déi meeschten zitéiert däitsch politesch Partei op Twitter Mä deemools war d'Piratepartei (Piraten), eng Partei, déi Regierung Regulatioun vun der Internet Kämpf. Wann d'Piratepartei zu der Analyse abegraff huet, schreift Twitter engem schrecklechen Estimatioun vun Walen Resultater gëtt (Dorënner 2,9) (Jungherr, Jürgens, and Schoen 2012) .

    Figur 2,9: Twitter schreift schéngen d'Resultater vun de 2009 Däitsch Walen ze soe (Tumasjan et al 2010.), Mee dat Resultat vläit op eng arbiträr an ongerechtfäerdegt Choixen ze hänken (Jungherr, Jürgens, an Schoen 2012).

    Figur 2,9: Twitter schreift schéngen d'Resultater vun de 2009 Däitsch Walen ze soe (Tumasjan et al. 2010) , Mee dat Resultat vläit op eng arbiträr an ongerechtfäerdegt Choixen ze hänken (Jungherr, Jürgens, and Schoen 2012) .

    Duerno, aner Fuerscher ronderëm d'Welt benotzt hunn fancier Methoden-ewéi däin Analyse benotzt tëscht positiv an negativ ze z'ënnerscheeden set vun de Parteien-, fir d'Géigner vun Twitter Donnéeën ze verbesseren, eng Rei vu verschiddenen Zorte vu Wahlen ze soe (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Hei ass wéi Huberty (2015) zesummegefaasst d'Resultater vun dëse Versich Wahlen ze soe:

    "All bekannt Viraussoen Methoden baséiert op sozialen Medien dunn hu wou un d'Exigenze vun richteg no-sicht Wahllëschte Viraussoen ënnerworf. Dës opginn schéngen wéinst fundamental Eegeschafte vun de soziale Medien ginn, anstatt ze Archipel oder algorithmic Schwieregkeeten. Bref, sozialen Medien do net, an wahrscheinlech ni ginn, bidden eng stabil, unbiased, Vertrieder Bild vun der Wielerschaft; an Kamoudheet Echantillon vun soziale Medien genuch Daten feelen dës Problemer ze flécke hoc Post. "

    Liest e puer vun der Fuerschung, déi an Huberty (2015) bis datt Conclusioun, a schreiwen eng Säit Notiz zu enger politescher Kandidat beschreiwen, ob a wéi Twitter benotzt soll Wahlen zu prognostizéiert.

  11. [ mëttel- Wat] ass den Ënnerscheed tëschent enger Sproochenexpert an engem Historiker? Laut Goldthorpe (1991) , d'haapt Ënnerscheed tëschent enger Sproochenexpert an engem Historiker ass Kontroll iwwer Donnéeën Kollektioun. Historiker si gezwongen Reliquie ze benotzen hierkommen sociologists hir Daten Kollektioun zu bestëmmten Zwecker Mooss kann. Weiderliesen Goldthorpe (1991) . Wéi ass d'Differenz tëschent Dées a Geschicht zu der Iddi vun Custommades dinn an Readymades?

  12. [ schwéier ] Op der leschter Fro Building, Goldthorpe (1991) Tintin enger Zuel vu kriteschen Äntwerte, dorënner eng vum Nicky Hart (1994) , datt Goldthorpe d'Engagement geholl ze feieren Donnéeën Schneider. Fir d'Potential Aschränkungen vun tailor-made Donnéeën klären, beschriwwen Hart der Zouflosspunkt Worker Project, eng grouss Emfro der Relatioun tëscht sozial Klass an Wahl ze moossen, datt duerch Goldthorpe a Kollegen vun der Mëtt-1960er gehaal huet. Als ee vun enger Léier erwaarden kënnen déi Donnéeën iwwer fonnt Donnéeën entworf refuséiert, gesammelt der Zouflosspunkt Worker Project Daten déi eng kuerzem proposéiert Theorie ze Adress iwwert d 'Zukunft vun der sozialer Klass an eng Ära vun waarden Liewensstandard extra war. Mä, Goldthorpe a Kollegen iergendwéi "vergiess" Informatiounen iwwer d'Wahl Behuele vun de Fraen ze sammelen. Hei ass wéi Nicky Hart (1994) dobäikomm der ganzer Episod:

    ". . . et [ass] schwiereg der Konklusioun ze verhënneren, datt Fraen goufen ewech gelooss huet, well dat 'Mooss gemaach' Donnéeën vun engem Museksleit Logik agespaart war déi weiblech Erfahrung ausgeschloss. Hausse vun engem theoretesch Visioun vun Klass Bewosstsinn an Aktioun well männlech enstinn. . . , Goldthorpe a seng Kollegen eng Formatioun vun empiresche noweisen gebaut, déi hir eege theoretesch géieren z'iesse an och amplaz hinnen zu engem valabel Test vun Confirmatioun vun Kleeschen suz. "

    Hart weider:

    "D'empiresche Conclusiounen vun der Zouflosspunkt Worker Project mir eis méi iwwert de géifen Wäerter vu Mëtt-Joerhonnert Dées wéi se d'Prozesser vun stratification, Politik a Material Liewen z'informéieren."

    Kënnt Dir vun anere Beispiller denken wou tailor-made Donnéeën Kollektioun der biases vun den Donnéeën Sammelstécker an et gebaut huet? Wéi heescht dat op algorithmic confounding vergläichen? Wat Konsequenzen kéint dat fir hu wou Fuerscher Readymades benotzt soll a wou si Custommades benotzt soll?

  13. [ mëttel- An dësem Kapitel], Géigesaz ech duerch Fuerscher fir Fuerscher mat administrative records geschafen vun Entreprisen a Regierungen gesammelt Daten. Verschidde Leit nennen dësen administrative records "Date fonnt," déi se mat Kontrast "designed Daten." Et ass wouer, datt administrativ records vun Fuerscher fonnt ginn, mä si sinn och héichgradeg entworf. Zum Beispill, verbréngen modern Tech Betriber enorm Zommen vun Zäit a Ressourcen ze sammelen an hir Daten Koleegen. Sou, sinn dës administrativ records souwuel fonnt entworf, et hänkt just op Ärem Standpunkt (Dorënner 2.10).

    Figur 2.10: D'Bild ass souwuel eng Int an enger Kanéngchen; wat Dir gesitt hänkt op Är Perspektiv. Regierung a Betrib administrative records sinn souwuel fonnt entworf; wat Dir gesitt hänkt op Är Perspektiv. Zum Beispill, sinn d'appel Donnéeën records vun engem Handy Firma gesammelt Daten aus der Perspektiv vun engem Fuerscher fonnt. Mä, dësen ergoën records schafft Donnéeën Perspektiv vun enger Persoun entworf an d'Keess vun der Telefonsnummer Firma. Source: Wikimedia Commons

    Figur 2.10: D'Bild ass souwuel eng Int an enger Kanéngchen; wat Dir gesitt hänkt op Är Perspektiv. Regierung a Betrib administrative records sinn souwuel fonnt entworf; wat Dir gesitt hänkt op Är Perspektiv. Zum Beispill, sinn d'appel Donnéeën records vun engem Handy Firma gesammelt Daten aus der Perspektiv vun engem Fuerscher fonnt. Mä, dësen ergoën records schafft Donnéeën Perspektiv vun enger Persoun entworf an d'Keess vun der Telefonsnummer Firma. Source: Wikimedia Commons

    e Beispill vun Donnéeën Quell gëtt, wou et eis, souwuel als fonnt entworf hëllefsbereet ass, wou déi Donnéeën Quell fir Fuerschung benotzt.

  14. [ einfach ] An engem virsiichteg Ofhandlung, Christian Sandvig an Eszter Hargittai (2015) ass en Beispill vun de éischt Zort vun Etude ass wou Bengtsson a Kollegen zwou Aarte vun digitale Fuerschung beschreiwen, wou den digitale System "Instrument" oder ass "Objet vun studéieren." (2011) benotzt Handy Donnéeën Migratioun no Äerdbiewen zu Haiti zu 2010. E Beispill vun der zweeter Zort zu Streck ass wou Jensen (2007) Studien, wéi d'Aféierung vun Handyen uechter kucken, Indien de Fonctionnement vun de Maart fir Fësch verkuebelt. Ech fannen dat hëllefräich well et clarifies datt Studien digital Daten Quellen benotzt hun kann ganz verschidden Ziler och wann se déi selwecht Aart vun Donnéeën Quell benotzt. Fir dës Auszeechnung fir weider klären, beschreiwen véier Studien dass Dir gesinn: zwee dass eng digital System als en Instrument an zwee benotzen dass en digitale System als Objet vun Etude benotzen. Dir kënnt Beispiller aus dësem Kapitel benotzen, wann Dir wëllt.