Aktiviteter

Nøgle:

  • sværhedsgrad: let let , medium medium , hårdt hårdt , meget hård meget hård
  • kræver matematik ( kræver matematik )
  • kræver kodning ( kræver kodning )
  • dataindsamling ( dataindsamling )
  • Mine favoritter ( min favorit )
  1. [ medium , min favorit ] Algoritmisk confounding var et problem med Google Flu Trends. Læse avisen ved Lazer et al. (2014) , og skrive en kort, klar e-mail til en ingeniør hos Google forklarer problemet og tilbyde en idé om, hvordan du løser problemet.

  2. [ medium ] Bollen, Mao, and Zeng (2011) hævder, at data fra Twitter kan bruges til at forudsige aktiemarkedet. Dette fund førte til oprettelsen af en hedgefond-Derwent Capital Markets-at investere i aktiemarkedet baseret på data indsamlet fra Twitter (Jordan 2010) . Hvilke beviser vil du ønsker at se før du sætter dine penge i denne fond?

  3. [ let ] Mens nogle folkesundheden fortalere hagl e-cigaretter som en effektiv hjælp til rygestop, andre advarer om de potentielle risici, såsom høje niveauer af nikotin. Forestil dig, at en forsker beslutter at studere den offentlige mening mod e-cigaretter ved at indsamle e-cigaretter-relaterede kvidre stillinger og udførelse følelser analyse.

    1. Hvad er de tre mulige bias, som du er mest bekymret for i denne undersøgelse?
    2. Clark et al. (2016) kørte netop sådan en undersøgelse. Først, de indsamlede 850.000 tweets, der brugte e-cigaret-relaterede søgeord fra og med januar 2012 gennem december 2014. Ved nærmere eftersyn, de indså, at mange af disse tweets blev automatiseret (dvs. ikke produceres af mennesker), og mange af disse automatiske tweets væsentlige var reklamer. De udviklede en menneskelig Detection Algoritme at adskille automatiserede tweets fra økologiske tweets. Brug af denne Humant Detect Algoritme de fandt, at 80% af tweets blev automatiseret. Er dette fund ændre dit svar på en del (a)?
    3. Når de sammenlignede stemning i organiske og automatiserede tweets de fandt, at de automatiserede tweets er mere positive end økologiske tweets (6,17 versus 5,84). Er dette fund ændre dit svar på (b)?
  4. [ let ] I november 2009 Twitter ændret spørgsmålet i tweet feltet "Hvad laver du?" Til "Hvad sker der?" (Https://blog.twitter.com/2009/whats-happening).

    1. Hvordan tror du, at ændringen af ​​prompter vil påvirke hvem tweet og / eller hvad de tweet?
    2. Nævn én forskningsprojekt, som du foretrækker prompten "Hvad laver du?" Forklar hvorfor.
    3. Nævn én forskningsprojekt, som du foretrækker den prompt "Hvad sker der?" Forklar hvorfor.
  5. [ medium ] Kwak et al. (2010) analyserede 41,7 millioner brugerprofiler, 1,47 milliarder sociale relationer, 4262 trending emner og 106 millioner tweets fra juni 6th og 31. juni 2009. På grundlag af denne analyse konkluderede de, at Twitter tjener mere som et nyt medie for informationsudveksling end en Socialt netværk.

    1. I betragtning af Kwak et al konklusion, hvilken type forskning ville du gøre med kvidre data? Hvilken type forskning ville du ikke gøre med Twitter data? Hvorfor?
    2. I 2010 Twitter tilføjet en Hvem at følge tjeneste gør skræddersyet forslag til brugerne. Tre anbefalinger er vist på et tidspunkt på hovedsiden. Anbefalinger er ofte hentet fra sine "venner-af-venner", og gensidige kontakter vises også i anbefalingen. Brugere kan opdatere for at se et nyt sæt anbefalinger eller besøger en side med en længere liste over henstillinger. Tror du denne nye funktion ville ændre dit svar på en del a)? Hvorfor eller hvorfor ikke?
    3. Su, Sharma, and Goel (2016) evaluerede effekten af Hvem at følge service og fundet, at mens brugere over hele popularitet spektret nydt godt anbefalingerne, de mest populære brugere profiteret betydeligt mere end gennemsnittet. Er dette fund ændre dit svar på en del b)? Hvorfor eller hvorfor ikke?
  6. [ let ] "Retweets" bruges ofte til at måle indflydelse og spredning af indflydelse på Twitter. Oprindeligt brugere måtte kopiere og indsætte tweet de kunne lide, tag den oprindelige forfatter med hans / hendes greb, og manuelt skrive "RT" før tweet at angive, at det er en retweet. Så, i 2009 tilføjede Twitter en "retweet" -knappen. I juni 2016 Twitter gjorde det muligt for brugerne at retweet deres egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du disse ændringer bør påvirke, hvordan du bruger "retweets" i din forskning? Hvorfor eller hvorfor ikke?

  7. [ medium , dataindsamling , kræver kodning ] Michel et al. (2011) konstrueret et korpus på vej ud af Googles forsøg på at digitalisere bøger. Brug den første version af corpus, som blev offentliggjort i 2009 og indeholdt over 5 millioner digitaliserede bøger, forfatterne analyserede ord brug frekvens for at undersøge sproglige ændringer og kulturelle tendenser. Snart Google Books Corpus blev en populær datakilde for forskere, og en 2. udgave af databasen blev udgivet i 2012.

    Men Pechenick, Danforth, and Dodds (2015) advarede om, at forskerne har brug for fuldt ud at karakterisere sampling processen med corpus før du bruger den til at tegne brede konklusioner. Det vigtigste spørgsmål er, at corpus er biblioteket-lignende, som indeholder en af ​​hver bog. Som et resultat, et individ, produktiv forfatter er i stand til mærkbart indsætte nye sætninger i Google Bøger leksikon. Desuden videnskabelige tekster udgør en stadig væsentlig del af corpus hele 1900-tallet. Desuden ved at sammenligne to versioner af de engelske Fiction datasæt, Pechenick et al. fundet beviser for, at utilstrækkelig filtrering blev brugt i at producere den første version. Alle de data, der er nødvendige for aktivitet er tilgængelig her: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. I Michel et al. Originale papir (2011) , de brugte den 1. version af den engelske datasættet, plottet hyppigheden af brugen af årene "1880", "1912" og "1973", og konkluderede, at "vi er glemme vores fortid hurtigere med hvert år, der går "(fig. 3A, Michel et al.). Replikere samme plot anvendelse af 1) 1. version af corpus, engelsk datasæt (samme som fig. 3A, Michel et al.)
    2. Nu kopiere det samme plot med den 1. version, engelsk fiktion datasæt.
    3. Nu kopiere det samme plot med 2. udgave af corpus, engelske datasæt.
    4. Endelig replikere samme plot med 2. udgave, engelsk fiktion datasæt.
    5. Beskriv forskelle og ligheder mellem disse fire grunde. Er du enig med Michel et al. Oprindelige fortolkning af den observerede tendens? (Tip: c) og d) bør være den samme som figur 16 i Pechenick et al).
    6. Nu hvor du har gentaget denne ene fund ved hjælp af forskellige Google Books korpora, vælge en anden sproglig ændring eller kulturel fænomener præsenteret i Michel et al. Oprindelige papir. Er du enig med deres fortolkning i lyset af de begrænsninger, der præsenteres i Pechenick et al.? For at gøre dit argument stærkere, prøv replikere den samme graf ved hjælp af forskellige versioner af datasæt som ovenfor.
  8. [ meget hård , dataindsamling , kræver kodning , min favorit ] Penney (2016) udforsker, om den udbredte omtale om NSA / PRISM overvågning (dvs. de Snowden åbenbaringer) i juni 2013 i forbindelse med en kraftig og pludselig nedgang i trafikken til Wikipedia-artikler om emner, der regnes for privatlivets fred. Hvis det er tilfældet, vil denne ændring i adfærd være i overensstemmelse med en afkølende virkning som følge af omfattende overvågning. Tilgangen af Penney (2016) er undertiden kaldes en afbrudt tidsserie design og er relateret til de tilgange i kapitlet om at tilnærme eksperimenter fra observationsdata (afsnit 2.4.3).

    For at vælge emnet søgeord, Penney henvist til den liste, der af US Department of Homeland Security til sporing og overvågning af sociale medier. DHS Listen kategoriserer bestemte søgeord ind i en række spørgsmål, nemlig "sundhedsmæssig bekymring," "Infrastructure Security" og "Terrorisme". For studiegruppen, Penney brugte otteogfyrre søgeord relateret til "terrorisme" (se tabel 8 Bilag). Han aggregeret Wikipedia artiklen view tæller på månedsbasis for de tilsvarende otteogfyrre Wikipedia-artikler over en 32 måneder periode fra begyndelsen af ​​januar 2012 til slutningen af ​​august 2014. For at styrke hans argument, han skabte også flere sammenligning grupper ved at spore synspunkter artiklen om andre emner.

    Nu, vil du kopiere og udvide Penney (2016) . Alle de rå data, som du får brug for denne aktivitet er tilgængelig fra Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Eller du kan få det fra R pakken wikipediatrend (Meissner and Team 2016) . Når du skriver op dine svar, skal du være opmærksom hvilken datakilde du brugte. (Bemærk: Denne samme aktivitet vises også i kapitel 6)

    1. Læs Penney (2016) og kopiere figur 2, som viser sidevisninger for "terrorisme" -relaterede sider før og efter Snowden åbenbaring. Fortolk resultaterne.
    2. Dernæst kopiere figur 4A, der sammenligner studiegruppen ( "terrorisme" -relaterede artikler) med en sammenligningsgruppen ved hjælp af søgeord kategoriseret under "DHS & Andre agenturer" fra DHS listen (se tillæg tabel 10). Fortolk resultaterne.
    3. I del b) du sammenlignet studiegruppen til én sammenligningsgruppen. Penney også sammenlignet med to andre sammenligningsgrupperne: "Security Infrastructure" -relaterede artikler (appendiks tabel 11) og populære Wikipedia sider (appendiks tabel 12). Kom op med en alternativ sammenligningsgruppen, og teste, om resultaterne fra del B) er følsom over for dit valg af sammenligningsgruppen. Hvilket valg af sammenligningsgruppen giver mest mening? Hvorfor?
    4. Forfatteren oplyste, at søgeord vedrørende "terrorisme" blev brugt til at udvælge de Wikipedia-artikler, fordi den amerikanske regering citerede terrorisme som en vigtig begrundelse for sine online overvågning praksis. Som en kontrol af disse 48 "terrorisme" -relaterede søgeord, Penney (2016) også gennemført en undersøgelse om MTurk spørge respondenterne til at bedømme hver af søgeord i form af regeringens Trouble, Privacy-Følsom, og undgåelse (bilag tabel 7 og 8). Repliker undersøgelsen på MTurk og sammenligne dine resultater.
    5. På baggrund af resultaterne i del d) og din læsning af artiklen, er du enig med forfatteren valg af emne søgeord i studiegruppen? Hvorfor eller hvorfor ikke? Hvis ikke, hvad ville du foreslå i stedet?
  9. [ let ] Efrati (2016) rapporter, baseret på fortrolige oplysninger, at "total deling" på Facebook havde faldet med ca. 5,5% i forhold til året, mens "oprindelige udsendelse sharing" var nede på 21% fra år til år. Dette fald var særligt akut med Facebook-brugere under 30 år. Rapporten tilskrives faldet til to faktorer. Den ene er væksten i antallet af "venner" folk har på Facebook. Den anden er, at nogle dele aktivitet er skiftet til messaging og til konkurrenter som snapchat. Rapporten afslørede også de mange taktik Facebook havde forsøgt at øge deling, herunder News Feed algoritme tweaks der gør oprindelige indlæg mere fremtrædende, samt periodiske påmindelser af de oprindelige indlæg brugere "på denne dag" flere år siden. Hvilke konsekvenser, hvis nogen, er disse resultater har for forskere, der ønsker at bruge Facebook som en datakilde?

  10. [ medium ] Tumasjan et al. (2010) rapporterede, at andelen af tweets, hvori et politisk parti matchede andelen af stemmer, som partiet har modtaget i den tyske parlamentsvalg i 2009 (Figur 2.9). Med andre ord, viste det sig, at man kunne bruge Twitter til at forudsige valget. På det tidspunkt, denne undersøgelse blev offentliggjort den blev betragtet yderst spændende, fordi det syntes at foreslå en værdifuld brug for en fælles kilde til store data.

    I betragtning af de dårlige egenskaber af store data, men du bør straks være skeptisk over for dette resultat. Tyskerne på Twitter i 2009 var ganske ikke-repræsentativ gruppe, og tilhængere af den ene part kan tweet om politik oftere. Derfor virker det overraskende, at alle de mulige fordomme, som du kunne forestille en eller anden måde ville annullere ud. Faktisk resultaterne i Tumasjan et al. (2010) viste sig at være for godt til at være sandt. I deres papir, Tumasjan et al. (2010) betragtes seks politiske partier: Kristelige Demokrater (CDU), Christian Socialdemokratiet (CSU), SPD, liberale (FDP), Venstre (Die Linke) og De Grønne (Grüne). Men det mest omtalte tyske politiske parti på Twitter på det tidspunkt var Piratpartiet (Piraten), et parti, der kæmper offentlig regulering af internettet. Når Piratpartiet blev medtaget i analysen, nævner Twitter bliver en frygtelig indikator for valgresultater (Figur 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figur 2.9: Twitter nævner synes at forudsige resultaterne af 2009-tyske valg (Tumasjan et al 2010.), Men dette resultat viser sig at afhænge af nogle vilkårlige og uberettigede valg (Jungherr, Jürgens, og Schoen 2012).

    Figur 2.9: Twitter nævner synes at forudsige resultaterne af 2009-tyske valg (Tumasjan et al. 2010) , Men dette resultat viser sig at afhænge af nogle vilkårlige og uberettigede valg (Jungherr, Jürgens, and Schoen 2012) .

    Efterfølgende har andre forskere i hele verden anvendte mere avanceret metoder-såsom anvendelse af følelser analyse til at skelne mellem positive og negative omtaler af parterne-for at forbedre muligheden for Twitter-data til at forudsige en række forskellige typer af valgene (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Her er hvordan Huberty (2015) sammenfattet resultaterne af disse forsøg på at forudsige valget:

    "Alle kendte prognoser metoder baseret på sociale medier har undladt når det udsættes for kravene fra ægte fremadrettet valg prognoser. Disse fejl synes at skyldes fundamentale egenskaber ved sociale medier, snarere end til metodologiske eller algoritmiske problemer. Kort sagt, sociale medier gør ikke, og sandsynligvis aldrig vil, tilbyder en stabil, fordomsfri, repræsentativt billede af vælgerne; og convenience prøver af sociale medier ikke har tilstrækkelige data til at løse disse problemer post hoc. "

    Læs nogle af den forskning, der fører Huberty (2015) til denne konklusion, og skrive en side memo til en politisk kandidat, der beskriver, om og hvordan Twitter bør bruges til at forudsige valg.

  11. [ medium ] Hvad er forskellen mellem en sociolog og historiker? Ifølge goldthorpe (1991) , den vigtigste forskel mellem en sociolog og historiker er kontrol over dataindsamlingen. Historikere er tvunget til at bruge relikvier mens sociologer kan skræddersy deres dataindsamling til specifikke formål. Læs Goldthorpe (1991) . Hvordan er forskellen mellem sociologi og historie relateret til ideen om Custommades og readymades?

  12. [ hårdt ] Med udgangspunkt i det foregående spørgsmål, Goldthorpe (1991) trak en række kritiske reaktioner, herunder en fra Nicky Hart (1994) , der udfordrede goldthorpe hengivenhed at skræddersy gjort data. For at klarlægge de potentielle begrænsninger af skræddersyede data, Hart beskrev de velhavende Worker Project, en stor undersøgelse for at måle forholdet mellem social klasse og afstemninger, der blev foretaget af goldthorpe og kolleger i midten af ​​1960'erne. Som man kunne forvente fra en lærd, der begunstigede designet data over fundne data, den velhavende Worker projektet indsamlede data, der blev skræddersyet til at løse en nylig foreslået teori om fremtiden for social klasse i en tid med stigende levestandard. Men goldthorpe og kolleger eller anden måde "glemte" at indsamle oplysninger om afstemningen adfærd kvinder. Her er hvordan Nicky Hart (1994) resuméer hele episoden:

    ". . . det [er] svært at undgå den konklusion, at kvinder blev udeladt, fordi denne "skræddersyet" datasæt var begrænset af en paradigmatisk logik, der udelukkede kvindelige oplevelse. Drevet af en teoretisk vision om klassebevidsthed og handling som mandlige bekymringer. . . , Goldthorpe og hans kolleger konstrueret et sæt empiriske beviser, der fodres og plejes egne teoretiske antagelser i stedet for at udsætte dem for et gyldigt test af tilstrækkelighed. "

    Hart fortsatte:

    "De empiriske resultater af den Velhavende Worker Project fortælle os mere om de maskulinistisk værdier af midten af ​​århundredet sociologi, end de underrette de processer af lagdeling, politik og materielle liv."

    Kan du tænke på andre eksempler, hvor indsamlingen skræddersyede data har de systematiske fejl i data collector bygget ind i det? Hvordan denne sammenligne med algoritmisk confounding? Hvilke konsekvenser kan det få, når forskerne skal bruge readymades og når de skal bruge Custommades?

  13. [ medium ] I dette kapitel jeg kontrast data indsamlet af forskere for forskere med administrative registre skabt af virksomheder og regeringer. Nogle kalder disse administrative registre "fundet data", som de kontrast med "designet data." Det er rigtigt, at administrative registre findes af forskere, men de er også meget designet. For eksempel, moderne tech virksomheder bruger enorme mængder af tid og ressourcer til at indsamle og kuratere deres data. Således er disse administrative registre begge fundet og designet, det bare afhænger af dit perspektiv (Figur 2.10).

    Figur 2.10: Billedet er både en and og en kanin; hvad du ser, afhænger af dit perspektiv. Regeringen og erhvervslivet administrative registre er begge fundet og designet; hvad du ser, afhænger af dit perspektiv. For eksempel er opkald dataposter indsamlet af en mobiltelefon selskab fundet data fra perspektivet af en forsker. Men er disse nøjagtig samme optegnelser designet data perspektiv en person arbejder i fakturering afdeling af telefonselskabet. Kilde: Wikimedia Commons

    Figur 2.10: Billedet er både en and og en kanin; hvad du ser, afhænger af dit perspektiv. Regeringen og erhvervslivet administrative registre er begge fundet og designet; hvad du ser, afhænger af dit perspektiv. For eksempel er opkald dataposter indsamlet af en mobiltelefon selskab fundet data fra perspektivet af en forsker. Men er disse nøjagtig samme optegnelser designet data perspektiv en person arbejder i fakturering afdeling af telefonselskabet. Kilde: Wikimedia Commons

    Giv et eksempel på data kilde, hvor ser det både som fundet og designet er nyttigt, når du bruger den datakilde for forskning.

  14. [ let ] I en tankevækkende essay, Christian Sandvig og Eszter Hargittai (2015) beskriver to slags digital forskning, hvor det digitale system er "instrument" eller "genstanden for undersøgelsen." Et eksempel på den første type undersøgelse, hvor Bengtsson og kolleger (2011) brugte mobiltelefon data til at spore migration efter jordskælvet i Haiti i 2010. Et eksempel på den anden type er, hvor Jensen (2007) undersøgelser, hvordan indførelsen af mobiltelefoner i hele Kerala, Indien påvirket funktion af markedet for fisk. Jeg finder det nyttigt, fordi det tydeliggør, at undersøgelser med anvendelse af digitale datakilder kan have helt andre mål, selv om de bruger den samme slags datakilde. For yderligere at tydeliggøre denne skelnen, beskriver fire undersøgelser, som du har set: to, der bruger et digitalt system som et instrument og to, der bruger et digitalt system som genstand for undersøgelsen. Du kan bruge eksempler fra dette kapitel, hvis du vil.