[ , ] Algoritmisk confounding var et problem med Google Flu Trends. Læs papiret af Lazer et al. (2014) , og skriv en kort, klar email til en ingeniør hos Google, der forklarer problemet og giver en ide om, hvordan du retter op.
[ ] Bollen, Mao, and Zeng (2011) hævder, at data fra Twitter kan bruges til at forudsige aktiemarkedet. Dette resultat førte til oprettelsen af en hedgefond-Derwent Capital Markets-at investere i aktiemarkedet baseret på data indsamlet fra Twitter (Jordan 2010) . Hvilke beviser vil du gerne se, før du lægger dine penge i den pågældende fond?
[ ] Mens nogle folkesundhedsforesatte anser e-cigaretter som en effektiv hjælp til rygestop, advarer andre om de potentielle risici, som f.eks. De høje niveauer af nikotin. Forestil dig, at en forsker beslutter at studere den offentlige mening over for e-cigaretter ved at indsamle e-cigaretter-relaterede Twitter-indlæg og udføre følelsesanalyse.
[ ] I november 2009 ændrede Twitter spørgsmålet i tweetboksen fra "Hvad laver du?" Til "Hvad sker der?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" bruges ofte til at måle indflydelse og spredning af indflydelse på Twitter. I første omgang skulle brugerne kopiere og indsætte den tweet, de kunne lide, tag den oprindelige forfatter med sit håndtag og manuelt skrive "RT" før tweetet for at angive, at det var en retweet. Så i 2009 tilføjede Twitter en "retweet" -knap. I juni 2016 gjorde Twitter det muligt for brugerne at retweete deres egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du, at disse ændringer bør påvirke, hvordan du bruger "retweets" i din forskning? Hvorfor eller hvorfor ikke?
[ , , , ] I et bredt diskuteret dokument analyserede Michel og kolleger (2011) indholdet af mere end fem millioner digitaliserede bøger i et forsøg på at identificere langsigtede kulturelle tendenser. De data, de brugte, er nu udgivet som Google NGrams datasæt, og vi kan derfor bruge dataene til at replikere og udvide nogle af deres arbejde.
I et af de mange resultater i papiret hævdede Michel og kolleger, at vi glemmer hurtigere og hurtigere. I et bestemt år siger "1883", de beregnede den andel af 1 gram, der blev offentliggjort i hvert år mellem 1875 og 1975, som var "1883". De begrundede, at denne andel er et mål for interessen for begivenheder, der skete i det pågældende år. I deres figur 3a plotede de brugen baner i tre år: 1883, 1910 og 1950. Disse tre år deler et fælles mønster: lidt brug før det år, derefter en spike og derefter forfald. For at kvantificere decayraten for hvert år beregnede Michel og kollegaer hvert halvs livstid for hvert år mellem 1875 og 1975. I deres figur 3a (indsats) viste de, at halveringstiden for hver år er faldende, og de hævder, at det betyder, at vi glemmer fortiden hurtigere og hurtigere. De brugte Version 1 af det engelske sprogkorpus, men efterfølgende har Google udgivet en anden version af corpus. Læs venligst alle dele af spørgsmålet, før du begynder kodning.
Denne aktivitet giver dig mulighed for at øve at skrive genanvendelig kode, tolke resultater og data wrangling (som f.eks. At arbejde med akavede filer og håndtere manglende data). Denne aktivitet vil også hjælpe dig med at komme i gang med et rigt og interessant datasæt.
Få de rå data fra Google Books NGram Viewer-webstedet. I særdeleshed skal du bruge version 2 af det engelske sprogkorpus, som blev udgivet den 1. juli 2012. Ikke-komprimeret, denne fil er 1,4 GB.
Genskab hoveddelen af figur 3a fra Michel et al. (2011) . For at genskabe denne figur skal du bruge to filer: den du downloadede i del (a) og "total count" -filen, som du kan bruge til at konvertere de rå tæller til proportioner. Bemærk, at den samlede tællerfil har en struktur, der kan gøre det lidt svært at læse. Leverer version 2 af NGram-data tilsvarende resultater som dem, der præsenteres i Michel et al. (2011) , der er baseret på version 1 data?
Tjek nu din graf imod den graf, der er oprettet af NGram Viewer.
Genskab figur 3a (hovedfigur), men skift \(y\) -axis for at være den røde omtale tæller (ikke graden af nævninger).
Afviger forskellen mellem (b) og (d) dig til at revurdere nogle af resultaterne fra Michel et al. (2011). Hvorfor eller hvorfor ikke?
Nu, ved hjælp af andelen af nævninger, replikerer indsatsen i figur 3a. Det er for hvert år mellem 1875 og 1975, at beregne halveringstiden for det pågældende år. Halveringstiden er defineret som antallet af år, der passerer før andelen af angivelser når halvdelen af dens højeste værdi. Bemærk at Michel et al. (2011) gør noget mere kompliceret til at estimere halveringstiden - se afsnit III.6 i Supporting Online Information - men de hævder, at begge tilgange giver ensartede resultater. Giver version 2 af NGram-data tilsvarende resultater som dem, der præsenteres i Michel et al. (2011) , der er baseret på version 1 data? (Tip: Bliv ikke overrasket, hvis det ikke gør det.)
Var der nogen år, der var outliers som år, der blev glemt særligt hurtigt eller særligt langsomt? Kortfattet spekulere om mulige årsager til dette mønster og forklare hvordan du identificerede outliers.
Gentag nu dette resultat for version 2 af NGrams-dataene på kinesisk, fransk, tysk, hebraisk, italiensk, russisk og spansk.
Sammenlignet på tværs af alle sprog, var der nogen år, der var outliers, som år, der blev glemt særligt hurtigt eller særligt langsomt? Spekulere kort om mulige årsager til dette mønster.
[ , , , ] Penney (2016) undersøgte, om den udbredte publicitet om NSA / PRISM-overvågning (dvs. Snowden-åbenbaringerne) i juni 2013 var forbundet med et skarpt og pludseligt fald i trafikken til Wikipedia-artikler om emner, der fremmer privatlivets bekymringer. Hvis ja, ville denne ændring i adfærd være i overensstemmelse med en chillende effekt som følge af massovervågning. Penney (2016) 's tilgang Penney (2016) kaldes undertiden et afbrudt tidsserie- design, og det er relateret til fremgangsmåderne beskrevet i afsnit 2.4.3.
For at vælge emneordene henviste Penney til den liste, som US Department of Homeland Security brugte til sporing og overvågning af sociale medier. DHS-listen kategoriserer bestemte søgeord i en række emner, dvs. "Sundhedsbekymring", "Infrastruktur Sikkerhed" og "Terrorisme." Penney brugte 48 søgeord relateret til "Terrorisme" (se bilag tabel 8) til studiegruppen. ). Han samlede derefter Wikipedia artikelsyntællinger månedligt for de tilsvarende 48 Wikipedia artikler over en 32 måneders periode fra begyndelsen af januar 2012 til slutningen af august 2014. For at styrke sit argument skabte han også flere sammenligningsgrupper ved at spore artiklervisninger om andre emner.
Nu skal du replikere og udvide Penney (2016) . Alle de rå data, du vil bruge til denne aktivitet, er tilgængelig fra Wikipedia. Eller du kan få det fra R-pakken wikipediatrend (Meissner and R Core Team 2016) . Når du skriver dine svar, skal du notere hvilken datakilde du brugte. (Bemærk, at den samme aktivitet også ses i kapitel 6.) Denne aktivitet vil give dig øve i dataløsninger og tænke på naturlige eksperimenter i store datakilder. Det vil også få dig i gang med en potentielt interessant datakilde til fremtidige projekter.
[ ] Efrati (2016) rapporterede på baggrund af fortrolige oplysninger, at "total deling" på Facebook var faldet med omkring 5,5% året rundt, mens "original broadcast sharing" var 21% lavere end året. Denne nedgang var særligt akut hos Facebook-brugere under 30 år. Rapporten tillod nedgangen i to faktorer. Den ene er væksten i antallet af "venner" folk har på Facebook. Den anden er, at en del delingsaktivitet er flyttet til messaging og til konkurrenter som Snapchat. Rapporten afslørede også de mange taktikker, Facebook havde forsøgt at øge deling, herunder nyhedsfeed algoritme tweaks, der gør originale indlæg mere fremtrædende, samt periodiske påmindelser af de oprindelige indlæg med funktionen "On This Day". Hvilke konsekvenser, hvis nogen, har disse resultater for forskere, der vil bruge Facebook som datakilde?
[ ] Hvad er forskellen mellem en sociolog og en historiker? Ifølge Goldthorpe (1991) er den største forskel kontrol med dataindsamling. Historikere er nødt til at bruge relikvier, mens sociologer kan skræddersy deres dataindsamling til specifikke formål. Læs Goldthorpe (1991) . Hvordan er forskellen mellem sociologi og historie relateret til ideen om custommades og readymades?
[ ] Dette bygger på den foregående quesiton. Goldthorpe (1991) udstedte en række kritiske svar, herunder en fra Nicky Hart (1994) der udfordrede Goldthorpe's hengivenhed til skræddersyede data. For at præcisere de potentielle begrænsninger af skræddersyede data beskrev Hart det velstående arbejdsprojekt, en stor undersøgelse for at måle forholdet mellem social klasse og afstemning, der blev udført af Goldthorpe og kolleger i midten af 1960'erne. Som man kunne forvente af en lærer, der foretrak designede data over fundne data, indsamlede det velstående arbejdsprojekt data, der var skræddersyet til at behandle en nyligt foreslået teori om fremtiden for social klasse i en æra med stigende levestandard. Men Goldthorpe og kolleger på en eller anden måde "glemte" for at indsamle oplysninger om kvinders stemmeopførsel. Her er hvordan Nicky Hart (1994) opsummerede hele episoden:
"... det er svært at undgå den konklusion, at kvinder blev udeladt, fordi dette" skræddersyede "datasæt var begrænset af en paradigmatisk logik, der udelukket kvindelig erfaring. Drevet af en teoretisk vision om klassebevidsthed og handling som mandlige bekymringer ... udarbejdede Goldthorpe og hans kolleger et sæt empiriske beviser, der fodrede og opfostrede deres egne teoretiske antagelser i stedet for at udsætte dem for en gyldig test af tilstrækkelighed. "
Hart fortsatte:
"De empiriske fund af det velstående arbejdsprojekt fortæller os mere om de maskulinistiske værdier i sociologien i midten af århundredet, end de informerer stratificerings-, politik- og materialelivets processer."
Kan du tænke på andre eksempler, hvor skræddersyet dataindsamling har fordele af dataindsamleren indbygget i den? Hvordan sammenligner dette med algoritmisk confounding? Hvilke konsekvenser kan dette have for, når forskere skal bruge readymades og når de skal bruge custommades?
[ ] I dette kapitel har jeg modsat data indsamlet af forskere for forskere med administrative dokumenter oprettet af virksomheder og regeringer. Nogle kalder disse administrative poster "fundet data", som de står i kontrast til "designede data." Det er rigtigt, at administrative poster findes af forskere, men de er også meget designet. For eksempel arbejder moderne tech virksomheder meget svært at indsamle og kurere deres data. Således er disse administrative poster både fundet og designet, det afhænger kun af dit perspektiv (figur 2.12).
Giv et eksempel på datakilde, hvor du ser det både som fundet og designet er nyttigt, når du bruger datakilden til forskning.
[ ] Christian Sandvig og Eszter Hargittai (2015) deltager i en gennemtænkt essay digital forskning i to brede kategorier afhængigt af om det digitale system er et "instrument" eller "studieobjekt". Et eksempel på den første slags, hvor systemet er et instrument - er Bengtsson's og kollegernes (2011) om at bruge mobiltelefondata til at spore migration efter jordskælvet i Haiti i 2010. Et eksempel på den anden slags - hvor systemet er et studieobjekt - er forskning fra Jensen (2007) om hvordan indførelsen af mobiltelefoner i hele Kerala, Indien har påvirket funktionen af markedet for fisk. Jeg finder denne skelnen nyttig, fordi det præciserer, at undersøgelser, der bruger digitale datakilder, kan have helt forskellige mål, selvom de bruger den samme slags datakilde. For at præcisere denne sondring beskrives fire undersøgelser, som du har set: To, der bruger et digitalt system som et instrument og to, der bruger et digitalt system som studieobjekt. Du kan bruge eksempler fra dette kapitel, hvis du vil.