aktiviteter

Denne oversettelsen ble skapt av en datamaskin. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

aktiviteter

Nøkkel:

Vanskelighetsgrad: lett , medium , hard , veldig vanskelig
krever matematikk ( $krever matte$ )
krever koding ( )
datainnsamling ( )
mine favoritter ( )

[ , ] Algoritme confounding var et problem med Googles influensastatistikk. Lese papir ved Lazer et al. (2014) , og skrive en kort, klar e-post til en ingeniør hos Google forklarer problemet og tilbyr en idé om hvordan du kan løse problemet.
[ ] Bollen, Mao, and Zeng (2011) hevder at data fra Twitter kan brukes til å forutsi aksjemarkedet. Dette funnet førte til opprettelsen av et hedgefond-Derwent Capital Markets-å investere i aksjemarkedet basert på data samlet inn fra Twitter (Jordan 2010) . Hvilke bevis ville du ønsker å se før du setter pengene dine i dette fondet?
[ ] Mens noen offentlige helsetalsmenn hagl e-sigaretter som et effektivt hjelpemiddel for røykeslutt, andre advarer om mulige risikoer, slik som høye nivåer av nikotin. Tenk deg at en forsker bestemmer seg for å studere opinionen mot e-sigaretter ved å samle e-sigaretter-relaterte Twitter innlegg og gjennomføre sentiment analyse.
1. Hva er de tre mulige skjevheter som du er mest bekymret for i denne studien?
2. Clark et al. (2016) kjørte nettopp en slik studie. Først, de samlet inn 850.000 tweets som brukte e-sigarett-relaterte søkeord fra januar 2012 til desember 2014. Ved nærmere ettersyn, innså de at mange av disse tweets ble automatisert (dvs. ikke produsert av mennesker), og mange av disse automatiserte tweets var hovedsakelig reklamer. De utviklet en menneskelig algoritme for å skille automatiserte tweets fra organiske tweets. Ved hjelp av denne menneskelige Detect algoritme de fant at 80% av tweets ble automatisert. Betyr dette funnet forandre ditt svar til del (a)?
3. Når de sammenlignet følelser i organiske og automatiserte tweets de fant at automatiserte tweets er mer positive enn organiske tweets (6,17 versus 5,84). Betyr dette funnet endre svaret til (b)?
[ ] I november 2009 Twitter endret spørsmålet i tweet boksen fra "Hva gjør du?" Til "Hva skjer?" (Https://blog.twitter.com/2009/whats-happening).
1. Hvordan tror du endringen av instruksjonene vil påvirke hvem tweet og / eller hva de tweet?
2. Nevn en forskningsprosjekt som du foretrekker rask "Hva er det du gjør?» Forklar hvorfor.
3. Nevn en forskningsprosjekt som du foretrekker rask "Hva skjer?" Forklar hvorfor.
[ ] Kwak et al. (2010) analyserte 41,7 millioner brukerprofiler, 1,47 milliarder sosiale relasjoner, 4262 trending emner og 106 millioner tweets mellom 6 juni og 31. juni 2009. Basert på denne analysen de konkluderte med at Twitter fungerer mer som et nytt medium for informasjonsdeling enn en sosialt nettverk.
1. Vurderer Kwak et al sin oppdagelse, hva slags forskning ville du gjøre med Twitter data? Hva slags forskning ville du ikke gjøre med Twitter data? Hvorfor?
2. I 2010, Twitter har lagt en Hvem å følge tjenesten gjør skreddersydd forslag til brukerne. Tre anbefalinger vises om gangen på hovedsiden. Anbefalingene er ofte trukket fra ens "venner-av-venner", og felles kontakter vises også i anbefalingen. Brukere kan oppdatere for å se et nytt sett med anbefalinger eller besøke en side med en lengre liste med anbefalinger. Tror du denne nye funksjonen vil endre svaret til del a)? Hvorfor eller hvorfor ikke?
3. Su, Sharma, and Goel (2016) evaluerte effekten av Who å følge service og fant at mens brukere over populariteten spekteret dratt nytte av anbefalingene, de mest populære brukerne tjent vesentlig mer enn gjennomsnittet. Betyr dette funnet endre svaret på del b)? Hvorfor eller hvorfor ikke?
[ ] "Retweets" blir ofte brukt til å måle innflytelse og spre innflytelse på Twitter. I utgangspunktet brukerne måtte kopiere og lime inn tweet de likte, merke den opprinnelige forfatteren med hans / hennes håndtaket, og manuelt skrive "RT" før tweet for å indikere at det er en retweet. Så, i 2009 Twitter lagt til en "retweet" -knappen. I juni 2016 Twitter har gjort det mulig for brukere å retweet sine egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du disse endringene bør påvirke hvordan du bruker "retweets" i din forskning? Hvorfor eller hvorfor ikke?
[ , , ] Michel et al. (2011) konstruerte en corpus dukker opp fra Googles forsøk på å digitalisere bøker. Ved hjelp av den første versjonen av corpus, som ble utgitt i 2009 og inneholdt over 5 millioner digitaliserte bøker, forfatterne analysert ordet bruk frekvens for å undersøke språklige endringer og kulturelle trender. Snart Google Books Corpus ble et populært datakilde for forskere og andre versjon av databasen ble utgitt i 2012.

Men Pechenick, Danforth, and Dodds (2015) advarte om at forskerne trenger for å karakterisere datainnsamlingen av corpus før du bruker den for å trekke vidtrekkende konklusjoner. Hovedproblemet er at corpus er bibliotek-aktig, som inneholder en av hver bok. Som et resultat av et individ, er produktiv forfatter i stand til merkbart sette inn nye fraser inn i Google Books leksikon. Videre vitenskapelige tekster utgjør en stadig vesentlige del av corpus hele 1900-tallet. I tillegg, ved å sammenligne to versjoner av de engelske Fiction datasett, Pechenick et al. funnet bevis for at utilstrekkelig filtrering ble brukt i fremstilling av den første versjon. Alle data som trengs for aktivitet er tilgjengelig her: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. I Michel et al., Opprinnelige papir (2011) , de brukte den første versjonen av det engelske datasettet, plottet hyppigheten av bruken av årene "1880", "1912" og "1973", og konkluderte med at "vi glemme vår fortid raskere for hvert år "(fig. 3A, Michel et al.). Replikere samme tomten ved hjelp av 1) første versjonen av corpus, engelsk datasett (samme som fig. 3A, Michel et al.)
2. Nå gjenskape den samme tomten med første versjon, engelsk skjønnlitteratur datasett.
3. Nå gjenskape den samme tomten med den andre versjonen av corpus, engelsk datasett.
4. Til slutt gjenskape den samme tomten med andre versjon, engelsk skjønnlitteratur datasett.
5. Beskriv forskjeller og likheter mellom disse fire tomter. Er du enig med Michel et al. Opprinnelige tolkning av den observerte trenden? (Hint: c) og d) bør være den samme som figur 16 i Pechenick et al).
6. Nå som du har kopiert dette ett funn ved hjelp av ulike Google Books korpus, velg en annen språklig endring eller kulturell fenomener presenteres i Michel et al. Opprinnelige papir. Er du enig med sin tolkning i lys av de begrensninger som presenteres i Pechenick et al.? For å gjøre ditt argument sterkere, prøv gjenskape den samme grafen ved hjelp av ulike versjoner av datasett som ovenfor.
[ , , , ] Penney (2016) undersøker hvorvidt utbredt publisitet om NSA / PRISM overvåking (dvs. Snowden åpenbaringer) i juni 2013 i forbindelse med en skarp og plutselig nedgang i trafikken til Wikipedia-artikler om emner som øker personvern. I så fall ville denne endringen i adferd være forenlig med en dempende effekt som følge av masseovervåking. Tilnærmingen av Penney (2016) kalles en avbrutt tidsserie design og er relatert til tilnærminger i kapitlet om tilnærmet eksperimenter fra observasjonsdata (§ 2.4.3).

Å velge emne søkeord, Penney henvist til listen brukes av US Department of Homeland Security for sporing og overvåking av sosiale medier. DHS Listen kategoriserer enkelte søkeordene i en rekke saker, dvs. "helse bekymring", "Infrastructure Security" og "terrorisme". For studiegruppen, Penney brukte førtiåtte søkeord relatert til «Terrorism" (se tabell 8 Vedlegg). Han så aggregert Wikipedia artikkel seertall på månedlig basis for de tilsvarende førtiåtte Wikipedia-artikler enn en tretti-to måneders periode, fra begynnelsen av januar 2012 til utgangen av august 2014. For å styrke sin argumentasjon, også skapte han flere sammenligning grupper ved å spore visninger artikkel om andre emner.

Nå skal du kopiere og utvide Penney (2016) . Alle rådata som du trenger for denne aktiviteten er tilgjengelig fra Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Eller du kan få det fra R pakken wikipediatrend (Meissner and Team 2016) . Når du skriver opp svarene dine, vær oppmerksom på hvilke datakilder du brukte. (Merk: Dette samme aktiviteten vises også i kapittel 6)
1. Les Penney (2016) og gjenskape Figur 2 som viser sidevisninger for «terrorisme» -relaterte sider før og etter Snowden åpenbaring. Tolke funnene.
2. Deretter replikere figur 4A, som sammenligner den studiegruppen ( "terrorisme" -relaterte artikler) med en sammenligningsgruppen ved hjelp av søkeord kategorisert under "DHS & Other Agencies" fra DHS liste (se vedlegg tabell 10). Tolke funnene.
3. I del b) sammen du studiegruppen til en sammenligningsgruppen. Penney også sammenlignet med to andre sammenlignende grupper: "Infrastructure Security" -relaterte artikler (vedlegg Tabell 11) og populære Wikipedia-sider (vedlegg Tabell 12). Kom opp med en alternativ sammenligningsgruppen, og teste om funnene fra del b) er følsom for valg av sammenligningsgruppen. Hvilke valg av sammenligningsgruppen gjør mest fornuftig? Hvorfor?
4. Forfatteren uttalte at søkeord relatert til "terror" ble brukt til å velge Wikipedia-artikler, fordi den amerikanske regjeringen sitert terrorisme som en viktig begrunnelse for sine online overvåkingspraksis. Som en sjekk av disse 48 "terrorisme" -relaterte søkeord, Penney (2016) også gjennomført en undersøkelse om MTurk spør respondentene å rangere hvert av søkeordene i form av regjeringen Trouble, personsensitive, og unngåelse (Vedlegg Tabell 7 og 8). Replikere undersøkelsen på MTurk og sammenligne resultatene.
5. Basert på resultatene i del d) og lesing av artikkelen, er du enig med forfatterens valg av tema søkeord i studiegruppen? Hvorfor eller hvorfor ikke? Hvis ikke, hva ville du foreslå i stedet?
[ ] Efrati (2016) rapporter, basert på konfidensiell informasjon, at "total deling" på Facebook hadde redusert med ca 5,5% år over år, mens "original kringkasting deling" var ned 21% år over år. Nedgangen var spesielt akutt med Facebook-brukere under 30 år. Rapporten tilskrives nedgangen på to forhold. Den ene er veksten i antall "venner" folk har på Facebook. Den andre er at noen deling aktiviteten har skiftet til meldinger og til konkurrenter som snapchat. Rapporten avslørte også flere taktikker Facebook hadde prøvd å øke deling, inkludert nyhetsstrøm algoritme tweaks som gjør opprinnelige innleggene mer fremtredende, samt periodiske påminnelser om den opprinnelige poster brukere "On This Day" for flere år siden. Hvilke implikasjoner, om noen, betyr disse funnene har for forskere som ønsker å bruke Facebook som en datakilde?
[ ] Tumasjan et al. (2010) rapporterte at andelen av tweets som nevner et politisk parti matchet andelen stemmer som partiet fikk i den tyske parlamentsvalget i 2009 (figur 2.9). Med andre ord, det viste seg at du kan bruke Twitter til å forutsi valg. På den tiden denne studien ble publisert ble det ansett som svært spennende fordi det syntes å foreslå en verdifull bruk for en vanlig kilde til store data.

Gitt den dårlige trekk ved store data, men du bør umiddelbart være skeptisk til dette resultatet. Tyskere på Twitter i 2009 var litt av en ikke-representativ gruppe, og tilhengere av den ene parten kan tweet om politikk oftere. Dermed virker det overraskende at alle mulige skjevheter som du kan forestille ville liksom utligne. Faktisk er resultatene i Tumasjan et al. (2010) viste seg å være for godt til å være sant. I deres papir, Tumasjan et al. (2010) regnes seks politiske partiene: KrF (CDU), Christian sosialdemokratene (CSU), SPD, Venstre (FDP), Venstre (Die Linke) og Miljøpartiet De Grønne (Grüne). Men det mest nevnte tyske politisk parti på Twitter på den tiden var det Piratpartiet (Piraten), et parti som kjemper statlig regulering av Internett. Når Piratpartiet ble inkludert i analysen, nevner Twitter blir en forferdelig prediktor for valgresultatet (figur 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Figur 2.9: Twitter nevner synes å forutsi resultatene av 2009 tyske valget (Tumasjan et al. 2010) , Men dette resultatet viser seg å være avhengig av noen vilkårlige og ubegrunnede valg (Jungherr, Jürgens, and Schoen 2012) .

Senere har andre forskere rundt om i verden brukes mer avansert metoder, for eksempel ved hjelp av sentiment analyse for å skille mellom positive og negative omtaler av partene-for å bedre evnen til Twitter-data til å forutsi en rekke forskjellige typer valg (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Slik Huberty (2015) sammenfattet resultatene fra disse forsøkene på å forutsi valg:

"Alle kjente prognoser metoder basert på sosiale medier har sviktet når det utsettes for kravene til ekte fremtidsrettet valg prognoser. Disse feilene synes å være på grunn av grunnleggende egenskaper ved sosiale medier, snarere enn å metodiske eller algoritmiske problemer. Kort sagt, sosiale medier ikke, og sannsynligvis aldri vil gi en stabil, objektivt, representativt bilde av velgerne; og convenience prøver av sosiale medier mangler tilstrekkelige data for å løse disse problemene legge hoc. "

Les noen av forskningen som fører Huberty (2015) til denne konklusjonen, og skrive en side notat til en politisk kandidat som beskriver om og hvordan Twitter bør brukes til å forutsi valg.
[ ] Hva er forskjellen mellom en sosiolog og en historiker? Ifølge Goldthorpe (1991) , den største forskjellen mellom en sosiolog og en historiker er kontroll over datainnsamlingen. Historikere er tvunget til å bruke relikvier mens sosiologer kan skreddersy sin datainnsamling til bestemte formål. Les Goldthorpe (1991) . Hvordan er forskjellen mellom sosiologi og historie knyttet til ideen om Custommades og readymades?
[ ] Bygger på forrige spørsmål, Goldthorpe (1991) trakk en rekke kritiske reaksjoner, blant annet en fra Nicky Hart (1994) som utfordret Goldthorpe hengivenhet til skreddersydde data. For å klargjøre de potensielle begrensningene skreddersydde data, Hart beskrev Affluent Worker Project, en stor undersøkelse for å måle forholdet mellom sosial klasse og stemme som ble gjennomført av Goldthorpe og kolleger på midten av 1960-tallet. Som man kunne forvente fra en forsker som favoriserte designet data over funnet data, den velstående Worker prosjektet samlet inn data som ble skreddersydd for å håndtere en nylig foreslått teori om fremtiden for sosial klasse i en tid med økende levestandard. Men, Goldthorpe og kolleger liksom "glemte" å samle inn informasjon om stemmegivning av kvinner. Slik Nicky Hart (1994) oversikter hele episoden:

". . . det [er] vanskelig å unngå den konklusjon at kvinner ble utelatt fordi denne "skreddersydde" datasettet ble begrenset av en paradigmatisk logikk som utelukket kvinnelig erfaring. Drevet av en teoretisk visjon av klassebevissthet og handling som mannlige interesser. . . , Goldthorpe og hans kolleger konstruert et sett av empiriske bevis som matet og oppfostret sine egne teoretiske antagelser i stedet for å utsette dem for en gyldig test av tilstrekkelighet. "

Hart fortsatte:

"De empiriske funnene i den velstående Worker Prosjekt fortelle oss mer om masculinist verdier av mid-tallet sosiologi enn de informere prosessene for stratifisering, politikk og materielle liv."

Kan du komme på andre eksempler hvor skreddersydd for datainnsamling har skjevheter i datasamleren bygd inn i den? Hvordan fungerer dette i forhold til algoritmisk forvirrende? Hvilke implikasjoner dette kan ha for når forskerne skal bruke readymades og når de bør bruke Custommades?
[ ] I dette kapittelet jeg kontras data samlet inn av forskere for forskere med administrative registre som er opprettet av selskaper og myndigheter. Noen kaller disse administrative registre "funnet data", som de kontrast med "utformet data." Det er sant at administrative registre er funnet av forskere, men de er også svært utformet. For eksempel, moderne tech bedrifter bruker enorme mengder tid og ressurser til å samle og kuratere sine data. Dermed er disse administrative registre både funnet og utformet, det bare avhenger av ditt perspektiv (figur 2.10).

Figur 2.10: Bildet er både en and og en kanin; det du ser er avhengig av ditt perspektiv. Regjeringen og økonomiske-administrative registre er både funnet og utformet; det du ser er avhengig av ditt perspektiv. For eksempel er samtale dataposter som samles inn av en mobiltelefon selskapet funnet data fra perspektivet til en forsker. Men er disse eksakt samme postene designet data perspektivet til de som arbeider i fakturering avdelingen av telefonselskapet. Kilde: Wikimedia Commons

Gi et eksempel på datakilde der ser det både som fant og utviklet er nyttig når du bruker den datakilden for forskning.
[ ] I en gjennomtenkt essay, Christian Sandvig og Eszter Hargittai (2015) beskriver to typer digital forskning, der det digitale systemet er "instrument" eller "studieobjekt." Et eksempel på den første typen studie er der Bengtsson og kolleger (2011) brukte mobiltelefon data for å spore migrasjon etter jordskjelvet i Haiti i 2010. Et eksempel på den andre typen er der Jensen (2007) studerer hvordan innføringen av mobiltelefoner i hele Kerala, India påvirket funksjon av markedet for fisk. Jeg finner dette nyttig fordi det tydeliggjør at studier ved hjelp av digitale datakilder kan ha helt forskjellige mål, selv om de bruker samme type datakilde. For ytterligere å klargjøre dette skillet, beskrive fire studier som du har sett: to som bruker et digitalt system som et instrument og to som bruker et digitalt system som et studieobjekt. Du kan bruke eksempler fra dette kapittelet hvis du vil.