Nøkkel:
[ , ] Algoritme confounding var et problem med Googles influensastatistikk. Lese papir ved Lazer et al. (2014) , og skrive en kort, klar e-post til en ingeniør hos Google forklarer problemet og tilbyr en idé om hvordan du kan løse problemet.
[ ] Bollen, Mao, and Zeng (2011) hevder at data fra Twitter kan brukes til å forutsi aksjemarkedet. Dette funnet førte til opprettelsen av et hedgefond-Derwent Capital Markets-å investere i aksjemarkedet basert på data samlet inn fra Twitter (Jordan 2010) . Hvilke bevis ville du ønsker å se før du setter pengene dine i dette fondet?
[ ] Mens noen offentlige helsetalsmenn hagl e-sigaretter som et effektivt hjelpemiddel for røykeslutt, andre advarer om mulige risikoer, slik som høye nivåer av nikotin. Tenk deg at en forsker bestemmer seg for å studere opinionen mot e-sigaretter ved å samle e-sigaretter-relaterte Twitter innlegg og gjennomføre sentiment analyse.
[ ] I november 2009 Twitter endret spørsmålet i tweet boksen fra "Hva gjør du?" Til "Hva skjer?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analyserte 41,7 millioner brukerprofiler, 1,47 milliarder sosiale relasjoner, 4262 trending emner og 106 millioner tweets mellom 6 juni og 31. juni 2009. Basert på denne analysen de konkluderte med at Twitter fungerer mer som et nytt medium for informasjonsdeling enn en sosialt nettverk.
[ ] "Retweets" blir ofte brukt til å måle innflytelse og spre innflytelse på Twitter. I utgangspunktet brukerne måtte kopiere og lime inn tweet de likte, merke den opprinnelige forfatteren med hans / hennes håndtaket, og manuelt skrive "RT" før tweet for å indikere at det er en retweet. Så, i 2009 Twitter lagt til en "retweet" -knappen. I juni 2016 Twitter har gjort det mulig for brukere å retweet sine egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du disse endringene bør påvirke hvordan du bruker "retweets" i din forskning? Hvorfor eller hvorfor ikke?
[ , , ] Michel et al. (2011) konstruerte en corpus dukker opp fra Googles forsøk på å digitalisere bøker. Ved hjelp av den første versjonen av corpus, som ble utgitt i 2009 og inneholdt over 5 millioner digitaliserte bøker, forfatterne analysert ordet bruk frekvens for å undersøke språklige endringer og kulturelle trender. Snart Google Books Corpus ble et populært datakilde for forskere og andre versjon av databasen ble utgitt i 2012.
Men Pechenick, Danforth, and Dodds (2015) advarte om at forskerne trenger for å karakterisere datainnsamlingen av corpus før du bruker den for å trekke vidtrekkende konklusjoner. Hovedproblemet er at corpus er bibliotek-aktig, som inneholder en av hver bok. Som et resultat av et individ, er produktiv forfatter i stand til merkbart sette inn nye fraser inn i Google Books leksikon. Videre vitenskapelige tekster utgjør en stadig vesentlige del av corpus hele 1900-tallet. I tillegg, ved å sammenligne to versjoner av de engelske Fiction datasett, Pechenick et al. funnet bevis for at utilstrekkelig filtrering ble brukt i fremstilling av den første versjon. Alle data som trengs for aktivitet er tilgjengelig her: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) undersøker hvorvidt utbredt publisitet om NSA / PRISM overvåking (dvs. Snowden åpenbaringer) i juni 2013 i forbindelse med en skarp og plutselig nedgang i trafikken til Wikipedia-artikler om emner som øker personvern. I så fall ville denne endringen i adferd være forenlig med en dempende effekt som følge av masseovervåking. Tilnærmingen av Penney (2016) kalles en avbrutt tidsserie design og er relatert til tilnærminger i kapitlet om tilnærmet eksperimenter fra observasjonsdata (§ 2.4.3).
Å velge emne søkeord, Penney henvist til listen brukes av US Department of Homeland Security for sporing og overvåking av sosiale medier. DHS Listen kategoriserer enkelte søkeordene i en rekke saker, dvs. "helse bekymring", "Infrastructure Security" og "terrorisme". For studiegruppen, Penney brukte førtiåtte søkeord relatert til «Terrorism" (se tabell 8 Vedlegg). Han så aggregert Wikipedia artikkel seertall på månedlig basis for de tilsvarende førtiåtte Wikipedia-artikler enn en tretti-to måneders periode, fra begynnelsen av januar 2012 til utgangen av august 2014. For å styrke sin argumentasjon, også skapte han flere sammenligning grupper ved å spore visninger artikkel om andre emner.
Nå skal du kopiere og utvide Penney (2016) . Alle rådata som du trenger for denne aktiviteten er tilgjengelig fra Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Eller du kan få det fra R pakken wikipediatrend (Meissner and Team 2016) . Når du skriver opp svarene dine, vær oppmerksom på hvilke datakilder du brukte. (Merk: Dette samme aktiviteten vises også i kapittel 6)
[ ] Efrati (2016) rapporter, basert på konfidensiell informasjon, at "total deling" på Facebook hadde redusert med ca 5,5% år over år, mens "original kringkasting deling" var ned 21% år over år. Nedgangen var spesielt akutt med Facebook-brukere under 30 år. Rapporten tilskrives nedgangen på to forhold. Den ene er veksten i antall "venner" folk har på Facebook. Den andre er at noen deling aktiviteten har skiftet til meldinger og til konkurrenter som snapchat. Rapporten avslørte også flere taktikker Facebook hadde prøvd å øke deling, inkludert nyhetsstrøm algoritme tweaks som gjør opprinnelige innleggene mer fremtredende, samt periodiske påminnelser om den opprinnelige poster brukere "On This Day" for flere år siden. Hvilke implikasjoner, om noen, betyr disse funnene har for forskere som ønsker å bruke Facebook som en datakilde?
[ ] Tumasjan et al. (2010) rapporterte at andelen av tweets som nevner et politisk parti matchet andelen stemmer som partiet fikk i den tyske parlamentsvalget i 2009 (figur 2.9). Med andre ord, det viste seg at du kan bruke Twitter til å forutsi valg. På den tiden denne studien ble publisert ble det ansett som svært spennende fordi det syntes å foreslå en verdifull bruk for en vanlig kilde til store data.
Gitt den dårlige trekk ved store data, men du bør umiddelbart være skeptisk til dette resultatet. Tyskere på Twitter i 2009 var litt av en ikke-representativ gruppe, og tilhengere av den ene parten kan tweet om politikk oftere. Dermed virker det overraskende at alle mulige skjevheter som du kan forestille ville liksom utligne. Faktisk er resultatene i Tumasjan et al. (2010) viste seg å være for godt til å være sant. I deres papir, Tumasjan et al. (2010) regnes seks politiske partiene: KrF (CDU), Christian sosialdemokratene (CSU), SPD, Venstre (FDP), Venstre (Die Linke) og Miljøpartiet De Grønne (Grüne). Men det mest nevnte tyske politisk parti på Twitter på den tiden var det Piratpartiet (Piraten), et parti som kjemper statlig regulering av Internett. Når Piratpartiet ble inkludert i analysen, nevner Twitter blir en forferdelig prediktor for valgresultatet (figur 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Senere har andre forskere rundt om i verden brukes mer avansert metoder, for eksempel ved hjelp av sentiment analyse for å skille mellom positive og negative omtaler av partene-for å bedre evnen til Twitter-data til å forutsi en rekke forskjellige typer valg (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Slik Huberty (2015) sammenfattet resultatene fra disse forsøkene på å forutsi valg:
"Alle kjente prognoser metoder basert på sosiale medier har sviktet når det utsettes for kravene til ekte fremtidsrettet valg prognoser. Disse feilene synes å være på grunn av grunnleggende egenskaper ved sosiale medier, snarere enn å metodiske eller algoritmiske problemer. Kort sagt, sosiale medier ikke, og sannsynligvis aldri vil gi en stabil, objektivt, representativt bilde av velgerne; og convenience prøver av sosiale medier mangler tilstrekkelige data for å løse disse problemene legge hoc. "
Les noen av forskningen som fører Huberty (2015) til denne konklusjonen, og skrive en side notat til en politisk kandidat som beskriver om og hvordan Twitter bør brukes til å forutsi valg.
[ ] Hva er forskjellen mellom en sosiolog og en historiker? Ifølge Goldthorpe (1991) , den største forskjellen mellom en sosiolog og en historiker er kontroll over datainnsamlingen. Historikere er tvunget til å bruke relikvier mens sosiologer kan skreddersy sin datainnsamling til bestemte formål. Les Goldthorpe (1991) . Hvordan er forskjellen mellom sosiologi og historie knyttet til ideen om Custommades og readymades?
[ ] Bygger på forrige spørsmål, Goldthorpe (1991) trakk en rekke kritiske reaksjoner, blant annet en fra Nicky Hart (1994) som utfordret Goldthorpe hengivenhet til skreddersydde data. For å klargjøre de potensielle begrensningene skreddersydde data, Hart beskrev Affluent Worker Project, en stor undersøkelse for å måle forholdet mellom sosial klasse og stemme som ble gjennomført av Goldthorpe og kolleger på midten av 1960-tallet. Som man kunne forvente fra en forsker som favoriserte designet data over funnet data, den velstående Worker prosjektet samlet inn data som ble skreddersydd for å håndtere en nylig foreslått teori om fremtiden for sosial klasse i en tid med økende levestandard. Men, Goldthorpe og kolleger liksom "glemte" å samle inn informasjon om stemmegivning av kvinner. Slik Nicky Hart (1994) oversikter hele episoden:
". . . det [er] vanskelig å unngå den konklusjon at kvinner ble utelatt fordi denne "skreddersydde" datasettet ble begrenset av en paradigmatisk logikk som utelukket kvinnelig erfaring. Drevet av en teoretisk visjon av klassebevissthet og handling som mannlige interesser. . . , Goldthorpe og hans kolleger konstruert et sett av empiriske bevis som matet og oppfostret sine egne teoretiske antagelser i stedet for å utsette dem for en gyldig test av tilstrekkelighet. "
Hart fortsatte:
"De empiriske funnene i den velstående Worker Prosjekt fortelle oss mer om masculinist verdier av mid-tallet sosiologi enn de informere prosessene for stratifisering, politikk og materielle liv."
Kan du komme på andre eksempler hvor skreddersydd for datainnsamling har skjevheter i datasamleren bygd inn i den? Hvordan fungerer dette i forhold til algoritmisk forvirrende? Hvilke implikasjoner dette kan ha for når forskerne skal bruke readymades og når de bør bruke Custommades?
[ ] I dette kapittelet jeg kontras data samlet inn av forskere for forskere med administrative registre som er opprettet av selskaper og myndigheter. Noen kaller disse administrative registre "funnet data", som de kontrast med "utformet data." Det er sant at administrative registre er funnet av forskere, men de er også svært utformet. For eksempel, moderne tech bedrifter bruker enorme mengder tid og ressurser til å samle og kuratere sine data. Dermed er disse administrative registre både funnet og utformet, det bare avhenger av ditt perspektiv (figur 2.10).
Gi et eksempel på datakilde der ser det både som fant og utviklet er nyttig når du bruker den datakilden for forskning.
[ ] I en gjennomtenkt essay, Christian Sandvig og Eszter Hargittai (2015) beskriver to typer digital forskning, der det digitale systemet er "instrument" eller "studieobjekt." Et eksempel på den første typen studie er der Bengtsson og kolleger (2011) brukte mobiltelefon data for å spore migrasjon etter jordskjelvet i Haiti i 2010. Et eksempel på den andre typen er der Jensen (2007) studerer hvordan innføringen av mobiltelefoner i hele Kerala, India påvirket funksjon av markedet for fisk. Jeg finner dette nyttig fordi det tydeliggjør at studier ved hjelp av digitale datakilder kan ha helt forskjellige mål, selv om de bruker samme type datakilde. For ytterligere å klargjøre dette skillet, beskrive fire studier som du har sett: to som bruker et digitalt system som et instrument og to som bruker et digitalt system som et studieobjekt. Du kan bruke eksempler fra dette kapittelet hvis du vil.