Nøgle:
[ , ] Algoritmisk confounding var et problem med Google Flu Trends. Læse avisen ved Lazer et al. (2014) , og skrive en kort, klar e-mail til en ingeniør hos Google forklarer problemet og tilbyde en idé om, hvordan du løser problemet.
[ ] Bollen, Mao, and Zeng (2011) hævder, at data fra Twitter kan bruges til at forudsige aktiemarkedet. Dette fund førte til oprettelsen af en hedgefond-Derwent Capital Markets-at investere i aktiemarkedet baseret på data indsamlet fra Twitter (Jordan 2010) . Hvilke beviser vil du ønsker at se før du sætter dine penge i denne fond?
[ ] Mens nogle folkesundheden fortalere hagl e-cigaretter som en effektiv hjælp til rygestop, andre advarer om de potentielle risici, såsom høje niveauer af nikotin. Forestil dig, at en forsker beslutter at studere den offentlige mening mod e-cigaretter ved at indsamle e-cigaretter-relaterede kvidre stillinger og udførelse følelser analyse.
[ ] I november 2009 Twitter ændret spørgsmålet i tweet feltet "Hvad laver du?" Til "Hvad sker der?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analyserede 41,7 millioner brugerprofiler, 1,47 milliarder sociale relationer, 4262 trending emner og 106 millioner tweets fra juni 6th og 31. juni 2009. På grundlag af denne analyse konkluderede de, at Twitter tjener mere som et nyt medie for informationsudveksling end en Socialt netværk.
[ ] "Retweets" bruges ofte til at måle indflydelse og spredning af indflydelse på Twitter. Oprindeligt brugere måtte kopiere og indsætte tweet de kunne lide, tag den oprindelige forfatter med hans / hendes greb, og manuelt skrive "RT" før tweet at angive, at det er en retweet. Så, i 2009 tilføjede Twitter en "retweet" -knappen. I juni 2016 Twitter gjorde det muligt for brugerne at retweet deres egne tweets (https://twitter.com/twitter/status/742749353689780224). Tror du disse ændringer bør påvirke, hvordan du bruger "retweets" i din forskning? Hvorfor eller hvorfor ikke?
[ , , ] Michel et al. (2011) konstrueret et korpus på vej ud af Googles forsøg på at digitalisere bøger. Brug den første version af corpus, som blev offentliggjort i 2009 og indeholdt over 5 millioner digitaliserede bøger, forfatterne analyserede ord brug frekvens for at undersøge sproglige ændringer og kulturelle tendenser. Snart Google Books Corpus blev en populær datakilde for forskere, og en 2. udgave af databasen blev udgivet i 2012.
Men Pechenick, Danforth, and Dodds (2015) advarede om, at forskerne har brug for fuldt ud at karakterisere sampling processen med corpus før du bruger den til at tegne brede konklusioner. Det vigtigste spørgsmål er, at corpus er biblioteket-lignende, som indeholder en af hver bog. Som et resultat, et individ, produktiv forfatter er i stand til mærkbart indsætte nye sætninger i Google Bøger leksikon. Desuden videnskabelige tekster udgør en stadig væsentlig del af corpus hele 1900-tallet. Desuden ved at sammenligne to versioner af de engelske Fiction datasæt, Pechenick et al. fundet beviser for, at utilstrækkelig filtrering blev brugt i at producere den første version. Alle de data, der er nødvendige for aktivitet er tilgængelig her: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) udforsker, om den udbredte omtale om NSA / PRISM overvågning (dvs. de Snowden åbenbaringer) i juni 2013 i forbindelse med en kraftig og pludselig nedgang i trafikken til Wikipedia-artikler om emner, der regnes for privatlivets fred. Hvis det er tilfældet, vil denne ændring i adfærd være i overensstemmelse med en afkølende virkning som følge af omfattende overvågning. Tilgangen af Penney (2016) er undertiden kaldes en afbrudt tidsserie design og er relateret til de tilgange i kapitlet om at tilnærme eksperimenter fra observationsdata (afsnit 2.4.3).
For at vælge emnet søgeord, Penney henvist til den liste, der af US Department of Homeland Security til sporing og overvågning af sociale medier. DHS Listen kategoriserer bestemte søgeord ind i en række spørgsmål, nemlig "sundhedsmæssig bekymring," "Infrastructure Security" og "Terrorisme". For studiegruppen, Penney brugte otteogfyrre søgeord relateret til "terrorisme" (se tabel 8 Bilag). Han aggregeret Wikipedia artiklen view tæller på månedsbasis for de tilsvarende otteogfyrre Wikipedia-artikler over en 32 måneder periode fra begyndelsen af januar 2012 til slutningen af august 2014. For at styrke hans argument, han skabte også flere sammenligning grupper ved at spore synspunkter artiklen om andre emner.
Nu, vil du kopiere og udvide Penney (2016) . Alle de rå data, som du får brug for denne aktivitet er tilgængelig fra Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Eller du kan få det fra R pakken wikipediatrend (Meissner and Team 2016) . Når du skriver op dine svar, skal du være opmærksom hvilken datakilde du brugte. (Bemærk: Denne samme aktivitet vises også i kapitel 6)
[ ] Efrati (2016) rapporter, baseret på fortrolige oplysninger, at "total deling" på Facebook havde faldet med ca. 5,5% i forhold til året, mens "oprindelige udsendelse sharing" var nede på 21% fra år til år. Dette fald var særligt akut med Facebook-brugere under 30 år. Rapporten tilskrives faldet til to faktorer. Den ene er væksten i antallet af "venner" folk har på Facebook. Den anden er, at nogle dele aktivitet er skiftet til messaging og til konkurrenter som snapchat. Rapporten afslørede også de mange taktik Facebook havde forsøgt at øge deling, herunder News Feed algoritme tweaks der gør oprindelige indlæg mere fremtrædende, samt periodiske påmindelser af de oprindelige indlæg brugere "på denne dag" flere år siden. Hvilke konsekvenser, hvis nogen, er disse resultater har for forskere, der ønsker at bruge Facebook som en datakilde?
[ ] Tumasjan et al. (2010) rapporterede, at andelen af tweets, hvori et politisk parti matchede andelen af stemmer, som partiet har modtaget i den tyske parlamentsvalg i 2009 (Figur 2.9). Med andre ord, viste det sig, at man kunne bruge Twitter til at forudsige valget. På det tidspunkt, denne undersøgelse blev offentliggjort den blev betragtet yderst spændende, fordi det syntes at foreslå en værdifuld brug for en fælles kilde til store data.
I betragtning af de dårlige egenskaber af store data, men du bør straks være skeptisk over for dette resultat. Tyskerne på Twitter i 2009 var ganske ikke-repræsentativ gruppe, og tilhængere af den ene part kan tweet om politik oftere. Derfor virker det overraskende, at alle de mulige fordomme, som du kunne forestille en eller anden måde ville annullere ud. Faktisk resultaterne i Tumasjan et al. (2010) viste sig at være for godt til at være sandt. I deres papir, Tumasjan et al. (2010) betragtes seks politiske partier: Kristelige Demokrater (CDU), Christian Socialdemokratiet (CSU), SPD, liberale (FDP), Venstre (Die Linke) og De Grønne (Grüne). Men det mest omtalte tyske politiske parti på Twitter på det tidspunkt var Piratpartiet (Piraten), et parti, der kæmper offentlig regulering af internettet. Når Piratpartiet blev medtaget i analysen, nævner Twitter bliver en frygtelig indikator for valgresultater (Figur 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Efterfølgende har andre forskere i hele verden anvendte mere avanceret metoder-såsom anvendelse af følelser analyse til at skelne mellem positive og negative omtaler af parterne-for at forbedre muligheden for Twitter-data til at forudsige en række forskellige typer af valgene (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Her er hvordan Huberty (2015) sammenfattet resultaterne af disse forsøg på at forudsige valget:
"Alle kendte prognoser metoder baseret på sociale medier har undladt når det udsættes for kravene fra ægte fremadrettet valg prognoser. Disse fejl synes at skyldes fundamentale egenskaber ved sociale medier, snarere end til metodologiske eller algoritmiske problemer. Kort sagt, sociale medier gør ikke, og sandsynligvis aldrig vil, tilbyder en stabil, fordomsfri, repræsentativt billede af vælgerne; og convenience prøver af sociale medier ikke har tilstrækkelige data til at løse disse problemer post hoc. "
Læs nogle af den forskning, der fører Huberty (2015) til denne konklusion, og skrive en side memo til en politisk kandidat, der beskriver, om og hvordan Twitter bør bruges til at forudsige valg.
[ ] Hvad er forskellen mellem en sociolog og historiker? Ifølge goldthorpe (1991) , den vigtigste forskel mellem en sociolog og historiker er kontrol over dataindsamlingen. Historikere er tvunget til at bruge relikvier mens sociologer kan skræddersy deres dataindsamling til specifikke formål. Læs Goldthorpe (1991) . Hvordan er forskellen mellem sociologi og historie relateret til ideen om Custommades og readymades?
[ ] Med udgangspunkt i det foregående spørgsmål, Goldthorpe (1991) trak en række kritiske reaktioner, herunder en fra Nicky Hart (1994) , der udfordrede goldthorpe hengivenhed at skræddersy gjort data. For at klarlægge de potentielle begrænsninger af skræddersyede data, Hart beskrev de velhavende Worker Project, en stor undersøgelse for at måle forholdet mellem social klasse og afstemninger, der blev foretaget af goldthorpe og kolleger i midten af 1960'erne. Som man kunne forvente fra en lærd, der begunstigede designet data over fundne data, den velhavende Worker projektet indsamlede data, der blev skræddersyet til at løse en nylig foreslået teori om fremtiden for social klasse i en tid med stigende levestandard. Men goldthorpe og kolleger eller anden måde "glemte" at indsamle oplysninger om afstemningen adfærd kvinder. Her er hvordan Nicky Hart (1994) resuméer hele episoden:
". . . det [er] svært at undgå den konklusion, at kvinder blev udeladt, fordi denne "skræddersyet" datasæt var begrænset af en paradigmatisk logik, der udelukkede kvindelige oplevelse. Drevet af en teoretisk vision om klassebevidsthed og handling som mandlige bekymringer. . . , Goldthorpe og hans kolleger konstrueret et sæt empiriske beviser, der fodres og plejes egne teoretiske antagelser i stedet for at udsætte dem for et gyldigt test af tilstrækkelighed. "
Hart fortsatte:
"De empiriske resultater af den Velhavende Worker Project fortælle os mere om de maskulinistisk værdier af midten af århundredet sociologi, end de underrette de processer af lagdeling, politik og materielle liv."
Kan du tænke på andre eksempler, hvor indsamlingen skræddersyede data har de systematiske fejl i data collector bygget ind i det? Hvordan denne sammenligne med algoritmisk confounding? Hvilke konsekvenser kan det få, når forskerne skal bruge readymades og når de skal bruge Custommades?
[ ] I dette kapitel jeg kontrast data indsamlet af forskere for forskere med administrative registre skabt af virksomheder og regeringer. Nogle kalder disse administrative registre "fundet data", som de kontrast med "designet data." Det er rigtigt, at administrative registre findes af forskere, men de er også meget designet. For eksempel, moderne tech virksomheder bruger enorme mængder af tid og ressourcer til at indsamle og kuratere deres data. Således er disse administrative registre begge fundet og designet, det bare afhænger af dit perspektiv (Figur 2.10).
Giv et eksempel på data kilde, hvor ser det både som fundet og designet er nyttigt, når du bruger den datakilde for forskning.
[ ] I en tankevækkende essay, Christian Sandvig og Eszter Hargittai (2015) beskriver to slags digital forskning, hvor det digitale system er "instrument" eller "genstanden for undersøgelsen." Et eksempel på den første type undersøgelse, hvor Bengtsson og kolleger (2011) brugte mobiltelefon data til at spore migration efter jordskælvet i Haiti i 2010. Et eksempel på den anden type er, hvor Jensen (2007) undersøgelser, hvordan indførelsen af mobiltelefoner i hele Kerala, Indien påvirket funktion af markedet for fisk. Jeg finder det nyttigt, fordi det tydeliggør, at undersøgelser med anvendelse af digitale datakilder kan have helt andre mål, selv om de bruger den samme slags datakilde. For yderligere at tydeliggøre denne skelnen, beskriver fire undersøgelser, som du har set: to, der bruger et digitalt system som et instrument og to, der bruger et digitalt system som genstand for undersøgelsen. Du kan bruge eksempler fra dette kapitel, hvis du vil.