Nyckel:
[ , ] Algoritmisk confounding var ett problem med Google Flu Trends. Läs artikeln av Lazer et al. (2014) , och skriva en kort, tydlig e-post till en ingenjör på Google förklarar problemet och erbjuder en idé om hur man rättar till problemet.
[ ] Bollen, Mao, and Zeng (2011) hävdar att data från Twitter kan användas för att förutsäga aktiemarknaden. Denna upptäckt ledde till skapandet av en hedgefond-Derwent Capital Markets-att investera i aktiemarknaden baserad på data som samlats in från Twitter (Jordan 2010) . Vilka bevis skulle du vilja se innan du sätter in pengar i denna fond?
[ ] Medan vissa folkhälsospråkar hagel e-cigaretter som ett effektivt hjälpmedel för rökavvänjning, andra varnar om potentiella risker, såsom höga nivåer av nikotin. Föreställ dig att en forskare beslutar att studera den allmänna opinionen mot e-cigaretter genom att samla e-cigaretter relaterade Twitter inlägg och genomföra känsla analys.
[ ] I november 2009, Twitter ändrade frågan i tweet rutan från "Vad gör du?" Till "Vad händer?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analyserade 41,7 miljoner användarprofiler, 1,47 miljarder sociala relationer, 4262 trender ämnen, och 106 miljoner tweets mellan 6 juni och 31 juni, 2009. Baserat på denna analys drog de slutsatsen att Twitter fungerar mer som ett nytt medium för informationsutbyte än en socialt nätverk.
[ ] "Retweets" används ofta för att mäta påverkan och spridning av inflytande på Twitter. Inledningsvis användare hade att kopiera och klistra in tweet de gillade, märka den ursprungliga författaren med hans / hennes handtaget och manuellt skriva "RT" innan tweet för att indikera att det är en retweet. Då, i 2009 Twitter lagt till en knapp "retweet". I juni 2016 Twitter gjorde det möjligt för användare att retweet egna tweets (https://twitter.com/twitter/status/742749353689780224). Tycker du att dessa förändringar bör påverka hur du använder "retweets" i din forskning? Varför eller varför inte?
[ , , ] Michel et al. (2011) konstruerade en korpus som härrör från Googles försök att digitalisera böcker. Använda den första versionen av corpus, som publicerades i 2009 och innehöll över 5 miljoner digitaliserade böcker, författarna analyserade ordvalet frekvens för att undersöka språkliga förändringar och kulturella trender. Snart Google Books Corpus blev en populär datakälla för forskare, och en 2: a versionen av databasen släpptes 2012.
Men Pechenick, Danforth, and Dodds (2015) varnade för att forskare måste helt karakterisera samplingsprocessen av corpus innan du använder den för att dra allmänna slutsatser. Den viktigaste frågan är att corpus är biblioteket-liknande, innehållande en av varje bok. Som ett resultat, en individ, är produktiv författare kan märkbart införa nya fraser i Google Books lexikon. Dessutom vetenskapliga texter utgör en allt väsentlig del av corpus hela 1900-talet. Dessutom, genom att jämföra två versioner av de engelska Fiction dataset, Pechenick et al. funnit bevis för att otillräcklig filtrering användes vid framställning av den första versionen. Alla uppgifter som behövs för verksamheten finns här: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) undersöker om den utbredda publicitet om NSA / PRISM övervakning (dvs. Snowden avslöjanden) i juni 2013 i samband med en kraftig och plötslig minskning av trafiken till Wikipedia-artiklar om ämnen som höjer integritetsfrågor. Om så är fallet, skulle denna förändring i beteende vara förenliga med en avkylande effekt till följd av massövervakning. Tillvägagångssättet för Penney (2016) kallas ibland en avbruten tidsseriedesign och är relaterad till de metoder i kapitlet om tillnärmning av experiment från observationsdata (avsnitt 2.4.3).
Att välja ämnet nyckelord hänvisade Penney till listan som används av US Department of Homeland Security för att spåra och övervaka sociala medier. DHS lista kategoriserar vissa söktermer i en rad frågor, det vill säga "hälsorisk", "Infrastructure Security" och "terrorism". För undersökningsgruppen använde Penney de fyrtioåtta sökord relaterade till "Terrorism" (se tabell 8 Bilaga). Han samman sedan Wikipedia artikeln visningsantal på månadsbasis för motsvarande fyrtioåtta Wikipedia-artiklar under en trettiotvå månader, från början av januari 2012 till slutet av augusti 2014. För att stärka hans argument, också skapade han flera jämförelse grupper genom att spåra utsikt artikel om andra ämnen.
Nu kommer ni att replikera och utvidga Penney (2016) . Alla rådata som du behöver för denna verksamhet är tillgänglig från Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Eller så kan du få det från R paketet wikipediatrend (Meissner and Team 2016) . När du skriver upp dina svar, observera vilken datakälla du använde. (Obs: Samma aktivitet visas också i kapitel 6)
[ ] Efrati (2016) rapporter, baserade på konfidentiell information, som "total delning" på Facebook hade minskat med ca 5,5% jämfört med året innan medan "ursprungliga sändningen sharing" var ned 21% jämfört med föregående år. Denna nedgång var särskilt akut med Facebook-användare under 30 år. Den rapport som tillskrivs nedgången på två faktorer. En är tillväxten i antalet "vänner" människor har på Facebook. Den andra är att en del att dela verksamheten har flyttats till meddelande och konkurrenter som snapchat. Rapporten visade också flera taktik Facebook hade försökt att öka delning, inklusive News Feed algoritm tweaks som gör ursprungliga inlägg mer framträdande, liksom periodiska påminnelser om de ursprungliga inlägg användare "På denna dag" för flera år sedan. Vilka konsekvenser, om någon, har dessa fynd har för forskare som vill använda Facebook som en datakälla?
[ ] Tumasjan et al. (2010) rapporterade att andelen tweets hänvisar ett politiskt parti matchade andel av rösterna som partiet fick i den tyska riksdagsvalet 2009 (Figur 2.9). Med andra ord, visade det sig att du kan använda Twitter för att förutsäga valet. När den här studien publicerades ansågs det oerhört spännande eftersom det verkade att föreslå en värdefull användning för en vanlig källa till big data.
Med tanke på de dåliga egenskaperna hos stora uppgifter, men du bör omedelbart vara skeptisk till detta resultat. Tyskar på Twitter under 2009 var ganska icke-representativ grupp, och anhängare av ett parti kan tweet om politik oftare. Således verkar det förvånande att alla tänkbara fördomar som ni kan föreställa något sätt skulle ta ut varandra. I själva verket visar resultaten i Tumasjan et al. (2010) visade sig vara för bra för att vara sant. I sina papper, Tumasjan et al. (2010) anses sex politiska partier: Kristdemokraterna (CDU), krist Socialdemokraterna (CSU), SPD, liberaler (FDP), Vänsterpartiet (Die Linke) och miljöpartiet (Grüne). Men de mest omtalade tyska politiska partiet på Twitter på den tiden var Piratpartiet (Piraten), ett parti som kämpar statlig reglering av Internet. När Piratpartiet ingick i analysen, Twitter nämner blir en fruktansvärd prediktor för valresultatet (Figur 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Därefter har andra forskare runt om i världen används snyggare metoder-såsom att använda känsla analys att skilja mellan positiva och negativa omnämnanden av parterna-i syfte att förbättra möjligheterna för Twitter uppgifter för att förutsäga en mängd olika typer av val (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Här är hur Huberty (2015) sammanfattade resultaten av dessa försök att förutsäga val:
"Alla kända prognosmetoder bygger på sociala medier har misslyckats när de utsätts för de krav som sann framåtblickande val- prognoser. Dessa misslyckanden tycks bero på fundamentala egenskaper hos sociala medier, snarare än till metodologiska eller algoritmiska problem. Kort sagt, sociala medier inte, och förmodligen aldrig kommer att erbjuda en stabil, opartisk, representativ bild av väljarna; och bekvämlighet prover av sociala medier saknar tillräckliga data för att åtgärda dessa problem i efterhand. "
Läs några av den forskning som leder Huberty (2015) till denna slutsats, och skriva en sida memo till en politisk kandidat som beskriver om och hur Twitter bör användas för att förutse val.
[ ] Vad är skillnaden mellan en sociolog och en historiker? Enligt Goldthorpe (1991) , den största skillnaden mellan en sociolog och en historiker är kontroll över datainsamling. Historiker tvingas använda reliker medan sociologer kan skräddarsy sin datainsamling till särskilda ändamål. Läs Goldthorpe (1991) . Hur är skillnaden mellan sociologi och historia i samband med idén om Custommades och readymade?
[ ] Bygga på föregående fråga, Goldthorpe (1991) drog ett antal kritiska svar, däribland ett från Nicky Hart (1994) som utmanade Goldthorpes hängivenhet till skräddarsydda data. För att tydliggöra de potentiella begränsningar skräddarsydda uppgifter beskrev Hart rika Worker Project, en stor undersökning för att mäta förhållandet mellan social klass och röstning som genomfördes av Goldthorpe och kollegor i mitten av 1960-talet. Som man kan förvänta sig av en lärd som gynnade utformade data över hittade data, de rika Worker Project insamlade data som skräddarsys för att möta en nyligen föreslagna teori om framtiden för social klass i en tid av ökande levnadsstandarden. Men, Goldthorpe och kollegor på något sätt "glömde" att samla in information om röstningsbeteende kvinnor. Här är hur Nicky Hart (1994) sammanfattningar hela episoden:
". . . det [är] svårt att undvika slutsatsen att kvinnor uteslöts eftersom denna "skräddarsydda" dataset begränsades av ett paradigm logik som uteslutits kvinnlig erfarenhet. Driven av en teoretisk vision av klassmedvetandet och åtgärder som manliga bekymmer. . . , Goldthorpe och hans kollegor konstruerat en uppsättning av empiriska bevis som närs och underhålls sina egna teoretiska antaganden istället för att utsätta dem för ett giltigt test av lämplighet. "
Hart fortsatte:
"De empiriska resultaten av den rika Worker Project berätta mer om masculinist värdena mitten av århundradet sociologi än de informera de processer skiktning, politik och materiella liv."
Kan du tänka på andra exempel där samling skräddarsydda uppgifter har de fördomar av datainsamlaren inbyggd i det? Hur jämför detta med algoritm confounding? Vilka konsekvenser kan det få för när forskare ska använda readymades och när de ska använda Custommades?
[ ] I det här kapitlet kontrasterade jag uppgifter som samlats in av forskare för forskare med administrativa register som skapats av företag och regeringar. Vissa människor kallar dessa administrativa register "hittade uppgifter", som de kontrasterar med "designade data." Det är sant att administrativa register finns av forskare, men de är också mycket utformade. Till exempel moderna tech företag spenderar enorma mängder tid och resurser för att samla in och kyrkoherden sina data. Således är dessa administrativa register båda hittas och utformade, bara beror på ditt perspektiv (figur 2.10).
Ge ett exempel på datakälla där ser det både som finns och utformade är till hjälp när du använder den datakällan för forskning.
[ ] I en tankeväckande essä, Christian Sandvig och Eszter Hargittai (2015) beskriver två typer av digital forskning, där det digitala systemet är "instrument" eller "föremål för studien." Ett exempel på den första typen av studie där Bengtsson och kollegor (2011) använde mobil data telefon för att spåra migration efter jordbävningen i Haiti under 2010. ett exempel på det andra slaget är där Jensen (2007) studerar hur införandet av mobiltelefoner i hela Kerala, Indien påverkat marknadens funktionssätt för fisk. Jag tycker att det bra eftersom det klargör att studier med hjälp av digitala datakällor kan ha helt olika mål, även om de använder samma typ av datakälla. För att ytterligare klargöra denna skillnad, beskriver fyra studier som du har sett: två som använder ett digitalt system som ett instrument och två som använder ett digitalt system som ett studieobjekt. Du kan använda exempel från det här kapitlet om du vill.