[ , ] Algoritmické zmätok bol problém s Chrípkovými trendmi Google. Prečítajte si papier Lazer et al. (2014) a napíšte stručný a jasný e-mail inžinierovi spoločnosti Google, ktorý vysvetlí tento problém a ponúkne vám predstavu, ako ho opraviť.
[ ] Bollen, Mao, and Zeng (2011) tvrdí, že údaje z Twitteru môžu byť použité na predpovedanie akciového trhu. Toto zistenie viedlo k vytvoreniu hedžového fondu - Derwent Capital Markets - na investovanie na burze cenných papierov na základe údajov zhromaždených z Twitteru (Jordan 2010) . Aké dôkazy by ste chceli vidieť skôr, než vložia svoje peniaze do tohto fondu?
[ ] Aj keď niektorí obhajcovia verejného zdravia považujú e-cigarety za účinnú pomoc pri odvykaní od fajčenia, iní varujú pred potenciálnymi rizikami, ako je vysoká hladina nikotínu. Predstavte si, že sa výskumník rozhodne študovať verejnú mienku k e-cigaretám zhromažďovaním príspevkov súvisiacich s digitálnymi cigaretami a vykonávaním analýz sentimentu.
[ ] V novembri 2009 Twitter zmenil otázku v poli tweet z "Čo robíš?" Na "Čo sa deje?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" sa často používajú na meranie vplyvu a šírenia vplyvu na Twitter. Spočiatku používatelia museli skopírovať a vložiť tweet, ktorý sa im páčili, označiť pôvodného autora s jeho rukoväťou a ručne písať "RT" pred tweet, aby naznačil, že to bol retweet. Potom v roku 2009 pridalo Twitter tlačidlo "retweet". V júni 2016 služba Twitter umožnila používateľom opakovať svoje vlastné tweety (https://twitter.com/twitter/status/742749353689780224). Myslíte si, že tieto zmeny by mali ovplyvniť spôsob, akým vo svojom výskume používate retweety? Prečo áno alebo prečo nie?
[ , , , ] V rozsiahlej diskusii Michel a kolegovia (2011) analyzovali obsah viac ako päť miliónov digitalizovaných kníh v snahe identifikovať dlhodobé kultúrne trendy. Údaje, ktoré použili, boli teraz uvoľnené ako súbory údajov spoločnosti Google NGrams, a preto ich môžeme použiť na replikáciu a rozšírenie časti ich práce.
V jednom z mnohých výsledkov v príspevku Michel a kolegovia tvrdili, že zabúdame rýchlejšie a rýchlejšie. Pre určitý rok, povedzme "1883", vypočítali podiel 1 gramov publikovaný v každom roku medzi rokmi 1875 a 1975, ktorý bol "1883". Zdôvodnili, že tento podiel je mierou záujmu o udalosti, ku ktorým došlo v danom roku. Na svojom obrázku 3a vykresľovali trajektóriu použitia na tri roky: 1883, 1910 a 1950. Tieto tri roky majú spoločný vzorec: málo použitia pred tým istým rokom, potom špic, potom rozpad. Ďalej, na kvantifikáciu miery rozpadu pre každý rok, Michel a kolegovia vypočítali "polčas" každého roka na všetky roky medzi rokmi 1875 a 1975. Vo svojom obrázku 3a (vložka), ukázali, že polčas každého rok klesá a tvrdili, že to znamená, že minulosť zabúdame rýchlejšie a rýchlejšie. Použili verziu 1 korpusu v angličtine, ale následne spoločnosť Google vydala druhú verziu korpusu. Predtým, ako začnete kódovať, prečítajte si všetky časti otázky.
Táto aktivita vám poskytne praktické písanie opakovane použiteľných kódov, interpretácie výsledkov a hádky s údajmi (ako napríklad práca s nepríjemnými súbormi a spracovanie chýbajúcich údajov). Táto aktivita vám tiež pomôže dostať sa do prevádzky s bohatým a zaujímavým súborom údajov.
Získajte prvotné údaje z webovej stránky prehliadača NGM služby Google Books. Predovšetkým by ste mali používať verziu 2 anglického korpusu, ktorý bol vydaný 1. júla 2012. Nekomprimovaný, tento súbor je 1,4 GB.
Obnovte hlavnú časť obrázka 3a Michel et al. (2011) . Ak chcete tento obrázok znovu vytvoriť, budete potrebovať dva súbory: ten, ktorý ste stiahli čiastočne (a), a súbor "celkový počet", ktorý môžete použiť na konverziu surových počtov na proporcie. Všimnite si, že celkový počet súborov má štruktúru, ktorá môže robiť to trochu ťažké čítať dovnútra Verzia 2 z údajov NGram produkuje podobné výsledky, ako sú uvedené v Michel et al. (2011) , ktoré sú založené na údajoch verzie 1?
Teraz skontrolujte graf proti grafu vytvorenému programom NGram Viewer.
Znovu vytvorte obrázok 3a (hlavný obrázok), ale zmeňte hodnotu \(y\) aby bol počet surovín (nie miera zmien).
Rozdiel medzi (b) a (d) vedie k prehodnoteniu niektorých výsledkov Michela a spol. (2011). Prečo áno alebo prečo nie?
Teraz, použitím pomeru zmien, replikujte vložku z obrázku 3a. To znamená, že pre každý rok medzi rokmi 1875 a 1975 vypočítajte polčas v danom roku. Polčas rozpadu je definovaný ako počet rokov, ktorý uplynie predtým, ako pomer spomínaných údajov dosiahne polovicu svojej špičkovej hodnoty. Upozorňujeme, že Michel et al. (2011) robia niečo komplikovanejšie pri odhadovaní polčasu rozpadu - pozri časť III.6 Podporných on-line informácií - ale tvrdia, že oba prístupy majú podobné výsledky. Má verzia 2 údajov NGram podobné výsledky ako tie, ktoré sú uvedené v Michel et al. (2011) , ktoré sú založené na údajoch verzie 1? (Tip: Nenechajte sa prekvapiť, ak to nie je.)
Existovali nejaké roky, ktoré boli zbytočné, napríklad roky, ktoré boli zabudnuté zvlášť rýchlo alebo obzvlášť pomaly? Stručne špekulujte o možných príčinách tohto modelu a vysvetlite, ako ste identifikovali odľahlé hodnoty.
Teraz zopakujte tento výsledok pre verziu 2 údajov NGrams v čínštine, francúzštine, nemčine, hebrejčine, taliančine, ruštine a španielčine.
Ak porovnávali vo všetkých jazykoch, existovali nejaké roky, ktoré boli zbytočné, napríklad roky, ktoré boli zabudnuté zvlášť rýchlo alebo obzvlášť pomaly? Stručne špekulujte o možných príčinách tohto modelu.
[ , , , ] Penney (2016) preskúmala, či rozšírená publicita o dozore NSA / PRISM (tj Snowdenove odhalenia) v júni 2013 súvisí s prudkým a náhlym poklesom návštevnosti článkov Wikipédie o témach, ktoré vyvolávajú obavy o ochranu súkromia. Ak áno, táto zmena správania by bola v súlade s chladiacim účinkom vyplývajúcim z hromadného dohľadu. Prístup Penney (2016) sa niekedy nazýva návrh prerušeného časového radu a súvisí s prístupmi opísanými v oddiele 2.4.3.
Kvôli výberu kľúčových slov témy sa Penney odvolával na zoznam používaný americkým ministerstvom vnútornej bezpečnosti na sledovanie a monitorovanie sociálnych médií. Zoznam DHS kategorizuje niektoré hľadané výrazy do niekoľkých otázok, tj "Zdravotný záujem", "Bezpečnosť infraštruktúry" a "Terorizmus". Pre študijnú skupinu použila Penney 48 kľúčových slov súvisiacich s "terorizmom" (pozri tabuľku 8 dodatku ). Následne zhromaždil prehľad článkov v Wikipédii sa počíta na mesačnom základe pre príslušné 48 článkov Wikipédie v priebehu 32-mesačného obdobia od začiatku januára 2012 do konca augusta 2014. Na posilnenie svojho tvrdenia vytvoril niekoľko porovnávacích skupín sledovaním názory na iné témy.
Teraz budete replikovať a rozšíriť Penney (2016) . Všetky surové údaje, ktoré budete potrebovať pre túto činnosť, sú k dispozícii na Wikipédii. Alebo ho môžete získať z R-package wikipedirend (Meissner and R Core Team 2016) . Pri písaní odpovedí si prosím uvedomte, ktorý zdroj údajov ste použili. (Všimnite si, že tá istá aktivita sa tiež zobrazuje v kapitole 6.) Táto aktivita vám poskytne prax v oblasti hádania dát a premýšľanie o prirodzených experimentoch vo veľkých zdrojoch údajov. Taktiež vám pomôže s potenciálnym zaujímavým zdrojom údajov pre budúce projekty.
[ ] Efrati (2016) na základe dôverných informácií uviedla, že "celkové zdieľanie" na Facebooku sa medziročne znížilo o 5,5%, zatiaľ čo "pôvodné zdieľanie vysielania" kleslo o 21% oproti roku. Tento pokles bol obzvlášť akútny u používateľov Facebooku mladších ako 30 rokov. Správa pripísala pokles dvom faktorom. Jedným z nich je nárast počtu "priateľov", ktorých ľudia majú na Facebooku. Druhým je to, že niektoré zdieľanie aktivít sa posunulo k správam a konkurentom ako Snapchat. Správa tiež odhalila niekoľko taktík, ktoré sa spoločnosť Facebook pokúsila zvýšiť zdieľanie vrátane aktualizácie algoritmov News Feed, ktoré robia originálne príspevky výraznejšími, ako aj pravidelné pripomienky pôvodných príspevkov s funkciou "Na tento deň". Aké dôsledky majú tieto zistenia pre výskumníkov, ktorí chcú používať Facebook ako zdroj údajov?
[ ] Aký je rozdiel medzi sociológom a historikom? Podľa Goldthorpe (1991) je hlavným rozdielom kontrola zhromažďovania údajov. Historici sú nútení používať relikvie, zatiaľ čo sociológovia môžu prispôsobiť zhromažďovanie údajov na konkrétne účely. Prečítajte si Goldthorpe (1991) . Ako je rozdiel medzi sociológiou a históriou spojený s myšlienkou zákaziek a readymades?
[ ] Toto vychádza z predchádzajúceho dotazníka. Goldthorpe (1991) vyvodil niekoľko kritických odpovedí vrátane jedného od Nickyho Harta (1994) ktorý spochybnil Goldthorpeovu oddanosť prispôsobeným údajom. S cieľom objasniť potenciálne obmedzenia na mieru šitých údajov opísal Hart projekt Benefičný pracovník, rozsiahly prieskum na meranie vzťahu medzi sociálnou triedou a hlasovaním, ktorý v polovici šesťdesiatych rokov uskutočnil Goldthorpe a kolegovia. Ako možno očakávať od učenca, ktorý uprednostnil navrhnuté dáta pred nájdenými údajmi, Projekt Affluent Worker zhromaždil údaje, ktoré boli prispôsobené na riešenie nedávno navrhovanej teórie o budúcnosti spoločenskej triedy v ére zvyšujúcej sa životnej úrovne. Ale Goldthorpe a kolegovia nejako "zabudli" na zhromažďovanie informácií o volebnom správaní žien. Tu je návod, ako Nicky Hart (1994) zhrnul celú epizódu:
"... je ťažké vyhnúť sa záveru, že ženy boli vynechané, pretože tento súbor údajov" na mieru "bol obmedzený paradigmatickou logikou, ktorá vylučovala skúsenosti žien. Vedená teoretickou víziou vedomia triedy a pôsobenia ako mužských záujmov ..., Goldthorpe a jeho kolegovia vytvorili súbor empirických dôkazov, ktoré namiesto toho, aby ich vystavili platnému testu primeranosti, živili a podporovali svoje vlastné teoretické predpoklady. "
Hart pokračoval:
"Empirické nálezy projektu Affluent Worker nám hovoria viac o maskulinistických hodnotách sociológie v polovici storočia, než o procesoch stratifikácie, politiky a hmotného života."
Môžete uvažovať o ďalších príkladoch, v ktorých je na základe prispôsobeného zberu údajov zahrnuté predpojatosti kolektora údajov? Ako to porovnáva s algoritmickým zmätok? Aké dôsledky by to mohlo mať pre výskumníkov, ktorí by mali používať hotové výrobky a kedy by mali používať vlastné výrobky?
[ ] V tejto kapitole som porovnával údaje zhromaždené výskumníkmi pre výskumníkov s administratívnymi záznamami vytvorenými spoločnosťami a vládami. Niektorí ľudia nazývajú tieto administratívne záznamy "nájdené dáta", ktoré kontrastujú s "navrhnutými údajmi". Je pravda, že vedecké záznamy sú nájdené výskumníkmi, ale sú tiež vysoko navrhnuté. Napríklad moderné technologické spoločnosti veľmi tvrdo pracujú na zhromažďovaní a spracovávaní svojich údajov. Takto sa tieto administratívne záznamy nachádzajú a navrhujú, záleží iba na vašej perspektíve (obrázok 2.12).
Uveďte príklad zdroja údajov, keď ho vidíte ako navrhnutý a navrhnutý, je užitočné pri používaní tohto zdroja údajov na účely výskumu.
[ ] V premyslenej eseji kresťania Sandvig a Eszter Hargittai (2015) rozdelili digitálny výskum na dve široké kategórie v závislosti od toho, či je digitálny systém "nástrojom" alebo "predmetom štúdia". Príkladom prvého druhu - kde je systém nástrojom - je výskum od Bengtssona a kolegov (2011) o používaní údajov mobilného telefónu na sledovanie migrácie po zemetrasení na Haiti v roku 2010. Príkladom druhého druhu - kde je systém predmetom štúdia - je výskum od Jensena (2007) o tom, ako zavedenie mobilných telefónov v celej oblasti Keraly v Indii ovplyvnilo fungovanie trhu s rybami. Tento rozdiel považujem za užitočný, pretože objasňuje, že štúdie využívajúce digitálne zdroje údajov môžu mať úplne odlišné ciele, aj keď používajú rovnaký zdroj údajov. S cieľom objasniť toto rozlíšenie opíšte štyri štúdie, ktoré ste videli: dve, ktoré používajú digitálny systém ako nástroj a dva, ktoré používajú digitálny systém ako predmet štúdia. Ak chcete, môžete použiť príklady z tejto kapitoly.