dejavnosti

  • stopnja težavnosti: enostavno enostavno , srednja srednje , težko težko , zelo težko zelo težko
  • zahteva matematiko ( zahteva matematiko )
  • zahteva kodiranje ( zahteva kodiranje )
  • Zbiranje podatkov ( Zbiranje podatkov )
  • moji najljubši ( moj najljubši )
  1. [ srednje , moj najljubši ] Algoritemsko zbadanje je bilo težavo s trendi Google Flu Trends. Preberite članek Lazer et al. (2014) in napišete kratko in jasno e-pošto inženirju v Googlu, ki pojasnjuje težavo in ponuja idejo o tem, kako jo popraviti.

  2. [ srednje ] Bollen, Mao, and Zeng (2011) trdi, da se lahko podatki iz Cvrkte uporabljajo za napovedovanje borznega trga. Ta ugotovitev je pripeljala do oblikovanja hedge fund-Derwent Capital Markets-naložbe na borzo na podlagi podatkov, zbranih od Twittera (Jordan 2010) . Katere dokaze bi želeli videti, preden dajo svoj denar v ta sklad?

  3. [ enostavno ] Medtem ko nekateri zagovorniki javnega zdravja menijo, da e-cigarete učinkovito pomagajo pri prenehanju kajenja, drugi opozarjajo na morebitna tveganja, kot so visoke ravni nikotina. Predstavljajte si, da se raziskovalec odloči preučiti javno mnenje o e-cigaretah z zbiranjem e-cigaret, povezanih s Twitterji in izvajanjem analize razpoloženja.

    1. Katere so tri možne pristranskosti, ki vas najbolj skrbijo v tej študiji?
    2. Clark et al. (2016) vodila samo takšno študijo. Najprej so zbrali 850.000 tweetov, ki so uporabljali ključne besede, povezane z e-cigareti, od januarja 2012 do decembra 2014. Po natančnejšem pregledu so ugotovili, da so bili mnogi od teh tweetov avtomatizirani (tj. Niso jih proizvedli ljudje), in mnogi od teh avtomatiziranih tweetov so bili v bistvu reklame. Razvili so algoritem človeškega odkrivanja za ločevanje avtomatiziranih tweetov iz ekoloških tweetov. Z uporabo tega človeškega detektivnega algoritma so ugotovili, da je bilo 80% tweetov avtomatizirano. Ali ta ugotovitev spremeni vaš odgovor na del (a)?
    3. Ko so primerjali občutke v ekoloških in avtomatiziranih tweetih, so ugotovili, da so bili avtomatizirani tweets bolj pozitivni kot organski tweets (6,17 proti 5,84). Ali ta ugotovitev spremeni vaš odgovor na (b)?
  4. [ enostavno ] Novembra 2009 je Cvrkutati spremenil vprašanje v tweet box od "Kaj počneš?" Do "Kaj se dogaja?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kako menite, da bo sprememba pozivov vplivala na kdo tweets in / ali kaj tweet?
    2. Navedite enega raziskovalnega projekta, za katerega bi radi raje napisali "Kaj počnete?" Pojasnite, zakaj.
    3. Navedite enega raziskovalnega projekta, za katerega bi radi raje napisali "Kaj se dogaja?" Pojasnite, zakaj.
  5. [ enostavno ] "Retweets" se pogosto uporabljajo za merjenje vpliva in širjenja vpliva na Twitter. Prvotno so uporabniki morali kopirati in prilepiti tweet, ki so jim všeč, označite prvotnega avtorja s svojim ročkom in ročno vnesite »RT« pred tweet, da označite, da gre za retweet. Nato je leta 2009 Cvrkutal dodal gumb »retweet«. Junija 2016 je Twitter omogočil uporabnikom, da sami posredujejo svoje tweets (https://twitter.com/twitter/status/742749353689780224). Ali menite, da bi morale te spremembe vplivati ​​na to, kako uporabite "retweets" v svoji raziskavi? Zakaj ali zakaj ne?

  6. [ zelo težko , Zbiranje podatkov , zahteva kodiranje , moj najljubši ] Michel in sodelavci (2011) v zelo razpravljalnem delu analizirali vsebino več kot pet milijonov digitaliziranih knjig, da bi prepoznali dolgoročne kulturne trende. Podatki, ki so jih uporabili, so zdaj objavljeni kot podatkovni niz Google NGrams, zato lahko podatke uporabimo za ponovitev in podaljšanje dela njihovega dela.

    V enem od številnih rezultatov v prispevku sta Michel in sodelavci trdili, da pozabljamo hitreje in hitreje. Za določeno leto, recimo "1883", so izračunali delež 1-gramov, objavljenih vsako leto med leti 1875 in 1975, ki so bili "1883". Razložili so, da je ta delež merilo zanimanja za dogodke, ki so se zgodili v tem letu. Na njihovi sliki 3a so trije leti načrtovali uporabne poti: leta 1883, 1910 in 1950. Te tri leta imajo skupni vzorec: malo pred tem letom, nato še konico, nato razpadajo. Nato za določitev stopnje razpada za vsako leto Michel in njegovi kolegi izračunavajo "razpolovno dobo" vsakega leta za vsa leta med letoma 1875 in 1975. Na sliki 3a (vbrizgani) so pokazali, da razpolovna doba vsakega leto se zmanjšuje in trdijo, da to pomeni, da pozabljamo preteklost hitreje in hitreje. Uporabili so različico 1 angleškega korpusa, kasneje pa je Google izdal drugo različico korpusa. Pred začetkom kodiranja preberite vse dele vprašanja.

    Ta dejavnost vam bo omogočila pisanje večkratne kode, interpretacijo rezultatov in premikanje podatkov (na primer delo z nerodnimi datotekami in ravnanje z manjkajočimi podatki). Ta dejavnost vam bo prav tako pomagala pri vstajanju in tekmovanju z bogatim in zanimivim naborom podatkov.

    1. Pridobite neobdelane podatke s spletnega mesta za pregledovalnik NGram Google Knjige. Zlasti bi morali uporabljati različico 2 angleškega korpusa, ki je bila izdana 1. julija 2012. Nestisnjena je ta datoteka 1,4 GB.

    2. Ponovno vzemite glavni del slike 3a Michel et al. (2011) . Če želite ponovno ustvariti to številko, boste potrebovali dve datoteki: tisto, ki ste jo prenesli v del (a) in datoteko »skupno število«, ki jo lahko uporabite za pretvorbo surovih števk v razmerja. Upoštevajte, da ima skupna datoteka s štetjem strukturo, zaradi katere je lahko težko prebrati. Ali različica 2 podatkov NGram prinaša podobne rezultate kot so prikazane v Michel et al. (2011) , ki temeljijo na podatkih različice 1?

    3. Zdaj si oglejte grafikon z grafikonom, ki ga je ustvaril pregledovalnik NGram.

    4. Ponovno ustvarite sliko 3a (glavna slika), vendar spremenite \(y\) -axis kot neobdelano število spominov (ne stopnja omemb).

    5. Ali razlika med (b) in (d) vodi v ponovno preučitev katerega koli rezultata Michel et al. (2011). Zakaj ali zakaj ne?

    6. Zdaj, z uporabo deleža omemb, ponovite vdelavo na sliki 3a. To pomeni, da se za vsako leto med letoma 1875 in 1975 izračuna razpolovni čas tega leta. Razpolovna doba je opredeljena kot število let, ki gredo, preden delež pomenov doseže polovico svoje najvišje vrednosti. Upoštevajte, da Michel et al. (2011) narediti nekaj bolj zapletenega, da bi ocenili razdelek III.6 podporne spletne informacije, ki se nanaša na razpolovno dobo, vendar trdijo, da oba pristopa ustvarjajo podobne rezultate. Ali različica 2 podatkov NGram daje podobne rezultate tistim, ki so predstavljeni v Michel et al. (2011) , ki temeljijo na podatkih različice 1? (Namig: Ne bodite presenečeni, če ne.)

    7. Ali so bila leti, ki so bila izredna, kot so leta, ki so bila posebej hitro ali posebej počasi pozabljena? Na kratko razmislite o možnih vzrokih za ta vzorec in pojasnijte, kako ste prepoznali izredne razmere.

    8. Zdaj ponovite ta rezultat za različico 2 podatkov NGrams v kitajščini, francoščini, nemščini, hebrejščini, italijanščini, ruščini in španščini.

    9. Če primerjamo vse jezike, ali so bila leti, ki so bila izredna, kot so leta, ki so bila posebej hitro ali posebej počasi pozabljena? Na kratko predstavljamo možne razloge za ta vzorec.

  7. [ zelo težko , Zbiranje podatkov , zahteva kodiranje , moj najljubši ] Penney (2016) raziskala, ali je razširjena publiciteta o nadzorovanju NSA / PRISM (tj. Odkritja Snowdena) junija 2013 povezana z ostrim in nenadnim zmanjšanjem prometa člankov iz Wikipedije o temah, ki zbujajo skrbi glede zasebnosti. Če je odgovor pritrdilen, bi bila ta sprememba v vedenju skladna s hladnim učinkom, ki je posledica množičnega nadzora. Pristop Penney (2016) se včasih imenuje prekinjena zasnova časovnih vrst in je povezana s pristopi, opisanimi v točki 2.4.3.

    Če želite izbrati ključne besede za teme, se je Penney skliceval na seznam, ki ga uporablja Ministrstvo za domovinsko varnost ZDA za sledenje in spremljanje družbenih medijev. V seznamu DHS so določeni iskalni izrazi kategorizirani v vrsto vprašanj, in sicer "Zaskrbljenost glede zdravja", "Varnost infrastrukture" in "Terorizem." Za študijsko skupino je Penney uporabil 48 ključnih besed, povezanih s "terorizmom" (glej tabelo v prilogi 8 ). Nato je mesečno zbiral članek o Wikipedijevih člankih mesečno za 48 člankov iz Wikipedije v obdobju 32 mesecev, in sicer od začetka januarja 2012 do konca avgusta 2014. Za okrepitev svoje argumentacije je ustvaril tudi nekaj primerjalnih skupin s sledenjem člankov o drugih temah.

    Sedaj boste posnemali in razširili Penney (2016) . Vsi neobdelani podatki, ki jih boste potrebovali za to dejavnost, so na voljo v Wikipediji. Lahko pa jo dobite tudi iz R-paketa wikipediatrend (Meissner and R Core Team 2016) . Ko napišete svoje odgovore, upoštevajte, kateri vir podatkov ste uporabili. (Upoštevajte, da se ta ista aktivnost pojavlja tudi v 6. poglavju.) Ta aktivnost vam bo omogočila, da se pri premikanju podatkov in razmišljanju o naravnih eksperimentih v velikih virih podatkov. Prav tako vas bo pripeljal do potencialno zanimivega vira podatkov za prihodnje projekte.

    1. Preberite Penney (2016) in ponovite njegovo sliko 2, v kateri so prikazani pogledi strani na strani "Terorizem" pred in po odkritju Snowden. Razlaga ugotovitev.
    2. Nato ponovite sliko 4A, ki primerja študijsko skupino (členi o "terorizmu") s primerjalno skupino, ki uporablja ključne besede, ki so razvrščene pod "DHS in druge agencije" s seznama DHS (glej tabelo 10 dodatka in opombo 139). Razlaga ugotovitev.
    3. V delu (b) ste študijsko skupino primerjali z eno primerjalno skupino. Penney je primerjala tudi dve drugi primerjalni skupini: členi, ki se nanašajo na "varnost infrastrukture" (tabela dodatek 11) in priljubljene strani v Wikipediji (tabela dodatek 12). Prikažite alternativno primerjalno skupino in preizkusite, ali so ugotovitve iz dela (b) občutljive na vašo izbiro primerjalne skupine. Katera izbira je najbolj smiselna? Zakaj?
    4. Penney je izjavil, da so bile ključne besede, ki se nanašajo na "terorizem", uporabljene za izbiro člankov iz Wikipedije, ker je ameriška vlada navedla terorizem kot ključno utemeljitev svojih spletnih nadzornih praks. Kot preverjanje teh 48 ključnih ključnih besed "terorizma" je Penney (2016) izvedla tudi raziskavo o MTurk, ki je zahtevala od anketirancev, da ocenijo vsako od ključnih besed ht v smislu vladnih težav, občutljivosti na zasebnost in izogibanja (tabela 7 in 8 v prilogi ). Replicirajte raziskavo o MTurk in primerjate svoje rezultate.
    5. Ali se na podlagi rezultatov v delu (d) in branju članka strinjate s Penneyjevo izbiro ključnih besed v temi v študijski skupini? Zakaj ali zakaj ne? Če ne, kaj namesto tega predlagate?
  8. [ enostavno ] Efrati (2016) je na podlagi zaupnih podatkov poročala, da se je "skupna izmenjava" na Facebooku zmanjšala za približno 5,5% v letu, medtem ko je "prvotna izmenjava televizijskih programov" padla za 21% v letu dni. Ta upad je bil posebej akuten pri uporabnikih Facebook, mlajših od 30 let. Poročilo je pripisalo upad dveh dejavnikov. Ena je rast števila "prijateljev", ki jih imajo ljudje na Facebooku. Druga je, da se je nekaj dejavnosti izmenjave preusmerilo v sporočila in konkurentom, kot je Snapchat. Poročilo je razkrilo tudi več taktik, ki jih je Facebook poskušal povečati souporabo, vključno s spreminjanjem algoritma za novice, ki omogočajo, da izvirne objave postanejo bolj vidne, kot tudi občasne opomnike o prvotnih objavah s funkcijo »Na ta dan«. Kakšne posledice imajo, če sploh, te ugotovitve za raziskovalce, ki želijo uporabljati Facebook kot vir podatkov?

  9. [ srednje ] Kakšna je razlika med sociologom in zgodovinarjem? Po Goldthorpeju (1991) je glavna razlika nadzor nad zbiranjem podatkov. Zgodovinarji so prisiljeni uporabljati relikvije, sociologi pa lahko svoje zbirke podatkov prilagodijo specifičnim namenom. Preberite Goldthorpe (1991) . Kako je razlika med sociologijo in zgodovino povezana z idejo o custommades in readymades?

  10. [ težko ] To temelji na prejšnjem vprašanju. Goldthorpe (1991) vzbudil številne kritične odgovore, med njimi tudi Nicky Hart (1994) ki so izpodbijali zlorabo Goldthorpea za prilagojene podatke. Da bi razjasnili morebitne omejitve po meri narejenih podatkov, je Hart opisal projekt Affluent Worker, veliko raziskavo za merjenje razmerja med družbenim razredom in glasovanjem, ki so ga sredi šestdesetih let opravili Goldthorpe in kolegi. Kot bi lahko pričakovali od učenjaka, ki je želel oblikovati podatke o najdenih podatkih, je projekt Affluent Worker zbiral podatke, ki so bili prilagojeni za obravnavo nedavno predlagane teorije o prihodnosti družbenega razreda v dobi povečevanja življenjskega standarda. Toda Goldthorpe in kolegi so nekako "pozabili" zbirati informacije o volilnem vedenju žensk. Takole je Nicky Hart (1994) povzel celotno epizodo:

    "... težko se je izogniti sklepu, da so bile ženske izpuščene, ker je ta" prilagojeni "podatkovni niz omejeval paradigmatična logika, ki je izključevala ženske izkušnje. S teoretično vizijo klasične zavesti in akcije kot moške skrbi ... Goldthorpe in njegovi kolegi so zgradili niz empiričnih dokazov, ki so hranili in negovali svoje teoretične predpostavke, namesto da bi jih izpostavili veljavnemu testu ustreznosti. "

    Hart je nadaljeval:

    "Empirični izsledki projekta Affluent Worker Project nam povejo več o maskulinističnih vrednotah sociološke zgodovine v sredini stoletja, kot pa o strategijah stratifikacije, politike in materialnega življenja".

    Ali lahko razmišljate o drugih primerih, pri katerih je po meri zbranih podatkov prišlo do pristranskosti podatkovnega zbiralnika? Kako se to primerja z algoritmičnimi zmedami? Kakšne posledice bi lahko imeli takrat, ko bi morali raziskovalci uporabljati pripravljenost in kdaj naj uporabljajo custommades?

  11. [ srednje ] V tem poglavju sem primerjal podatke, ki so jih raziskovalci zbirali za raziskovalce z administrativnimi zapisi, ki so jih ustvarili podjetja in vlade. Nekateri ljudje te upravne evidence imenujejo »najdene podatke«, ki jih nasprotujejo »zasnovani podatki«. Res je, da so administrativne evidence našli raziskovalci, vendar so tudi zelo zasnovani. Na primer, sodobna tehnološka podjetja zelo težko zbirajo in skrivajo svoje podatke. Tako so ti administrativni zapisi najdeni in zasnovani, odvisno samo od vaše perspektive (slika 2.12).

    Slika 2.12: Slika je raca in kunec; kar vidite, je odvisno od vaše perspektive. Veliki viri podatkov so najdeni in oblikovani; spet je tisto, kar vidite, odvisno od vaše perspektive. Na primer, podatki o klicnih podatkih, ki jih zbere družba za mobilno telefonijo, najdejo podatke z vidika raziskovalca. Toda te iste zapise so zasnovane podatke z vidika nekoga, ki dela na odseku za obračun telefonskega podjetja. Vir: Popular Science Monthly (1899) / Wikimedia Commons.

    Slika 2.12: Slika je raca in kunec; kar vidite, je odvisno od vaše perspektive. Veliki viri podatkov so najdeni in oblikovani; spet je tisto, kar vidite, odvisno od vaše perspektive. Na primer, podatki o klicnih podatkih, ki jih zbere družba za mobilno telefonijo, najdejo podatke z vidika raziskovalca. Toda te iste zapise so zasnovane podatke z vidika nekoga, ki dela na odseku za obračun telefonskega podjetja. Vir: Popular Science Monthly (1899) / Wikimedia Commons .

    Navedite primer podatkovnega vira, kjer je videti, kako je bilo najdeno in oblikovano, koristno pri uporabi tega vira podatkov za raziskave.

  12. [ enostavno ] V premišljenem eseju sta Christian Sandvig in Eszter Hargittai (2015) razdelila digitalne raziskave v dve široki kategoriji, odvisno od tega, ali je digitalni sistem "instrument" ali "predmet študija." Primer prve vrste - kjer je sistem instrument - je raziskava Bengtssona in sodelavcev (2011) o uporabi mobilnih telefonskih podatkov za sledenje migracijam po potresu na Haitiju leta 2010. Primer druge vrste - kjer je sistem predmet študija - je raziskava Jensena (2007) o tem, kako je uvedba mobilnih telefonov v celotni Kerali v Indiji vplivala na delovanje trga za ribe. To razlikovanje se mi zdi koristno, ker pojasnjuje, da imajo lahko študije, ki uporabljajo digitalne podatkovne vire, povsem drugačne cilje, tudi če uporabljajo isti vir podatkov. Da bi pojasnili to razliko, opišite štiri študije, ki ste jih videli: dva, ki uporabljajo digitalni sistem kot instrument in dve, ki uporabljajo digitalni sistem kot predmet študija. Če želite, lahko uporabite primere iz tega poglavja.