dejavnosti

Legenda:

  • stopnja težavnosti: lahka enostavno , srednje srednje , trda težko , zelo težko zelo težko
  • zahteva matematike ( zahteva matematike )
  • zahteva kodiranje ( zahteva kodiranje )
  • Zbiranje podatkov ( Zbiranje podatkov )
  • moji najljubši ( moj najljubši )
  1. [ srednje , moj najljubši ] Algoritmična zavajajočih je problem z Google Flu Trends. Preberite knjigo z Lazer et al. (2014) , in napisati kratko, jasno e-mail: inženir pri Googlu pojasnjujejo problem in ponuja idejo, kako odpraviti težavo.

  2. [ srednje ] Bollen, Mao, and Zeng (2011) trdi, da se lahko podatki iz Twitterja lahko uporabimo za napoved borzi. Ta ugotovitev je privedla do ustanovitve hedge skladi, Derwent Capital Markets-za vlaganje na borzi, ki temelji na podatkih, zbranih iz Twitterja (Jordan 2010) . Kakšne dokaze bi si želeli videti, preden svoj denar v ta sklad?

  3. [ enostavno ] Medtem ko so nekateri zagovorniki javnega zdravja toče e-cigarete kot učinkovita pomoč pri prenehanju kajenja, drugi opozarjajo o možnih tveganjih, kot so visoke gladine nikotina. Predstavljajte si, da raziskovalec odloči za študij na javno mnenje proti e-cigaret, ki jih zbira, povezanih z e-cigarete Twitter sporočil in izvajanje analize klime.

    1. Katere so tri možne pristranskosti, ki vas najbolj skrbi v tej študiji?
    2. Clark et al. (2016) tekel samo takšne študije. Najprej so zbrali 850.000 tweets, ki uporabljajo e-povezanih cigaretnih besede od januarja 2012 do decembra 2014. Po podrobnejšem pregledu so ugotovili, da so bili mnogi od teh tweets avtomatizirano (tj, ne proizvaja človek) in mnoge od teh avtomatiziranih tweets so bili v glavnem reklame. So razvili algoritem človeškega zaznavanja ločiti avtomatiziranih tweets iz organskih tweets. Uporaba tega Human prepoznati algoritem so ugotovili, da so avtomatsko 80% tweets. Ali ta ugotovitev spremeniti svoj odgovor na del (a)?
    3. Ko so primerjali razpoloženje v organskih in avtomatskimi tweets so ugotovili, da so avtomatsko tweets več pozitivnih kot organskih Twitterja (6.17 v primerjavi z 5,84). Ali ta ugotovitev spremenite odgovor na (b)?
  4. [ enostavno ] Novembra 2009 je Twitter spremenil vprašanje v polje tweet od "Kaj pa delaš?" V "Kaj se dogaja?« (Https://blog.twitter.com/2009/whats-happening).

    1. Kako mislite, da sprememba pozivov bo vplivala, ki tweet in / ali kaj tweet?
    2. Ime en raziskovalni projekt, za katerega bi si raje poziv "Kaj pa delaš?" Razloži, zakaj.
    3. Ime en raziskovalni projekt, za katerega bi si raje poziv "Kaj se dogaja?« Pojasnite, zakaj.
  5. [ srednje ] Kwak et al. (2010) analizirali 41,7 milijona uporabniških profilov, 1,47 milijarde družbene odnose, 4262 trending teme in 106 milijonov tweetov med 6. junijem in 31. junija 2009. Na podlagi te analize so sklenili, da je Twitter služi več kot nov medij izmenjavo informacij kot socialno omrežje.

    1. Glede na ugotovitve Kwak sod je, kakšne vrste raziskav bi ti naredil s podatki Twitter? Kakšne vrste raziskav bi ne storili s podatki Twitter? Zakaj?
    2. V letu 2010, je dodal Twitter WHO slediti storitev tako prilagojen predlog za uporabnike. Tri priporočila so prikazani v času, na glavni strani. Priporočila so pogosto sestavljeni iz posameznikovih "prijateljev-of-prijateljev" in so prikazane tudi medsebojni stiki v priporočilu. Uporabniki lahko osvežite videti nov sklop priporočil ali obiščite stran z daljšim seznamom priporočil. Ali mislite, da je to novost bi spremenila svoj odgovor na del a)? Zakaj ali zakaj ne?
    3. Su, Sharma, and Goel (2016) ocenili učinek Kdo slediti storitev in ugotovil, da uporabniki pa po vsej popularnosti spektra koristi od priporočil, najbolj priljubljeni uporabniki profitiral bistveno več od povprečja. Ali ta ugotovitev spremenite odgovor na del B)? Zakaj ali zakaj ne?
  6. [ enostavno ] "Retweets" se pogosto uporablja za merjenje vpliva in širjenja vpliva na Twitterju. Prvotno so imeli uporabniki kopirati in prilepiti tweet jim všeč, označite izvirnega avtorja z njegovo / njeno ročico in ročno vnesite "RT" pred tweet kar pomeni, da je to Retweet. Takrat, leta 2009 Twitter dodali gumb "Retweet". V juniju 2016, Twitter je omogočil uporabnikom, da tweetate svoje tweets (https://twitter.com/twitter/status/742749353689780224). Misliš, da te spremembe bi smela vplivati, kako uporabiti "retweets" v raziskave? Zakaj ali zakaj ne?

  7. [ srednje , Zbiranje podatkov , zahteva kodiranje ] Michel et al. (2011) zgrajena korpusa nastaja iz Googlovega prizadevanjih za digitalizacijo knjig. S prvo različico korpusa, ki je izšla leta 2009 in je vsebovalo več kot 5 milijonov digitaliziranih knjig, avtorji analizirali pogostnost rabe besed, da razišče jezikovnih sprememb in kulturnih trendov. Kmalu Google Books Corpus postal priljubljen vir podatkov za raziskovalce, in 2. različica zbirke podatkov je izšel leta 2012.

    Vendar Pechenick, Danforth, and Dodds (2015) je opozoril, da morajo raziskovalci v celoti označujejo postopek vzorčenja korpusa, preden jo uporabljajo za pripravo splošne sklepe. Glavna težava je, da je korpus knjižnica podobno, ki vsebujejo eno od vsake knjige. Kot rezultat, posameznika, plodovit avtor je lahko opazno vstaviti nove besedne zveze v leksikon Google Books. Poleg tega, znanstvenih besedil predstavljajo bolj vsebinski del korpusa vsej 1900. Poleg tega se s primerjavo dveh različic angleških Fiction podatkovnih nizov na, Pechenick et al. bilo dokazano, da je bila nezadostna filtriranje uporablja pri izdelavi prva različica. Vse podatke, ki so potrebni za dejavnost, je na voljo tukaj: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. V Michel et al., Prvotno papirja (2011) , so uporabili 1. različica angleške nabor podatkov, narisane pogostost uporabe leti "1880", "1912" in "1973", in ugotovil, da "smo pozabijo našo preteklost hitreje z vsakim letom "(sl. 3A, Michel et al.). Posnemati isto parcelo z uporabo 1) 1. različico korpusa, angleški nabor podatkov (isto kot sl. 3A, Michel et al.)
    2. Zdaj ponoviti isto parcelo s 1. različica, angleški fikcija nabora podatkov.
    3. Zdaj ponoviti isto parcelo z 2. različico korpusa, angleški nabor podatkov.
    4. Končno, ponovitev isti parceli z 2. različico, angleščina fikcija nabora podatkov.
    5. Opisati razlike in podobnosti med teh štirih parcel. Ali se strinjate z Michelom et al., Prvotno razlago opaziti trend? (Namig: c) in d), mora biti enak kot sliki 16 v Pechenick et al).
    6. Sedaj, ko ste ponovili to eno ugotovitev z različno Google Books korpusov, izberite drugo jezikovno spremembo ali kulturne pojave, predstavljeno v Michel et al., Prvotno papirja. Ali se strinjate z njihovo razlago v luči omejitev, predstavljenih v Pechenick et al.? Da bo vaše argument močnejši, poskušajo posnemati isti graf z uporabo različic podatkov, navedenih zgoraj.
  8. [ zelo težko , Zbiranje podatkov , zahteva kodiranje , moj najljubši ] Penney (2016) raziskuje, ali je razširjena javnosti o NSA nadzor / PRISM (tj Snowden razodetja), v juniju 2013, povezano z ostrim in nenadnega padca prometa na Wikipedia članke o temah, ki sprožajo pomisleke glede zasebnosti. Če je tako, bi ta sprememba v ravnanju biti v skladu s hlajenjem učinka, ki izhaja iz množični nadzor. Pristop Penney (2016) se včasih imenuje prekinjeno obliko čas serije in je povezana z pristopov v poglavju o približevanje poskuse iz opazovalnih podatkov (oddelek 2.4.3).

    Da bi izbrali temo ključne besede, Penney iz seznama, ki ga ameriškega ministrstva za domovinsko varnost, ki se uporablja za sledenje in spremljanje socialnih medijev. Seznam DHS razvršča določene iskalne izraze v vrsti vprašanj, in sicer "zdravstveni problem", "varnost infrastrukture," in "proti terorizmu." Za študijske skupine, Penney uporabljajo oseminštirideset ključne besede, povezane z "terorizmu" (glej tabelo 8 Dodatek). Nato združijo Wikipedia pogled članek šteje vsak mesec za ustrezne oseminštirideset Wikipedia članke več kot trideset-dvomesečnem obdobju od začetka januarja 2012 do konca avgusta 2014. Da bi okrepili svojo trditev, je ustvaril tudi več primerjavo skupine po sledenje poglede članek o drugih temah.

    Zdaj, boste za ponovitev in razširitev Penney (2016) . Vse surovi podatki, ki jih boste potrebovali za to dejavnost, je na voljo na Wikipediji (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ali ga lahko dobite od R paketa wikipediatrend za (Meissner and Team 2016) . Ko pišete, svoje odzive, upoštevajte, ki je vir podatkov, ki jih uporabljajo. (Opomba: To isto dejavnost se pojavi tudi v poglavju 6)

    1. Preberite Penney (2016) in ponovitev sliko 2, ki prikazuje pogled na strani za "terorizem" -povezana strani pred in po Snowden razodetje. Interpretirati ugotovitve.
    2. Dalje, ponovitev slika 4A, ki primerja študijsko skupino ( "terorizem" -povezana članki) s primerjalni skupini s pomočjo ključnih besed, razvrščena v "DHS Sosednje agencije" s seznama DHS (glej dodatek tabelo 10). Interpretirati ugotovitve.
    3. V delu b), ki jih primerjali študijsko skupino na eni primerjalni skupini. Penney tudi v primerjavi z drugima dvema primerjalnih skupinah: "Varnost infrastrukture" -povezana izdelkov (priloga tabela 11) in priljubljenih strani Wikipedije (priloga tabela 12). Prišli do alternativnega primerjalni skupini, in preverite, ali je ugotovitve iz dela b) občutljiv na vaši izbiri primerjalni skupini. Ki izbira primerjalni skupini najbolj smiselno? Zakaj?
    4. Avtor navaja, da so bile besede, ki se nanašajo na "terorizmu" uporablja za izbiro članke iz Wikipedie, ker je ameriška vlada navedena terorizem kot ključno utemeljitev svojih spletnih praks nadzora. Kot kontrola teh 48 "terorizem" -povezana ključne besede, Penney (2016) je izvedla tudi raziskavo o MTurk sprašuje anketirance, da ocenite vsako od ključnih besed v smislu vlade Trouble, občutljive zasebne in izogibanje (Dodatek tabeli 7 in 8). Posnemati raziskavo o MTurk in primerjati rezultate.
    5. Na podlagi rezultatov dela D) in branju članka, ali se strinjate z izbiro avtorja tematskih ključnih besed v študijski skupini? Zakaj ali zakaj ne? Če ne, kaj bi namesto tega predlagali?
  9. [ enostavno ] Efrati (2016) poročila, ki temeljijo na zaupne informacije, ki so "skupna delitev" na Facebooku zmanjšala za približno 5,5% leta več kot leto "original delitev oddaja", medtem ko se je zmanjšalo za 21% letno več kot leto. Ta upad je bil še posebej akutna z uporabniki Facebook pod 30 let starosti. Poročilo pripisujejo upad dvema dejavnikoma. Ena je bila rast števila "prijateljev" ljudje imajo na Facebooku. Druga je, da je nekaj delitev dejavnost preusmerila na sporočila in konkurentom, kot Snapchat. Poročilo je razkrila tudi nekaj taktike Facebook so poskušali povečati izmenjavo, vključno News Feed algoritem poteg, ki omogočajo originalne objave bolj izrazit, kot tudi občasnih opomniki prvotnih uporabnikov objave "na ta dan" pred nekaj leti. Kakšne posledice, če sploh, se te ugotovitve raziskovalcev, ki želijo uporabljati Facebook kot vir podatkov?

  10. [ srednje ] Tumasjan et al. (2010) poročajo, da je delež tweets omenjajo politično stranko ujema delež glasov, ki jih stranka prejela v nemškem parlamentarnih volitvah leta 2009 (slika 2.9). Z drugimi besedami, se je izkazalo, da lahko uporabite Twitter napovedati volitve. V času študija je bila objavljena je zdelo zelo zanimivo, saj se je zdelo, da kažejo dragoceno uporabo za skupnega vira velikih podatkov.

    Glede na slabe lastnosti velikih podatkov, vendar pa morate takoj biti skeptična do tega rezultata. Nemci so na Twitterju v letu 2009 je bilo kar ni reprezentativna skupina, in zagovorniki ene stranke lahko tweet o politiki bolj pogosto. Tako se zdi presenetljivo, da bi vse možne pristranskosti je, da si lahko predstavljate nekako izničijo. Dejansko se rezultati v Tumasjan et al. (2010) izkazalo, da je prelepo, da bi bilo res. V njihovem prispevku Tumasjan et al. (2010) šteje šest političnih strank: krščanski demokrati (CDU), krščanski Socialne demokrate (CSU), SPD, liberalci (FDP), levo (Die Linke), in stranko Zelenih (Grüne). Vendar pa je bil najbolj zgoraj navedeni nemška politična stranka na Twitterju takrat Pirate Party (Piraten), stranka, ki se bori ureditev vladne interneta. Ko je bila piratska stranka, vključenih v analizo, Twitter omenja postane strašno napovednik volilnih rezultatov (slika 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Slika 2.9: Twitter omenja zdi, da napovedati rezultate nemške volitve 2009 (Tumasjan et al 2010.), Vendar je ta rezultat se izkaže, da so odvisni od nekaterih poljubnih in neupravičenih izbire (Jungherr, Jürgens, in Schoen 2012).

    Slika 2.9: Twitter omenja zdi, da napovedati rezultate nemške volitve 2009 (Tumasjan et al. 2010) , Vendar je ta rezultat se izkaže, da so odvisni od nekaterih poljubnih in neupravičenih izbire (Jungherr, Jürgens, and Schoen 2012) .

    Kasneje so drugi raziskovalci po vsem svetu uporabljajo luksuznih metod, kot je uporaba analize klime razlikovati med pozitivnimi in negativnimi omenja strank-, da se izboljša sposobnost podatkov Twitter bi lahko napovedali vrsto različnih vrst volitev (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Takole Huberty (2015) povzel rezultate teh poskusov napovedujejo volitev:

    "Vse znane napovedi metode, ki temeljijo na družbenih medijih ni uspelo, ko podvrženi zahtevam pravega volilnega napovedovanje prihodnost naprej. Zdi se, da zaradi osnovnih značilnosti socialnih medijev, namesto da metodoloških ali algoritmični težav Te napake. Skratka, socialni mediji ne, in verjetno nikoli ne bo, zagotavljajo stabilno, nepristranski, reprezentativno sliko volivcev; in udobje vzorci družbenih medijev nimajo dovolj podatkov, da se določi te težave naknadnega. "

    Preberite nekaj raziskav, ki vodijo Huberty (2015) do tega zaključka, in napisati eno stran beležko političnega kandidata, ki opisuje, če in kako je treba Twitter uporabiti za napoved volitev.

  11. [ srednje ] Kakšna je razlika med sociolog in zgodovinar? Po Goldthorpe (1991) , je glavna razlika med sociolog in zgodovinar, je nadzor nad zbiranjem podatkov. Zgodovinarji so prisiljeni uporabljati relikvije ker lahko sociologi prilagoditi svoje zbiranje podatkov za posebne namene. Preberite Goldthorpe (1991) . Kako se razlika med sociologije in zgodovine, povezane z idejo Custommades in readymade?

  12. [ težko ] Gradimo na prejšnje vprašanje, Goldthorpe (1991) narisal številne kritične odzive, vključno z enim od Nicky Hart (1994) , ki izpodbija Goldthorpe je predanost meri narejene podatkov. Da bi razjasnili morebitne omejitve prilagojenih podatkov, Hart opisal bogatejših Delavec projekt, veliko raziskavo za merjenje razmerja med družbenim razredom in glasovanju, ki je bila izvedena s Goldthorpe in sodelavci v sredini 1960. Kot bi lahko pričakovali od učenjaka, ki z omejenimi možnostmi zasnovan podatkov preko ugotovljenih podatkov, bogatejših Worker projekta zbrali podatke, ki so prilagojene za obravnavo pred kratkim predlagal teorijo o prihodnosti socialnega razreda v času povečanja življenjskega standarda. Ampak, Goldthorpe in kolegi nekako "pozabil", da zbira informacije o glasovalnem obnašanju žensk. Takole Nicky Hart (1994) povzetki celo epizodo:

    ". . . da [je] težko izogniti sklepu, da so ženske izpustimo, ker je to "po meri" nabor podatkov je omejena z paradigmatski logiko, ki je izključena žensko izkušnjo. Poganja ga teoretično vizijo razredne zavesti in delovanja kot moških preokupacij. . . , Goldthorpe in njegovi kolegi zgradili niz empiričnih dokazov, ki jih hranili in namesto negovanih svoje teoretične predpostavke, da jih izpostavi veljavno preizkus ustreznosti. "

    Hart nadaljeval:

    "Empirične ugotovitve bogatejših delavcev projekta nam poveste več o masculinist vrednosti sociologije sredine stoletja, kot so obveščanje procese stratifikacije, politike in materialnega življenja."

    Lahko si misliš o drugih primerov, ko ima zbirka prilagojene podatke o pristranskosti zbiralca podatkov, vgrajeno v njej? Kako to primerjati z algoritmično zavajajočih? Kakšne posledice bi to imelo za takrat, ko naj bi raziskovalci uporabljajo readymade in ko bi morali uporabiti Custommades?

  13. [ srednje ] V tem poglavju sem nasprotju podatke, ki jih raziskovalci za raziskovalce s administrativnih evidenc, ki jih podjetja in vlade ustvarili zbrane. Nekateri ljudje imenujejo te administrativne evidence "našel podatke," ki jih nasprotju s "oblikovanih podatkov." Res je, da so administrativne evidence najdejo raziskovalci, so pa tudi zelo oblikovana. Na primer, sodobna tehnološka podjetja porabijo ogromno časa in sredstev za zbiranje in kurat svoje podatke. Tako so te administrativne evidence tako našel in zasnovana, je samo odvisno od vaše perspektive (Slika 2.10).

    Slika 2.10: Slika je tako raca in zajec; kar vidite je odvisno od vaše perspektive. Vladne in poslovne administrativne evidence sta našla in oblikovana; kar vidite je odvisno od vaše perspektive. Na primer, zapisi podatkovnih klicev, ki jih mobilni telefon družba zbrana našel podatke z vidika raziskovalca. Vendar pa so te točne iste evidence zasnovan podatkov perspektive nekoga, ki dela na oddelku za izstavitev računa za telefon družbe. Vir: Wikimedia Commons

    Slika 2.10: Slika je tako raca in zajec; kar vidite je odvisno od vaše perspektive. Vladne in poslovne administrativne evidence sta našla in oblikovana; kar vidite je odvisno od vaše perspektive. Na primer, zapisi podatkovnih klicev, ki jih mobilni telefon družba zbrana našel podatke z vidika raziskovalca. Vendar pa so te točne iste evidence zasnovan podatkov perspektive nekoga, ki dela na oddelku za izstavitev računa za telefon družbe. Vir: Wikimedia Commons

    So primer podatkovnega vira, kjer jo vidijo tako, kot je ugotovljeno in oblikovan v pomoč pri uporabi, da je vir podatkov za raziskave.

  14. [ enostavno ] V premišljen eseju, Christian Sandvig in Eszter Hargittai (2015) opisuje dve vrsti digitalnih raziskav, kjer je digitalni sistem "instrument" ali "predmet študija." Primer prve vrste študija je, če Bengtsson in sodelavci (2011) uporabila podatke mobilni telefon, da bi spremljali migracije po potresu na Haitiju leta 2010. primer druge vrste je, če Jensen (2007) študije, kako uvedba mobilnih telefonov po vsem Kerala, Indija vplivali na delovanje trga za ribe. To se mi zdi koristno, saj pojasnjuje, da ima lahko študije, ki uporabljajo digitalne podatkovne vire povsem različne cilje, čeprav so z isto vrsto vira podatkov. Da bi še bolj razjasnili to razliko, opisujejo štiri študije, ki ste jih videli: dva, ki uporabljajo digitalni sistem kot instrument, in dva, ki uporabljajo digitalni sistem, kot predmet študija. Lahko uporabite primere iz tega poglavja, če želite.