djelatnost

  • stupanj težine: jednostavno lako , srednji srednji , teško teško , vrlo teško vrlo teško
  • zahtijeva matematiku ( zahtijeva matematiku )
  • zahtijeva kodiranje ( zahtijeva kodiranje )
  • prikupljanje podataka ( prikupljanje podataka )
  • moji omiljeni ( moj favorit )
  1. [ srednji , moj favorit ] Algoritamsko zbunjivanje bilo je problem s Google Raširenjem gripe. Pročitajte članak: Lazer et al. (2014) i napišite kratku, jasnu poruku e-pošte inženjeru Googlea koji objašnjava problem i nudi ideju o tome kako to popraviti.

  2. [ srednji ] Bollen, Mao, and Zeng (2011) tvrde da se podaci s Twittera mogu koristiti za predviđanje tržišta dionica. Ovaj nalaz je doveo do stvaranja hedge fonda - Derwent Capital Markets - ulagati u burzu na temelju podataka prikupljenih od Twittera (Jordan 2010) . Koji dokaz želite vidjeti prije stavljanja novca u taj fond?

  3. [ lako Dok neki zagovornici javnog zdravstva smatraju e-cigarete učinkovitu pomoć za prestanak pušenja, drugi upozoravaju na moguće rizike, kao što su visoke razine nikotina. Zamislite da istraživač odlučuje proučavati javno mnijenje prema e-cigaretama prikupljanjem Twitter postova vezanih uz e-cigarete i provođenjem analize sentimenta.

    1. Koje su tri moguće predrasude za koje ste najviše zabrinuti u ovoj studiji?
    2. Clark et al. (2016) vodio je takvu studiju. Prvo, prikupili su 850 tisuća tweetova koji su upotrebljavali ključne riječi povezane s e-cigaretom od siječnja 2012. do prosinca 2014. Nakon što su se bliže pregledali, shvatili su da su mnogi od ovih tweetova automatizirani (tj. Nisu proizvedeni od strane ljudi), a mnogi od tih automatiziranih tweeta bili su u suštini reklama. Razvili su algoritam za prepoznavanje ljudskog bića za odvajanje automatiziranih tweeta od organskih tweetova. Koristeći ovaj algoritam ljudskog otkrivanja, otkrili su da je 80% tweeta automatizirano. Da li ovaj nalaz mijenja vaš odgovor na dio (a)?
    3. Kada su uspoređivali osjećaj u organskim i automatskim tweetovima, otkrili su da su automatizirani tweetovi pozitivniji od organskih tweetova (6,17 prema 5,84). Da li ovaj nalaz mijenja vaš odgovor na (b)?
  4. [ lako ] U studenom 2009. Twitter je promijenio pitanje u crtici iz "Što radite?" Na "Što se događa?" (Https://blog.twitter.com/2009/whats-happening).

    1. Što mislite, promjena upita utjecat će na tweete i / ili ono što oni cvrkutaju?
    2. Nazovite jedan istraživački projekt za koji biste radije odlučili "Što radite?" Objasnite zašto.
    3. Nazovite jedan istraživački projekt za koji biste radije odlučili "Što se događa?" Objasnite zašto.
  5. [ lako ] "Retweet" često se koriste za mjerenje utjecaja i širenja utjecaja na Twitter. U početku, korisnici su morali kopirati i zalijepiti tweet koji su voljeli, označiti originalni autor s njegovom / njezinom ručkom i ručno upisati "RT" prije crtica da bi ukazivao na to da je to retweet. Zatim, u 2009, Twitter dodao gumb "retweet". U lipnju 2016. Twitter je omogućio korisnicima da rastavljaju svoje tweete (https://twitter.com/twitter/status/742749353689780224). Mislite li da bi te promjene trebale utjecati na način na koji koristite "retweets" u vašem istraživanju? Zašto ili zašto ne?

  6. [ vrlo teško , prikupljanje podataka , zahtijeva kodiranje , moj favorit ] U široko razmatranom radu, Michel i suradnici (2011) analizirali su sadržaj više od pet milijuna digitaliziranih knjiga u pokušaju da se identificiraju dugoročni kulturni trendovi. Podaci koji su upotrebljavali sada su objavljeni kao skup podataka Google NGrams i tako možemo upotrijebiti podatke za repliciranje i proširivanje dijela njihovog rada.

    U jednom od mnogobrojnih rezultata u radu, Michel i njegovi kolege tvrde da zaboravljamo brže i brže. Za određenu godinu, kažu "1883", izračunali su udio od 1 grama objavljenih svake godine između 1875. i 1975. godine koji su bili "1883". Oni su zaključili da je taj udio mjera interesa za događaje koji su se dogodili u toj godini. U njihovoj slici 3a, oni su nacrtali trajektorije korištenja tri godine: 1883., 1910. i 1950. Te tri godine dijele zajednički uzorak: malu uporabu prije te godine, zatim šiljak, a zatim propadanje. Zatim, za kvantificiranje stope propadanja svake godine, Michel i kolege izračunali su "poluvrijeme života" svake godine za sve godine između 1875. i 1975. godine. Na slici 3a (umetnuta) pokazali su da je poluživot svake godina se smanjuje, a oni su tvrdili da to znači da zaboravljamo prošlost brže i brže. Koristili su verziju 1 korpusa engleskog jezika, ali je Google kasnije objavio drugu verziju korpusa. Pročitajte sve dijelove pitanja prije nego počnete s kodiranjem.

    Ova će vam djelatnost omogućiti praćenje pisanja re-upotrebljivog koda, tumačenja rezultata i odbijanja podataka (kao što je rad s neugodnim datotekama i upravljanje nedostajućim podacima). Ova će vam aktivnost također pomoći da se pokrenete i pokrenete s bogatim i zanimljivim skupom podataka.

    1. Preuzmite neobrađene podatke s web stranice Google knjiga NGram Viewer. Konkretno, trebali biste upotrijebiti verziju 2 korpusa engleskog jezika koji je objavljen 1. srpnja 2012. godine. Ne komprimiran, ova datoteka je 1.4 GB.

    2. Ponovno obnovite glavni dio slike 3a Michel et al. (2011) . Da biste ponovno stvorili ovu sliku, trebat će vam dvije datoteke: ona koju ste preuzeli dijelom (a) i datoteku "ukupni broj", koje možete upotrijebiti za pretvaranje sirovina u proporcije. Imajte na umu da ukupna datoteka brojeva ima strukturu koja bi mogla otežati čitanje. Da li verzija 2 podataka NGram-a daje slične rezultate onima prikazanim u Michel et al. (2011) , koji se temelje na verzijama verzije 1?

    3. Sada provjerite svoj graf prema grafikonu koji je stvorio NGram Viewer.

    4. Ponovno popunite sliku 3a (glavna figura), ali promijenite \(y\) -aksis da bude grubi broj spomenutih (a ne stopa spomena).

    5. Da li vam razlika između (b) i (d) dovodi do ponovnog procjenjivanja bilo kojeg rezultata Michel i sur. (2011). Zašto ili zašto ne?

    6. Sada, koristeći se omjerom spomena, replicirajte uložak na slici 3a. To znači da za svaku godinu između 1875. i 1975. godine izračunava poluvrijeme te godine. Poluvrijeme se definira kao broj godina koji prolaze prije nego što udio spomena dostigne polovicu njegove vršne vrijednosti. Imajte na umu da Michel et al. (2011) čine nešto složenije za procjenu poluživota - vidi odjeljak III.6 Potpornih online informacija - ali tvrde da oba pristupa daju slične rezultate. Da li verzija 2 podataka iz NGram-a daje slične rezultate onima prikazanim u Michel et al. (2011) , koji se temelje na verzijama verzije 1? (Savjet: Nemojte se iznenaditi ako to ne učinite.)

    7. Je li bilo godina koje su bile izuzetne, kao što su godine koje su zaboravile osobito brzo ili osobito polako? Ukratko nagađajte o mogućim razlozima tog obrasca i objasnite kako ste identificirali outlier.

    8. Sada ponovite ovaj rezultat za verziju 2 podataka NGramsa na kineski, francuski, njemački, hebrejski, talijanski, ruski i španjolski.

    9. Uspoređujući ih na svim jezicima, bilo je bilo godina koje su bile izuzetne, poput godina koje su zaboravljene osobito brzo ili osobito polako? Kratko nagađati o mogućim razlozima tog uzorka.

  7. [ vrlo teško , prikupljanje podataka , zahtijeva kodiranje , moj favorit Penney (2016) istražuje je li široko rasprostranjena javnost o NSA / PRISM nadzoru (tj. Otkrivenja Snowdena) u lipnju 2013. bila povezana s oštrom i naglom padom prometa na članke iz Wikipedije o temama koje podižu zabrinutost zbog privatnosti. Ako je tako, ova promjena u ponašanju bila bi u skladu s djelovanjem smrzavanja koja je rezultat masovnog nadzora. Pristup Penney (2016) ponekad se naziva prekinuta serija vremenskih nizova , a odnosi se na pristupe opisane u odjeljku 2.4.3.

    Da biste odabrali ključne riječi o temama, Penney se pozvao na popis koji koristi Ministarstvo unutarnjih poslova SAD-a za praćenje i praćenje društvenih medija. DHS popis kategorizira određene pojmove za pretraživanje u niz problema, tj. "Zdravstvena briga", "Sigurnost infrastrukture" i "Terorizam". Za studiju, Penney je koristila 48 ključnih riječi povezanih s "terorizmom" (vidi tablicu dodataka 8 ). Zatim je prikupio broj pregleda članaka o Wikipediji mjesečno za odgovarajuće 48 članaka s Wikipedije tijekom razdoblja od 32 mjeseca, od početka siječnja 2012. do kraja kolovoza 2014. Da bi ojačao svoj argument, stvorio je i nekoliko usporednih grupa praćenjem članke o drugim temama.

    Sada ćete replikirati i produžiti Penney (2016) . Svi sirovi podaci potrebni za ovu aktivnost dostupni su na Wikipediji. Ili ga možete dobiti iz R-paketa wikipediatrend (Meissner and R Core Team 2016) . Kada napišete svoje odgovore, zabilježite koji je izvor podataka koji ste koristili. (Imajte na umu da se ova ista aktivnost pojavljuje i u 6. poglavlju.) Ova će vam djelatnost pružiti praksu u raspravama o podacima i razmišljanju o prirodnim eksperimentima u velikim izvorima podataka. Također će vas pokrenuti i pokrenuti s potencijalno zanimljiv izvor podataka za buduće projekte.

    1. Pročitajte Penney (2016) i replicirajte njegovu slici 2 koja prikazuje stranice pogleda stranica "Terorizam" prije i poslije Snowdenovih otkrića. Tumačite nalaze.
    2. Zatim slijedi reprodukcija slike 4A, koja uspoređuje studijsku grupu (članci povezani s terorizmom) s komparatornom skupinom pomoću ključnih riječi kategoriziranih pod "DHS i druge agencije" s DHS popisa (vidi dodatak tablici 10 i fusnota 139). Tumačite nalaze.
    3. U dijelu (b) uspoređivali ste studijsku grupu s jednom komparativnom skupinom. Penney je također uspoređen s dvije druge usporedne skupine: "Infrastrukturna sigurnost" srodni članci (dodatak tablici 11) i popularne stranice Wikipedije (dodatak tablici 12). Donesite se s alternativnom skupinom usporednih skupina i provjerite jesu li rezultati iz dijela (b) osjetljivi na odabir grupe usporednika. Koji izbor ima najviše smisla? Zašto?
    4. Penney je izjavio da su ključne riječi vezane uz "terorizam" korištene za odabir članaka iz Wikipedije, jer je američka vlada navela terorizam kao ključno opravdanje za svoje praksu online nadzora. Kao časopis ovih 48 ključnih riječi povezanih s "terorizmom", Penney (2016) također je provela anketu o MTurku, tražeći od ispitanika da procjenjuju svaku od HTML ključnih riječi u smislu vladinih problema, privatnosti i izbjegavanja (dodatak tablici 7 i 8 ). Ponovite anketu na MTurku i usporedite svoje rezultate.
    5. Na temelju rezultata iz dijela (d) i vašeg čitanja članka, slažete li se s Penneyovim izborom ključnih riječi u istraživačkoj grupi? Zašto ili zašto ne? Ako ne, što biste umjesto toga predložili?
  8. [ lako ] Efrati (2016) izvijestio je, temeljem povjerljivih informacija, da je "ukupna podjela" na Facebooku pala za oko 5,5% u odnosu na prošlu godinu, dok je "originalno dijeljenje emitiranja" pala za 21% u odnosu na prošlu godinu. Taj pad bio je osobito akutan s Facebook korisnicima mlađim od 30 godina. Izvješće je pripisivalo pad na dva faktora. Jedan od njih je rast broja ljudi koji su "prijatelji" na Facebooku. Drugi je da se neka aktivnost dijeljenja pomakla na poruke i na konkurente kao što je Snapchat. Izvješće je također otkrilo nekoliko taktika koje je Facebook pokušao poboljšati dijeljenje, uključujući izmjene vijesti algoritama vijesti koji čine izvorne postove istaknutijim, kao i povremene podsjetnike na izvorne postove sa značajkom "Na današnji dan". Kakve implikacije, ako ih ima, imaju li ta otkrića za istraživače koji žele koristiti Facebook kao izvor podataka?

  9. [ srednji ] Koja je razlika između sociologa i povjesničara? Prema Goldthorpe (1991) , glavna razlika je kontrola nad prikupljanjem podataka. Povjesničari su prisiljeni koristiti relikvije, dok sociolozi mogu prilagoditi prikupljanje podataka u određene svrhe. Pročitajte Goldthorpe (1991) . Kako je razlika između sociologije i povijesti povezana s idejom custommades i readymades?

  10. [ teško ] Ovo se temelji na prethodnom upitniku. Goldthorpe (1991) privukao je niz kritičkih odgovora, uključujući i Nicky Hart (1994) koji je izazvao Goldthorpeovu predanost prilagodbi podataka. Da bi se razjasnila moguća ograničenja prilagođenih podataka, Hart je opisao Proveren radni projekt, veliku anketu koja mjeri odnos društvene klase i glasa koji su Goldthorpe i njegovi kolege proveli sredinom 1960-ih. Kao što se moglo očekivati ​​od učenjaka koji je preferirao dizajnirane podatke o pronađenim podacima, projekt bogatih radnika prikupljao je podatke koji su prilagođeni rješavanju nedavno predložene teorije o budućnosti društvene klase u razdoblju povećanja životnog standarda. Ali, Goldthorpe i njegovi kolege nekako su "zaboravili" prikupljati informacije o ponašanju žena u glasu. Evo kako Nicky Hart (1994) sažeti cijelu epizodu:

    "... teško je izbjeći zaključak da su žene izostavljene jer je taj" skrojeni "skup bio ograničen paradigmatskom logikom koja je isključivala iskustvo žena. Potaknuti teoretskom vizijom klasne svijesti i djelovanja kao muške preokupacije ..., Goldthorpe i njegovi kolege konstruirali su niz empirijskih dokaza koji su hranili i njeguju svoje teorijske pretpostavke umjesto da ih izlažu valjanom testu adekvatnosti ".

    Hart je nastavio:

    "Empirijska otkrića Prolaznog radničkog projekta govore nam više o maskulinističkim vrijednostima sociologije sredinom stoljeća nego informiraju procese stratifikacije, politike i materijalnog života".

    Možete li zamisliti i druge primjere u kojima prilagođena prikupljanje podataka ima pristranost prikupljača podataka u njega? Kako ovo uspoređuje s algoritamskim zbunjenjem? Kakve implikacije to može imati kada bi istraživači trebali koristiti readmade i kada bi trebali koristiti custommade?

  11. [ srednji ] U ovom poglavlju uspoređivala sam podatke koje su prikupili istraživači za istraživače s administrativnim zapisima koje su stvorile tvrtke i vlade. Neki ljudi to nazivaju administrativnim zapisima "pronađenih podataka", koji su u suprotnosti s "projektiranim podacima". Istina je da administrativni zapisi pronađu istraživači, ali su također vrlo dizajnirani. Na primjer, suvremena tehnološka poduzeća rade vrlo teško prikupljati i obrađivati ​​svoje podatke. Dakle, te administrativne evidencije su pronađene i dizajnirane, to samo ovisi o vašoj perspektivi (slika 2.12).

    Slika 2.12: Slika je i patka i kunić; ono što vidite ovisi o vašoj perspektivi. Pronađeni su i dizajnirani veliki izvori podataka; opet, ono što vidite ovisi o vašoj perspektivi. Na primjer, zapisi o podacima o pozivima koje je prikupila tvrtka mobilnog telefona nalaze se iz perspektive istraživača. No, ti isti zapisi su dizajnirani podaci iz perspektive nekoga tko radi u odjelu za naplatu telefonske tvrtke. Izvor: Popularna znanost mjesečno (1899) / Wikimedija.

    Slika 2.12: Slika je i patka i kunić; ono što vidite ovisi o vašoj perspektivi. Pronađeni su i dizajnirani veliki izvori podataka; opet, ono što vidite ovisi o vašoj perspektivi. Na primjer, zapisi o podacima o pozivima koje je prikupila tvrtka mobilnog telefona nalaze se iz perspektive istraživača. No, ti isti zapisi su dizajnirani podaci iz perspektive nekoga tko radi u odjelu za naplatu telefonske tvrtke. Izvor: Popularna znanost mjesečno (1899) / Wikimedija .

    Navedite primjer izvora podataka kada ga vidite kako je pronađeno i dizajnirano korisno kada se taj izvor podataka koristi za istraživanje.

  12. [ lako U promišljenom eseju, Christian Sandvig i Eszter Hargittai (2015) dijele digitalna istraživanja u dvije široke kategorije ovisno o tome je li digitalni sustav "instrument" ili "objekt studija". Primjer prve vrste - gdje je sustav instrument je istraživanje Bengtssona i kolega (2011) o korištenju mobilnih telefonskih podataka za praćenje migracije nakon potresa na Haitiju 2010. godine. Primjer druge vrste - gdje je sustav predmet studija - jest istraživanje Jensena (2007) o tome kako uvođenje mobilnih telefona u Kerala, Indija, utjecalo na funkcioniranje tržišta ribe. Smatram da je ta razlika korisna zato što pojašnjava da studije koje koriste digitalne izvore podataka mogu imati sasvim različite ciljeve čak i ako koriste istu vrstu izvora podataka. Da biste dodatno razjasnili ovu razliku, opišite četiri studije koje ste vidjeli: dva koji koriste digitalni sustav kao instrument i dva koji koriste digitalni sustav kao objekt studija. Ako želite, možete koristiti primjere iz ovog poglavlja.