djelatnost

Key:

  • stupanj težine: lako lako , srednji srednji , teško tvrd , vrlo teško vrlo teško
  • zahtijeva matematike ( zahtijeva matematike )
  • zahtijeva kodiranje ( zahtijeva kodiranje )
  • prikupljanje podataka ( prikupljanje podataka )
  • moji omiljeni ( moj najdraži )
  1. [ srednji , moj najdraži ] Algoritamske zbunjujući bio problem s Google Flu Trends. Pročitati novine od Lazer et al. (2014) , i napiše kratak, jasan email inženjer na Google objašnjava problem i nudi ideju o tome kako popraviti problem.

  2. [ srednji ] Bollen, Mao, and Zeng (2011) tvrdi da se podaci iz Twitter se može koristiti za predviđanje berzi. Ovaj nalaz je dovelo do stvaranja hedge fond-Derwent Capital Markets-da investiraju na berzi na osnovu podataka prikupljenih od Twitteru (Jordan 2010) . Kakav dokaz bi želite da vidite prije stavljanja svoj novac u taj fond?

  3. [ lako ] Dok su neki javno zdravlje zastupnici pozdravljaju e-cigarete kao efikasan pomoć za odvikavanje od pušenja, drugi upozoravaju na potencijalne rizike, kao što su visoke razine nikotina. Zamislite da istraživač odluči da studira javnog mnijenja prema e-cigarete prikupljanjem e-cigarete u vezi sa Twitter poruke i obavljanje analize sentiment.

    1. Koje su tri moguće predrasude koje ste najviše zabrinut u ovoj studiji?
    2. Clark et al. (2016) ran samo takve studije. Prvo, oni prikupili 850.000 tweetova koji koristi ključne riječi e-cigarete u vezi od januara 2012. do decembra 2014. godine Nakon bliže inspekcije, shvatili su da su mnogi od tih tweetova su automatizirani (tj, ne proizvode od strane ljudi) i mnogi od tih automatizirani tvitova bili u suštini reklama. Oni su razvili Detection Algoritam ljudska razdvojiti automatizovano tweetove iz organskog tweetova. Koristeći ovu ljudska Detect Algoritam otkrili su da je 80% od tweetova su automatizirani. Da li ovaj nalaz promijeniti vaš odgovor na dio (a)?
    3. Kada su u odnosu na raspoloženje u organskoj i Automated tweetove otkrili su da su Automated tweetove su više pozitivnih nego organski tweetova (6,17 u odnosu na 5,84). Da li ovaj nalaz promijeniti vaš odgovor na (b)?
  4. [ lako ] U novembru 2009. godine, Twitter promijenio pitanje u tweet kutiju iz "Šta to radiš?" Do "Što se događa?" (Https://blog.twitter.com/2009/whats-happening).

    1. Kako mislite da je promjena upite će uticati na koji tweet i / ili ono što tweet?
    2. Ime jednog istraživačkog projekta za koji bi radije na liniji "Šta to radiš?" Objasnite zašto.
    3. Ime jednog istraživačkog projekta za koji bi radije na liniji "Što se događa?" Objasnite zašto.
  5. [ srednji ] Kwak et al. (2010) analizirao 41,7 miliona korisničkih profila, 1,47 milijardi društvenih odnosa, 4262 Trending teme, i 106 miliona tweetova između 6. juni i 31. juna 2009. godine na ovoj analizi su zaključili da je Twitter služi više kao novi medij za razmjenu informacija od osnovu socijalna mreža.

    1. S obzirom Kwak i drugi je nalaz, koju vrstu istraživanja bi ti sa Twitter podataka? Koji tip istraživanja bi ne sa Twitter podataka? Zašto?
    2. U 2010. godini, dodao je Twitter na koga da Pratite uslugu izrade po meri prijedlog korisnicima. Tri preporuke su prikazani u jednom trenutku na glavnoj stranici. Preporuke su često izvući iz nečijeg "prijatelji-od-prijatelja" i međusobnih kontakata su također prikazane u preporuci. Korisnici mogu osvježiti da vidimo novi set preporuka ili posjetite stranicu s više lista preporuka. Mislite li da ova nova funkcija bi promijeniti vaš odgovor na dijelu a)? Zašto ili zašto ne?
    3. Su, Sharma, and Goel (2016) ocijenjen učinak koga da Pratite uslugu i otkrili da dok korisnici širom popularnost spektra koristi od preporuka, najpopularniji korisnici profitirali znatno više od prosjeka. Da li ovaj nalaz promijeniti vaš odgovor na dio B)? Zašto ili zašto ne?
  6. [ lako ] "Retweets" se često koristi za mjerenje utjecaja i širenje utjecaja na Twitteru. U početku, korisnici morali kopirati i zalijepiti tweet im se sviđa, označiti izvornog autora sa njegovim / njenim ručka, i ručno upišite "RT" pred tweet da ukazuju na to da je to retweet. Zatim, u 2009. godini Twitter dodao gumb "retweet". U junu 2016. godine, Twitter je omogućio korisnicima da retweet svoje tweetove (https://twitter.com/twitter/status/742749353689780224). Mislite li da te promjene treba utjecati kako koristite "retweet" u svojim istraživanjima? Zašto ili zašto ne?

  7. [ srednji , prikupljanje podataka , zahtijeva kodiranje ] Michel et al. (2011) izgrađena je korpus u nastajanju iz Google napor da digitalizacije knjiga. Koristeći prvu verziju korpusa, koja je objavljena 2009. godine i sadrži preko 5 miliona digitalizirana knjiga, autori analiziraju riječ učestalost upotrebe da istraži lingvističke promjene i kulturne tokove. Uskoro Google Knjige Corpus je postao popularan izvor podataka za istraživače, i 2. verzija baze podataka je pušten 2012. godine.

    Međutim, Pechenick, Danforth, and Dodds (2015) upozorio je da su istraživači treba da u potpunosti opisali proces uzorkovanja korpusa prije nego ga koristi za izradu široke zaključke. Glavni problem je u tome što korpus je biblioteka-poput, sadrži jednu od svake knjige. Kao rezultat toga, pojedinac, plodan autor je u stanju da značajno ubacite nove fraze u leksikon Google Books. Osim toga, naučni tekstovi predstavljaju sve materijalni dio korpusa tokom 1900-tih. Pored toga, u odnosu dvije verzije Fiction skupova podataka na engleskom, Pechenick et al. pronašli dokaze da je nedovoljno filtriranje je korišten u proizvodnji prvoj verziji. Svi podaci potrebni za aktivnost je dostupan ovdje: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. U Michel et al. Originalni papir (2011) , koristili su 1. verzija seta podataka na engleskom, planirali učestalost korištenja godina "1880", "1912" i "1973", i zaključio da "smo zaboravljajući naše prošlosti brže sa svakim godine "(Sl. 3A, Michel i dr.). Replicirati istoj parceli koristeći 1) 1. verzija korpusa, Engleski skup (isto kao i sl. 3A, Michel et al.)
    2. Sada ponovi isto zemljište s 1. verziji, na engleskom fikcija skup.
    3. Sada ponovi isto zemljište sa 2. verzija korpusa, engleski skup.
    4. Konačno, ponovi isto zemljište sa 2. verzija, engleski fikcija skup.
    5. Opišite razlike i sličnosti između ovih četiri parcele. Slažete li se s Michel et al. Originalna interpretacija uočeni trend? (Hint: c) i d) bi trebao biti isti kao i Slika 16 u Pechenick i dr).
    6. Sada kada ste replicirati ovaj nalaz koristeći različite Google Knjige korpusa, odaberite drugi lingvističke promjene ili kulturnih fenomena predstavljen u Michel et al. Originalni papir. Slažete li se s njihovim tumačenjem u svjetlu ograničenja predstavljena u Pechenick i dr.? Da bi vaš argument jači, pokušati ponoviti isti graf koristeći različite verzije podataka postaviti kao gore.
  8. [ vrlo teško , prikupljanje podataka , zahtijeva kodiranje , moj najdraži ] Penney (2016) istražuje da li je rasprostranjen publicitet oko NSA / PRISM nadzor (tj Snowden otkrića) u junu 2013. godine je povezan sa oštrim i nagli pad prometa na Wikipediji članke o temama koje izazivaju zabrinutost privatnost. Ako je tako, ova promjena u ponašanju će biti u skladu sa jezivim posledicu od masovnog nadzora. Pristup Penney (2016) se ponekad naziva prekinuta vremenske serije dizajna i odnosi se na pristupe u poglavlju o približavanju eksperimente iz opservacijskih podataka (Odjeljak 2.4.3).

    Da biste odabrali temu ključne riječi, Penney iz liste od strane američkog Ministarstva domovinske sigurnosti koji se koriste za praćenje i praćenje društvenih medija. DHS lista kategorizira određeni pojam u nizu pitanja, odnosno "zdravstveni problem", "Infrastruktura sigurnosti" i "terorizma". Za studijske grupe, Penney koristi četrdeset osam ključnih riječi koje se odnose na "terorizma" (vidi tabelu 8 Dodatak). On je zatim objedinjuju Wikipedia članak pogled računa na mjesečnoj osnovi za odgovarajući četrdeset osam Wikipedia članke u periodu od trideset dva mjeseca, od početka januara 2012. do kraja avgusta 2014. godine da ojača svoj argument, on je stvorio nekoliko poređenje grupe praćenjem pogleda članak o drugim temama.

    Sada ćete replicira i proširiti Penney (2016) . Svi sirove podatke koje ćete trebati za ovu aktivnost je dostupan od Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ili možete ga dobiti od wikipediatrend R paket (Meissner and Team 2016) . Kada pišete-svoj odgovor, imajte na umu koji izvor podataka ste koristili. (Napomena: Ovaj isti aktivnost također pojavljuje u Poglavlju 6)

    1. Pročitajte Penney (2016) i ponovi Slika 2 koja pokazuje stavove stranica za "terorizam" Transakcije s povezanim stranama prije i poslije Snowden otkrovenje. Tumačenje nalaza.
    2. Dalje, replicirati slika 4A, koji uspoređuje studijske grupe ( "Terorizam" Transakcije s povezanim članaka) sa komparator grupu pomoću ključnih riječi u kategoriji pod "Agencije DHS & Other" iz liste DHS (vidi Dodatak Tabela 10). Tumačenje nalaza.
    3. U dijelu b) ste u odnosu na studijske grupe na jedan komparator grupu. Penney također u odnosu na druga dva komparatora grupe: "Infrastruktura sigurnosti" Transakcije s povezanim člancima (Prilog tabela 11) i popularna Wikipedia stranice (Prilog, Tabela 12). Smisliti alternativni komparator grupa, i testirati ako nalaza iz dijela b) je osjetljiv na svoj izbor komparator grupe. Koji izbor komparator grupa ima najviše smisla? Zašto?
    4. Autor navodi da ključne riječi koje se odnose na "terorizma" su koristi za odabir Wikipedia članke, jer je američka vlada navodi terorizam kao ključni opravdanje za svoje online prakse nadzora. Kao provjeru tih 48 "Terorizam" Transakcije s povezanim ključne riječi, Penney (2016) također je sprovela istraživanje o MTurk traži ispitanika ocijeniti svaki od ključnih riječi u smislu Vlade Trouble, privatnost Sensitive, i izbjegavanja (Dodatak Tabela 7 i 8). Replicirati istraživanja o MTurk i usporedite rezultate.
    5. Na osnovu rezultata u dijelu d) i vaše čitanje teksta na bazi, da li se slažete sa autorovom izboru tema ključnih riječi u studijskoj grupi? Zašto ili zašto ne? Ako ne, šta bi ti predlažeš umjesto toga?
  9. [ lako ] Efrati (2016) izvještaje, na osnovu povjerljivih informacija, da je "ukupna dijeljenje" na Facebooku je opao za oko 5,5% u odnosu na prošlu godinu, dok "originalni dijeljenje emisiji" je pao za 21% u odnosu na prošlu godinu. Ovaj pad je bio posebno izražen sa Facebook korisnicima ispod 30 godina starosti. U izvještaju se pripisuje pad u dva faktora. Jedan od njih je rast u broju "prijatelja" ljudi imaju na Facebooku. Druga je da su neke aktivnosti dijeljenje je prebačen na poruka i konkurentima kao što su Snapchat. U izvještaju se također otkrila nekoliko taktika Facebook je pokušao da poveća razmjenu, uključujući News Feed algoritam podešavanja koje čine originalne poruke više istaknutih, kao i periodične podsjetnici originalne postove korisnika "Na današnji dan" prije nekoliko godina. Šta implikacije, ako ih ima, da li ovi nalazi imaju za istraživače koji žele da koriste Facebook kao izvor podataka?

  10. [ srednji ] Tumasjan et al. (2010) izvijestio je da udio tweetova spomenuti političke stranke uskladiti udio glasova koje stranka nije dobila u njemačkom parlamentarnim izborima 2009. godine (Slika 2.9). Drugim riječima, čini se da bi mogao koristiti Twitter za predviđanje izbora. U vrijeme ovog Studija je objavljena je smatra izuzetno uzbudljivo, jer se činilo da predloži vrijedan koristi zajednički izvor velikih podataka.

    S obzirom na loše osobine velikih podataka, međutim, ne treba odmah biti skeptični prema ovom rezultatu. Nijemci na Twitteru u 2009. godini bili su prilično bez predstavnika grupa, i pristalice jedne strane češće može tweet o politici. Stoga, čini se čudno da sve moguće predrasude koje ste mogli zamisliti da nekako poništava. U stvari, rezultati u Tumasjan et al. (2010) Ispostavilo se da je previše dobro da bi bilo istinito. U svom radu, Tumasjan et al. (2010) smatra šest političkih stranaka: kršćanski demokrati (CDU), Christian socijaldemokrata (CSU), SPD, liberali (FDP), The Left (Die Linke), i Zelene stranke (Grüne). Ipak, najčešće se pominju njemačke političke stranke na Twitteru je u to vrijeme bio je Piratska stranka (Piraten), stranka koja se bori protiv vlade regulacije Interneta. Kada je Piratska stranka uključena u analizu, Twitter spominje postaje strašno prediktor izbornih rezultata (slika 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Slika 2.9: Twitter spominje se pojaviti predvidjeti rezultate njemačkih izbora 2009. (Tumasjan et al 2010. godine.), Ali ovaj rezultat ispostavi da zavise od neke proizvoljne i neopravdane izbora (Jungherr, Jürgens, i Schoen 2012.).

    Slika 2.9: Twitter spominje se pojaviti predvidjeti rezultate njemačkih izbora 2009. (Tumasjan et al. 2010) , Ali ovaj rezultat ispostavi da zavise od neke proizvoljne i neopravdane izbora (Jungherr, Jürgens, and Schoen 2012) .

    Nakon toga, drugi istraživači širom svijeta koriste odgajivač metode kao što su pomoću analize sentiment na razliku između pozitivnog i negativnog spominje stranaka-u kako bi se poboljšala sposobnost Twitter podataka za predviđanje niz različitih vrsta izbora (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Evo kako Huberty (2015) sažeti rezultati tih pokušaja da se predvidi izborima:

    "Sve poznate metode predviđanja zasnovana na društvenim mrežama nisu kada podvrgnuti zahtjevima pravi budućnost izbornih predviđanja. Ovi kvarovi Čini se da zbog osnovne karakteristike društvenih medija, nego da metodološke ili algoritamske probleme. Ukratko, društveni mediji ne, a vjerojatno nikada neće, ponuditi stabilnu, nepristrasan, predstavnik slika biračkog tijela; i uzorci praktičnost društvenih medija nemaju dovoljno podataka da popravi ove probleme post hoc. "

    Pročitajte neke od istraživanja koja dovode Huberty (2015) do tog zaključka, i napišite jednu stranicu dopis politički kandidat opisuje da li i kako Twitter treba koristiti za predviđanje izbore.

  11. [ srednji ] Koja je razlika između sociolog i povjesničar? Prema Goldthorpe (1991) , glavna razlika između sociolog i historičar je kontrolu nad prikupljanjem podataka. Istoričari su prinuđeni da koriste relikvije dok sociolozi mogu prilagoditi svoje prikupljanje podataka za određene svrhe. Pročitajte Goldthorpe (1991) . Kako je razlika između sociologije i povijesti koji se odnose na ideju Custommades i Readymades?

  12. [ tvrd ] Nadovezujući se na prethodno pitanje, Goldthorpe (1991) privukao veliki broj kritičnih odgovora, uključujući i jedan od Nicky Hart (1994) koji osporava Goldthorpe je odanost tailor made ​​podataka. Da pojasnimo potencijal ograničenja tailor-made podataka, Hart opisao Affluent Radnik projekta, velika anketa za mjerenje odnosa između društvenih klasa i glasanje koje je sproveo Goldthorpe i kolege u sredinom 1960-ih. Kao što se moglo očekivati ​​od učenjaka koji su podržavali dizajnirao podataka preko pronađena podataka, bogatih radnik projekta prikupljeni podaci koji je prilagođen da se obrati nedavno predložio teoriju o budućnosti društvene klase u eri povećanja životnog standarda. Ali, Goldthorpe i kolege nekako "zaboravili" da prikuplja informacije o ponašanju glasa žena. Evo kako Nicky Hart (1994) sažima cijelu epizodu:

    ". . . da [je] teško izbjeći zaključak da su žene bile izostavljene jer je ovo 'tailor made' skup je ograničena od strane paradigmatski logike koja isključuje žensko iskustvo. Vođen teorijski viziju klasne svijesti i akcije kao muško preokupacije. . . , Goldthorpe i njegove kolege izgrađen niz empirijskih dokaza koji hranili i njegovati svoje teorijske pretpostavke, umjesto da ih izlaže na važeći test adekvatnosti. "

    Hart je nastavio:

    "Empirijski nalazi bogatih radnika projekta recite nam više o muškoj vrijednosti sociologije sredine stoljeća nego o tome obavijeste procesa stratifikacije, politike i materijalnog života."

    Možete li se sjetiti drugih primjera gdje kolekcije po mjeri podataka ima predrasude kolektora podataka ugrađen u to? Kako se to u odnosu na algoritamski zbunjujućih? Šta implikacije može to imati za kada su istraživači treba koristiti Readymades i kada treba koristiti Custommades?

  13. [ srednji ] U ovom poglavlju, u kontrastu ja podaci prikupljeni od strane istraživača za istraživače sa administrativnih evidencija stvorio kompanije i vlade. Neki ljudi zovu te administrativnih evidencija "Pronašli podataka", koji su u kontrastu sa "dizajnirane podataka." Istina je da administrativnih evidencija se nalaze istraživači, ali oni su također visoko dizajnirani. Na primjer, moderne tehnološke kompanije troše ogromne količine vremena i sredstava za prikupljanje i kustos svoje podatke. Stoga, ovi administrativnih evidencija se i naći i dizajniran, to samo zavisi od vaše perspektive (Slika 2.10).

    Slika 2.10: Slika je i patka i zec; ono što vidite ovisi o vašem perspektive. Vlada i poslovne administrativnih evidencija se i naći i dizajniran; ono što vidite ovisi o vašem perspektive. Na primjer, evidenciju podataka poziv prikuplja mobitel kompanije se nalaze podaci iz perspektive istraživača. Ali, ovi isti zapisi su dizajnirani perspektive podaci nekoga koji rade u odjelu naplate telefona kompanije. Izvor: Wikipedia

    Slika 2.10: Slika je i patka i zec; ono što vidite ovisi o vašem perspektive. Vlada i poslovne administrativnih evidencija se i naći i dizajniran; ono što vidite ovisi o vašem perspektive. Na primjer, evidenciju podataka poziv prikuplja mobitel kompanije se nalaze podaci iz perspektive istraživača. Ali, ovi isti zapisi su dizajnirani perspektive podaci nekoga koji rade u odjelu naplate telefona kompanije. Izvor: Wikipedia

    Pružaju primjer izvor podataka, gdje vidimo ga i kao naći i dizajniran je korisno kada se koristi taj izvor podataka za istraživanje.

  14. [ lako ] U promišljen eseju, Christian Sandvig i Eszter Hargittai (2015) opisuju dvije vrste digitalnih istraživanja, gdje je digitalni sistem je "instrument" ili "predmet proučavanja." Primjer prve vrste studija je gdje Bengtsson i kolege (2011) koristi podatke mobilni telefon za praćenje migracije nakon potresa na Haitiju u 2010. primjer druge vrste je gdje Jensen (2007) studije kako uvođenje mobilnih telefona u cijeloj Kerala, Indija uticaj na funkcioniranje tržišta za ribe. Mislim da je ovo korisno jer pojašnjava da studije koje koriste digitalnih izvora podataka mogu imati sasvim različite ciljeve, čak i ako oni koriste istu vrstu izvora podataka. Kako bi se dodatno pojasni tu razliku, opisuju četiri studije koje ste vidjeli: dvije koje koriste digitalni sistem kao instrument i dva koje koriste digitalni sistem kao predmet proučavanja. Možete koristiti primjere iz ovog poglavlja ako želite.