djelatnost

Ovaj prijevod je stvoren od strane računala. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

djelatnost

Ključ:

stupanj težine: lako , srednji , tvrdi , vrlo teško
traži matematike ( $traži matematike$ )
zahtijeva kodiranje ( )
prikupljanje podataka ( )
moji omiljeni ( )

[ , ] Algoritamska zbunjivanje je problem sa Google Raširenost gripe. Pročitajte papir po Lazer et al. (2014) , te napisati kratku, jasnu e-mail inženjer u Googleu objašnjava problem i nudi ideju o tome kako riješiti problem.
[ ] Bollen, Mao, and Zeng (2011) tvrdi da se podaci iz Twitter se može koristiti za predviđanje na tržištu dionica. Ovo otkriće je dovelo do stvaranja hedge fond-Derwent Capital Markets-ulagati u dioničko tržište na temelju podataka prikupljenih od Twittera (Jordan 2010) . Što dokazi želite vidjeti prije nego stavite svoj novac u taj fond?
[ ] Dok su neki zagovornici javnog zdravstva tuče e-cigarete kao učinkovita pomoć za prestanak pušenja, a drugi upozoravaju na potencijalne rizike, kao što su high-razina nikotina. Zamislite da istraživač odluči za proučavanje javnog mnijenja prema e-cigareta prikupljanjem vezane e-cigarete-Twitter postove i provođenje očekivanja, analizu.
1. Koje su tri moguća predrasude koje su najviše zabrinuti u ovoj studiji?
2. Clark et al. (2016) vodio upravo takvu studiju. Prvo, oni prikupljaju 850.000 tweetova koji koriste e-cigarete vezane uz ključne riječi iz siječnja 2012. do prosinca 2014. Po bliže inspekcije, shvatili su da su mnogi od tih tweets su automatizirani (tj ne proizvodi ljude), a mnogi od tih automatiziranih tweets su u osnovi reklama. Oni su razvili algoritam Human Detection odvojiti automatske tweets od organskih tweets. Koristeći ovaj ljudski otkriti Algoritam otkrili su da je 80% tweets su automatizirani. Da li je ovaj nalaz promijeniti svoj odgovor na dijelu (a)?
3. Kada su u odnosu na raspoloženje u organskim i automatskim tweets su otkrili da su automatizirani tweetova povoljniji od organskih tweets (6,17 u odnosu na 5.84). Da li je ovaj nalaz promijeniti svoj odgovor na (b)?
[ ] U studenom 2009. godine, Twitter promijenio pitanje u tweet kutiji "Što radiš?" Do "Što se događa?" (Https://blog.twitter.com/2009/whats-happening).
1. Kako misliš da je promjena upite će utjecati koji cvrkut i / ili ono što oni cvrkut?
2. Ime jednog istraživačkog projekta za koji bi radije upit: "Što radiš?" Objasnite zašto.
3. Ime jednog istraživačkog projekta za koji bi radije uputa "Što se događa?" Objasnite zašto.
[ ] Kwak et al. (2010) analizirali 41,7 milijuna korisničkih profila, 1.47 milijardi društvene odnose, 4262 aktualnih tema i 106 milijuna tweetova između 6. lipnja i 31. lipnja 2009. godine Na temelju ove analize su zaključili da Twitter služi više kao novi medij dijeljenja informacija nego društvena mreža.
1. S obzirom Kwak sur-a nalazom, kakvu vrstu istraživanja će učiniti s Twitter podacima? Koji tip istraživanja ne bi li učiniti s Twitter podacima? Zašto?
2. U 2010. godini, dodao Twitter WHO slijediti uslugu izrade po mjeri prijedlog korisnicima. Tri preporuke su prikazane na vrijeme na glavnoj stranici. Preporuke često su izvučeni iz nečije "prijatelja-of-prijatelja", a međusobni kontakti također su prikazani u preporuci. Korisnici mogu osvježiti vidjeti novi set preporuka ili posjetite stranicu s dužim popisom preporuka. Mislite li da je ova nova značajka će promijeniti vaš odgovor na dio A)? Zašto ili zašto ne?
3. Su, Sharma, and Goel (2016) ocjenjuje učinak koji će slijediti uslugu i utvrdili da, dok korisnici u popularnosti spektra koristi od preporuka, najpopularniji korisnik profitirao znatno više od prosjeka. Da li je ovaj nalaz promijeniti svoj odgovor na dio B)? Zašto ili zašto ne?
[ ] "Ponovno slanje" često se koristi za mjerenje utjecaja i širenje utjecaja na Twitter. U početku, korisnici su morali kopirati i zalijepiti cvrkut im se sviđalo, označiti izvornog autora s njegove / njezine ručku i ručno upišite "RT" prije cvrkut, što znači da je to Retweet. Zatim, u 2009 Twitter je dodao gumb "retweet". U lipnju 2016. godine, Twitter je omogućio korisnicima da retweet svoje tweetove (https://twitter.com/twitter/status/742749353689780224). Mislite li da ove promjene trebale utjecati na to kako ćete koristiti "retweets" u svojim istraživanjima? Zašto ili zašto ne?
[ , , ] Michel et al. (2011) konstruirao korpus izranja iz Googleovog nastojanju da se digitalizirati knjige. Korištenje prvu verziju korpusa, koji je objavljen 2009. godine i koji se nalazi više od 5 milijuna digitaliziranih knjiga, autori analiziraju riječi učestalost korištenja istražiti jezične promjene i kulturne trendove. Uskoro Google Knjige korpus postao popularan izvor podataka za istraživače, a drugi verzija baze podataka je objavljen 2012. godine.

Međutim, Pechenick, Danforth, and Dodds (2015) upozorio je da znanstvenici trebaju u potpunosti okarakterizirati postupak uzorkovanja korpusu prije uporabe za izradu široke zaključke. Glavni problem je u tome što korpus knjižnica, kao što su, sadrži jednu od svake knjige. Kao rezultat toga, pojedinac, plodan autor može osjetno umetanje nove fraze u leksikonu Google Knjige. Štoviše, znanstveni tekstovi predstavljaju sve materijalno dio korpusa tijekom 1900-tih. Osim toga, uspoređujući dvije verzije na engleskom fantastike skupovima podataka, Pechenick et al. nađeno dokazi da nedovoljna filtriranje se upotrebljava u proizvodnji prve verzije. Svi podaci potrebni za aktivnost je dostupan ovdje: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. U Michel et al. Originalnom papiru (2011) , koristili su 1. verzija na engleskom skupa podataka, nacrtane učestalost korištenja godina "1880", "1912" i "1973", te zaključio da "smo zaboravljajući naše prošlosti brže sa svakim godine "(Sl. 3A, Michel et al.). Ponoviti istu radnju, upotrebom 1) 1. verzija korpusu, engleski naziv (isto kao sl. 3A, Michel et al.)
2. Sada ponoviti istu zemljište sa 1. verzija, engleski fikcija podataka.
3. Sada ponoviti istu zemljište sa 2. verziji korpusa, engleski naziv.
4. Na kraju, ponoviti isto zemljište sa 2. verzija, engleski fikcija podataka.
5. Opisati razlike i sličnosti između ove četiri parcele. Slažete li se s Michel et al. Izvornog tumačenja promatranog trend? (Napomena: c) i d) bi trebala biti ista kao na slici 16, Pechenick et al).
6. Sada kada ste replicirati ovaj jedan nalaz koristeći različite Google Knjige korpusa, izaberite drugu jezičnu promjenu ili kulturni fenomen predstavljena u Michel et al. Originalnom papiru. Slažete li se s njihovim tumačenjem u svjetlu ograničenja prikazanih u Pechenick i dr.? Kako bi vaš argument jači, pokušajte ponoviti isti graf koristeći različite verzije skup podataka kao što je gore.
[ , , , ] Penney (2016) istražuje da li je raširena javnosti o NSA / PRISM nadzora (tj Snowden otkrovenja), u lipnju 2013. godine povezana je s oštrim i naglog smanjenja prometa na Wikipedia članke o temama koje podižu privatnost zabrinutost. Ako je tako, ova promjena u ponašanju će biti u skladu s obeshrabrujući učinak koji proizlazi iz masovnog nadzora. Pristup Penney (2016) se ponekad naziva prekinut vremenske serije dizajn i odnosi se na pristupe u poglavlju o približavanju eksperimenata iz opservacijskih podataka (poglavlje 2.4.3).

Kako odabrati ključne riječi temu, Penney iz popisa koji se koristi od strane US Department of Homeland Security za praćenje i nadzor društvene medije. Popis DHS kategorizira određene pojmove za pretraživanje u nizu pitanja, odnosno "briga za zdravlje", "Infrastruktura sigurnosti" i "terorizma". Za studijske grupe, Penney koriste četrdeset osam riječi odnose na "Terorizam" (vidi tablicu 8 Dodatak). On je tada agregirani Wikipedia članak broj prikaza na mjesečnoj osnovi za odgovarajućim četrdeset osam članaka Wikipedije tijekom razdoblja od trideset dva mjeseca, od početka siječnja 2012. do kraja kolovoza 2014. Za jačanje svoju tvrdnju, on je stvorio nekoliko usporedbu skupine za praćenje pogleda članak o drugim temama.

Sada ćete ponoviti i proširiti Penney (2016) . Sve sirovi podaci koje će vam trebati za ovu aktivnost je dostupan iz Wikipedije (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ili ga možete dobiti od R paketa wikipediatrend (Meissner and Team 2016) . Kada pišete-up vaše odgovore, imajte na umu koje podatke izvor koji ste koristili. (Napomena: Ova ista aktivnost također pojavljuje u Poglavlju 6)
1. Pročitajte Penney (2016) i ponoviti Slika 2 koji prikazuje pregleda stranica za "terorizam" povezani s grupom stranicama prije i poslije Snowden objave. Interpretacija nalaza.
2. Zatim ponoviti Slika 4A, koji uspoređuje studijska grupa ( "terorizam" povezani s grupom članaka) s usporedne skupine pomoću ključne riječi kategorizirane pod "DHS i drugim agencijama" iz popisa DHS (vidi Dodatak tablicu 10). Interpretacija nalaza.
3. U dijelu B) što u odnosu na studijske grupe na jednom usporedne skupine. Penney također u odnosu na druge dvije komparativne skupine: "Infrastruktura sigurnosti" povezani s grupom članaka (Dodatak Tablica 11) i popularnih Wikipedia stranice (Dodatak Tablica 12). Dolazi do alternativnog usporedne skupine, a test ako su nalazi iz dijela B) je osjetljiv na svoj izbor usporedne skupine. Koji izbor usporednoj skupini ima najviše smisla? Zašto?
4. Autor navodi da su ključne riječi koje se odnose na "terorizma" su korišteni za odabir članke s Wikipedije, jer je američka vlada naveo terorizam kao ključni opravdanje za svoje online praksi nadziranja. Kao provjere tih 48 "terorizma" su povezane s ključnim riječima, Penney (2016) također provela je istraživanje na MTurk tražeći od ispitanika da ocijene svaku od ključnih riječi u smislu Vlade nevolje, privatnost i velika slova, i izbjegavanje (Dodatak tablici 7 i 8). Ponoviti istraživanje o MTurk i usporedite svoje rezultate.
5. Na temelju rezultata u dijelu d) i čitanju ovog teksta, slažete s autorovom izboru tema ključnih riječi u ispitivanoj skupini? Zašto ili zašto ne? Ako ne, što biste sugerirali umjesto toga?
[ ] Efrati (2016) izvješća, na temelju povjerljivih informacija, da je "ukupna dijeljenje", na Facebooku je smanjen za oko 5,5% u odnosu na prošlu godinu, dok "podijelio emitiranje" je pao za 21% u odnosu na prošlu godinu. Ovaj pad je posebno akutan s korisnicima Facebooka ispod 30 godina starosti. U izvješću se pripisuje pad dva faktora. Jedan od njih je porast u broju "prijatelja" Ljudi su na Facebooku. Druga je da su neke aktivnosti dijeljenja pomaknuo se poruka i konkurenata kao što su Snapchat. U izvješću se također otkrila nekoliko taktika Facebook su pokušali potaknuti razmjenu, uključujući News Feed algoritam tweaks koji čine originalni postovi izraženije, kao i povremene podsjetnike izvornih postovi korisnika "na ovaj dan" prije nekoliko godina. Što implikacije, ako ih ima, da li ovi nalazi imaju za istraživače koji žele koristiti Facebook kao izvor podataka?
[ ] Tumasjan et al. (2010) izvijestio je da udio tweets spominje političku stranku uskladiti udio glasova koje je stranka osvojila je u njemačkom parlamentarnih izbora u 2009. godini (slika 2.9). Drugim riječima, činilo se da bi mogao koristiti Twitter predvidjeti na izborima. U vrijeme pisanja ovog studija je objavljena smatralo iznimno uzbudljivo, jer se činilo da ukazuju vrijednu koristiti za zajednički izvor velikih podataka.

S obzirom na loše osobine velikih podataka, međutim, trebali biste odmah biti skeptičan ovog rezultata. Nijemci na Twitteru u 2009. su bili prilično ne-reprezentativni skupina, a pristaše jedne stranke mogle češće tweet o politici. Dakle, čini se čudno da sve moguće predrasude koje ste mogli zamisliti nekako poništiti. U stvari, rezultati Tumasjan et al. (2010) ispostavilo se da se previše dobro da bi bilo istinito. U svom radu, Tumasjan et al. (2010) smatra šest političkih stranaka: Kršćanski demokrati (CDU), Christian socijaldemokrata (CSU), SPD, liberali (FDP), lijevo (Die Linke) i Zelena stranka (Grune). Međutim, najčešće spominjanih njemačka politička stranka na Twitter-u to je vrijeme bio Piratska stranka (Piraten), stranka koja se bori državne regulacije Interneta. Kada je Piratska stranka bila uključena u analizu, Twitter spominje postaje strašna predviđanja izbornih rezultata (slika 2.9) (Jungherr, Jürgens, and Schoen 2012) .

Slika 2.9: Twitter spominje se pojaviti predvidjeti rezultate njemačkog izbora 2009. (Tumasjan et al. 2010) , Ali ovaj rezultat ispada da ovisi o nekim proizvoljne i neopravdane izbora (Jungherr, Jürgens, and Schoen 2012) .

Nakon toga, drugi istraživači diljem svijeta koriste ljubitelj metode-kao što je korištenje očekivanja, analize razlikovati pozitivne i negativne spominjanja stranaka-u kako bi se poboljšala sposobnost Twitter podataka za predviđanje različite vrste izbora (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Evo kako Huberty (2015) sažeti rezultate ovih pokušaja da se predvidjeti izbore:

"Sve poznate metode predviđanja temelje na društvenim medijima nisu uspjeli kada su podvrgnuti zahtjevima pravog budućnost izbornog predviđanja. Ovi kvarovi pojavljuju se zbog fundamentalnih svojstava društvenih medija, a ne metodoloških ili algoritamskih problema. Ukratko, društveni mediji ne, a vjerojatno nikada neće, nude stabilnu, nepristran, reprezentativnu sliku biračkog tijela; a uzorci praktičnost društvenih medija nemaju dovoljno podataka za rješavanje tih problema post hoc ".

Pročitajte neke od istraživanja koja dovode Huberty (2015) do tog zaključka, i napisati dopis jednu stranicu na političkom kandidatu koji opisuje da li i kako Twitter treba koristiti za predviđanje izbore.
[ ] Koja je razlika između sociologa i povjesničara? Prema Goldthrope (1991) , glavna razlika između sociologa i povjesničara je kontrola nad prikupljanja podataka. Povjesničari su prisiljeni koristiti relikvije dok sociolozi mogu prilagoditi svoje prikupljanje podataka za posebne namjene. Pročitajte Goldthorpe (1991) . Kako je razlika između sociologije i povijesti povezana s idejom Custommades i Readymades?
[ ] Nadovezujući se na prethodno pitanje, Goldthorpe (1991) nacrtao broj kritičnih reakcija, uključujući i one iz Nicky Hart (1994) koji se pobija Goldthrope odanosti po mjeri podatke. Da pojasnimo potencijalne ograničenja po mjeri podataka o, Hart opisao pritoka radnik projekt, veliki upitnik za mjerenje odnosa između društvenih klasa i glasovanja koje je provedeno od strane Goldthrope i kolege u sredinom 1960-ih. Kao što se moglo očekivati od znanstvenika koji je omiljen dizajniran podataka preko pronađenih podataka, pritoka radnik projekta prikupljaju podatke koji su prilagođene za rješavanje nedavno predložio teoriju o budućnosti društvene klase u doba povećanja životnog standarda. No, Goldthrope i kolege na neki način "zaboravio" da prikuplja informacije o ponašanju birača žena. Evo kako Nicky Hart (1994) i sažeti cijelu epizodu:

". , , što [je] teško izbjeći zaključak da su žene izostaviti jer je to "po mjeri" skup podataka je ograničena od strane paradigmatski logike koja isključeni žensko iskustvo. Potaknuta teorijskim viziji klasne svijesti i djelovanja kao muških preokupacijama. , , , Goldthrope i njegovi kolege konstruirao niz empirijskih dokaza koji su dovedeni i njeguje svoje teorijske pretpostavke, umjesto da ih izlažu valjanog testa adekvatnosti. "

Hart je nastavio:

"Empirijski rezultati od pritoka radnika Projekta nam reći nešto više o masculinist vrijednosti sociologije sredine stoljeća nego što su informirati procesa stratifikacije, politike i materijalnog života."

Možete li se sjetiti drugih primjera gdje skup tailor-made podataka ima pristranosti kolektora podataka ugrađena? Kako ovo usporediti s algoritamskim zbrka? Koje posljedice bi to imati za kada su istraživači bi trebali koristiti Readymades a kad oni trebaju koristiti Custommades?
[ ] U ovom poglavlju, u suprotnosti sam podatke prikupljene od strane istraživača za istraživače s administrativnim zapisa nastalih od strane tvrtki i vlada. Neki ljudi nazivaju ove administrativne zapise "pronađeno podataka", koje su kontrastu s "dizajnirane podataka." Istina je da su administrativne zapise naći istraživači, ali su također vrlo dizajnirana. Na primjer, moderni tech tvrtke troše ogromne količine vremena i resursa za prikupljanje i brigu svoje podatke. Dakle, ti administrativni zapisi su oboje našli i dizajniran, to samo ovisi o perspektivi (slika 2.10).

Slika 2.10: Slika je i patka i zec; ono što vidite ovisi o perspektivi. Vlada i poslovne administrativni zapisi su i pronađeni i napravljeni; ono što vidite ovisi o perspektivi. Na primjer, zapisi podataka poziva prikupljeni od mobitela tvrtke nalaze se podaci iz perspektive istraživača. Ali, ovi potpuno iste zapisi su napravljeni podataka perspektive nekoga tko radi u odjelu naplate telefonskog poduzeća. Izvor: Wikimedia Commons

Dati primjer izvora podataka, gdje ga vide i kao naći i dizajniran je korisno kada koristite taj izvor podataka za istraživanje.
[ ] U promišljeni eseja, Christian Sandvig i Eszter Hargittai (2015) opisuju dvije vrste digitalnih istraživanja, gdje je digitalni sustav je "instrument" ili "predmet proučavanja." Primjer prve vrste studija u kojoj Bengtsson i suradnici (2011) koristi se mobilni telefon podatke za praćenje migracije nakon potresa na Haitiju u 2010. primjer druge vrste gdje je Jensen (2007) proučava kako je uvođenje mobilnih telefona u cijeloj Kerala, Indija utjecali na funkcioniranje tržišta za ribe. Mislim da je ovo korisno jer pojašnjava da studije koje koriste digitalne izvore podataka može imati vrlo različite ciljeve, čak i ako su koristeći istu vrstu izvora podataka. Kako bi se dodatno razjasnili tu razliku, opisuju četiri studije koje ste vidjeli: dvije koje koriste digitalni sustav kao instrument i dvije koje koriste digitalni sustav kao predmet proučavanja. Možete koristiti primjere iz ovog poglavlja, ako želite.