Ključ:
[ , ] Algoritamska zbunjivanje je problem sa Google Raširenost gripe. Pročitajte papir po Lazer et al. (2014) , te napisati kratku, jasnu e-mail inženjer u Googleu objašnjava problem i nudi ideju o tome kako riješiti problem.
[ ] Bollen, Mao, and Zeng (2011) tvrdi da se podaci iz Twitter se može koristiti za predviđanje na tržištu dionica. Ovo otkriće je dovelo do stvaranja hedge fond-Derwent Capital Markets-ulagati u dioničko tržište na temelju podataka prikupljenih od Twittera (Jordan 2010) . Što dokazi želite vidjeti prije nego stavite svoj novac u taj fond?
[ ] Dok su neki zagovornici javnog zdravstva tuče e-cigarete kao učinkovita pomoć za prestanak pušenja, a drugi upozoravaju na potencijalne rizike, kao što su high-razina nikotina. Zamislite da istraživač odluči za proučavanje javnog mnijenja prema e-cigareta prikupljanjem vezane e-cigarete-Twitter postove i provođenje očekivanja, analizu.
[ ] U studenom 2009. godine, Twitter promijenio pitanje u tweet kutiji "Što radiš?" Do "Što se događa?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizirali 41,7 milijuna korisničkih profila, 1.47 milijardi društvene odnose, 4262 aktualnih tema i 106 milijuna tweetova između 6. lipnja i 31. lipnja 2009. godine Na temelju ove analize su zaključili da Twitter služi više kao novi medij dijeljenja informacija nego društvena mreža.
[ ] "Ponovno slanje" često se koristi za mjerenje utjecaja i širenje utjecaja na Twitter. U početku, korisnici su morali kopirati i zalijepiti cvrkut im se sviđalo, označiti izvornog autora s njegove / njezine ručku i ručno upišite "RT" prije cvrkut, što znači da je to Retweet. Zatim, u 2009 Twitter je dodao gumb "retweet". U lipnju 2016. godine, Twitter je omogućio korisnicima da retweet svoje tweetove (https://twitter.com/twitter/status/742749353689780224). Mislite li da ove promjene trebale utjecati na to kako ćete koristiti "retweets" u svojim istraživanjima? Zašto ili zašto ne?
[ , , ] Michel et al. (2011) konstruirao korpus izranja iz Googleovog nastojanju da se digitalizirati knjige. Korištenje prvu verziju korpusa, koji je objavljen 2009. godine i koji se nalazi više od 5 milijuna digitaliziranih knjiga, autori analiziraju riječi učestalost korištenja istražiti jezične promjene i kulturne trendove. Uskoro Google Knjige korpus postao popularan izvor podataka za istraživače, a drugi verzija baze podataka je objavljen 2012. godine.
Međutim, Pechenick, Danforth, and Dodds (2015) upozorio je da znanstvenici trebaju u potpunosti okarakterizirati postupak uzorkovanja korpusu prije uporabe za izradu široke zaključke. Glavni problem je u tome što korpus knjižnica, kao što su, sadrži jednu od svake knjige. Kao rezultat toga, pojedinac, plodan autor može osjetno umetanje nove fraze u leksikonu Google Knjige. Štoviše, znanstveni tekstovi predstavljaju sve materijalno dio korpusa tijekom 1900-tih. Osim toga, uspoređujući dvije verzije na engleskom fantastike skupovima podataka, Pechenick et al. nađeno dokazi da nedovoljna filtriranje se upotrebljava u proizvodnji prve verzije. Svi podaci potrebni za aktivnost je dostupan ovdje: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) istražuje da li je raširena javnosti o NSA / PRISM nadzora (tj Snowden otkrovenja), u lipnju 2013. godine povezana je s oštrim i naglog smanjenja prometa na Wikipedia članke o temama koje podižu privatnost zabrinutost. Ako je tako, ova promjena u ponašanju će biti u skladu s obeshrabrujući učinak koji proizlazi iz masovnog nadzora. Pristup Penney (2016) se ponekad naziva prekinut vremenske serije dizajn i odnosi se na pristupe u poglavlju o približavanju eksperimenata iz opservacijskih podataka (poglavlje 2.4.3).
Kako odabrati ključne riječi temu, Penney iz popisa koji se koristi od strane US Department of Homeland Security za praćenje i nadzor društvene medije. Popis DHS kategorizira određene pojmove za pretraživanje u nizu pitanja, odnosno "briga za zdravlje", "Infrastruktura sigurnosti" i "terorizma". Za studijske grupe, Penney koriste četrdeset osam riječi odnose na "Terorizam" (vidi tablicu 8 Dodatak). On je tada agregirani Wikipedia članak broj prikaza na mjesečnoj osnovi za odgovarajućim četrdeset osam članaka Wikipedije tijekom razdoblja od trideset dva mjeseca, od početka siječnja 2012. do kraja kolovoza 2014. Za jačanje svoju tvrdnju, on je stvorio nekoliko usporedbu skupine za praćenje pogleda članak o drugim temama.
Sada ćete ponoviti i proširiti Penney (2016) . Sve sirovi podaci koje će vam trebati za ovu aktivnost je dostupan iz Wikipedije (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ili ga možete dobiti od R paketa wikipediatrend (Meissner and Team 2016) . Kada pišete-up vaše odgovore, imajte na umu koje podatke izvor koji ste koristili. (Napomena: Ova ista aktivnost također pojavljuje u Poglavlju 6)
[ ] Efrati (2016) izvješća, na temelju povjerljivih informacija, da je "ukupna dijeljenje", na Facebooku je smanjen za oko 5,5% u odnosu na prošlu godinu, dok "podijelio emitiranje" je pao za 21% u odnosu na prošlu godinu. Ovaj pad je posebno akutan s korisnicima Facebooka ispod 30 godina starosti. U izvješću se pripisuje pad dva faktora. Jedan od njih je porast u broju "prijatelja" Ljudi su na Facebooku. Druga je da su neke aktivnosti dijeljenja pomaknuo se poruka i konkurenata kao što su Snapchat. U izvješću se također otkrila nekoliko taktika Facebook su pokušali potaknuti razmjenu, uključujući News Feed algoritam tweaks koji čine originalni postovi izraženije, kao i povremene podsjetnike izvornih postovi korisnika "na ovaj dan" prije nekoliko godina. Što implikacije, ako ih ima, da li ovi nalazi imaju za istraživače koji žele koristiti Facebook kao izvor podataka?
[ ] Tumasjan et al. (2010) izvijestio je da udio tweets spominje političku stranku uskladiti udio glasova koje je stranka osvojila je u njemačkom parlamentarnih izbora u 2009. godini (slika 2.9). Drugim riječima, činilo se da bi mogao koristiti Twitter predvidjeti na izborima. U vrijeme pisanja ovog studija je objavljena smatralo iznimno uzbudljivo, jer se činilo da ukazuju vrijednu koristiti za zajednički izvor velikih podataka.
S obzirom na loše osobine velikih podataka, međutim, trebali biste odmah biti skeptičan ovog rezultata. Nijemci na Twitteru u 2009. su bili prilično ne-reprezentativni skupina, a pristaše jedne stranke mogle češće tweet o politici. Dakle, čini se čudno da sve moguće predrasude koje ste mogli zamisliti nekako poništiti. U stvari, rezultati Tumasjan et al. (2010) ispostavilo se da se previše dobro da bi bilo istinito. U svom radu, Tumasjan et al. (2010) smatra šest političkih stranaka: Kršćanski demokrati (CDU), Christian socijaldemokrata (CSU), SPD, liberali (FDP), lijevo (Die Linke) i Zelena stranka (Grune). Međutim, najčešće spominjanih njemačka politička stranka na Twitter-u to je vrijeme bio Piratska stranka (Piraten), stranka koja se bori državne regulacije Interneta. Kada je Piratska stranka bila uključena u analizu, Twitter spominje postaje strašna predviđanja izbornih rezultata (slika 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Nakon toga, drugi istraživači diljem svijeta koriste ljubitelj metode-kao što je korištenje očekivanja, analize razlikovati pozitivne i negativne spominjanja stranaka-u kako bi se poboljšala sposobnost Twitter podataka za predviđanje različite vrste izbora (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Evo kako Huberty (2015) sažeti rezultate ovih pokušaja da se predvidjeti izbore:
"Sve poznate metode predviđanja temelje na društvenim medijima nisu uspjeli kada su podvrgnuti zahtjevima pravog budućnost izbornog predviđanja. Ovi kvarovi pojavljuju se zbog fundamentalnih svojstava društvenih medija, a ne metodoloških ili algoritamskih problema. Ukratko, društveni mediji ne, a vjerojatno nikada neće, nude stabilnu, nepristran, reprezentativnu sliku biračkog tijela; a uzorci praktičnost društvenih medija nemaju dovoljno podataka za rješavanje tih problema post hoc ".
Pročitajte neke od istraživanja koja dovode Huberty (2015) do tog zaključka, i napisati dopis jednu stranicu na političkom kandidatu koji opisuje da li i kako Twitter treba koristiti za predviđanje izbore.
[ ] Koja je razlika između sociologa i povjesničara? Prema Goldthrope (1991) , glavna razlika između sociologa i povjesničara je kontrola nad prikupljanja podataka. Povjesničari su prisiljeni koristiti relikvije dok sociolozi mogu prilagoditi svoje prikupljanje podataka za posebne namjene. Pročitajte Goldthorpe (1991) . Kako je razlika između sociologije i povijesti povezana s idejom Custommades i Readymades?
[ ] Nadovezujući se na prethodno pitanje, Goldthorpe (1991) nacrtao broj kritičnih reakcija, uključujući i one iz Nicky Hart (1994) koji se pobija Goldthrope odanosti po mjeri podatke. Da pojasnimo potencijalne ograničenja po mjeri podataka o, Hart opisao pritoka radnik projekt, veliki upitnik za mjerenje odnosa između društvenih klasa i glasovanja koje je provedeno od strane Goldthrope i kolege u sredinom 1960-ih. Kao što se moglo očekivati od znanstvenika koji je omiljen dizajniran podataka preko pronađenih podataka, pritoka radnik projekta prikupljaju podatke koji su prilagođene za rješavanje nedavno predložio teoriju o budućnosti društvene klase u doba povećanja životnog standarda. No, Goldthrope i kolege na neki način "zaboravio" da prikuplja informacije o ponašanju birača žena. Evo kako Nicky Hart (1994) i sažeti cijelu epizodu:
". , , što [je] teško izbjeći zaključak da su žene izostaviti jer je to "po mjeri" skup podataka je ograničena od strane paradigmatski logike koja isključeni žensko iskustvo. Potaknuta teorijskim viziji klasne svijesti i djelovanja kao muških preokupacijama. , , , Goldthrope i njegovi kolege konstruirao niz empirijskih dokaza koji su dovedeni i njeguje svoje teorijske pretpostavke, umjesto da ih izlažu valjanog testa adekvatnosti. "
Hart je nastavio:
"Empirijski rezultati od pritoka radnika Projekta nam reći nešto više o masculinist vrijednosti sociologije sredine stoljeća nego što su informirati procesa stratifikacije, politike i materijalnog života."
Možete li se sjetiti drugih primjera gdje skup tailor-made podataka ima pristranosti kolektora podataka ugrađena? Kako ovo usporediti s algoritamskim zbrka? Koje posljedice bi to imati za kada su istraživači bi trebali koristiti Readymades a kad oni trebaju koristiti Custommades?
[ ] U ovom poglavlju, u suprotnosti sam podatke prikupljene od strane istraživača za istraživače s administrativnim zapisa nastalih od strane tvrtki i vlada. Neki ljudi nazivaju ove administrativne zapise "pronađeno podataka", koje su kontrastu s "dizajnirane podataka." Istina je da su administrativne zapise naći istraživači, ali su također vrlo dizajnirana. Na primjer, moderni tech tvrtke troše ogromne količine vremena i resursa za prikupljanje i brigu svoje podatke. Dakle, ti administrativni zapisi su oboje našli i dizajniran, to samo ovisi o perspektivi (slika 2.10).
Dati primjer izvora podataka, gdje ga vide i kao naći i dizajniran je korisno kada koristite taj izvor podataka za istraživanje.
[ ] U promišljeni eseja, Christian Sandvig i Eszter Hargittai (2015) opisuju dvije vrste digitalnih istraživanja, gdje je digitalni sustav je "instrument" ili "predmet proučavanja." Primjer prve vrste studija u kojoj Bengtsson i suradnici (2011) koristi se mobilni telefon podatke za praćenje migracije nakon potresa na Haitiju u 2010. primjer druge vrste gdje je Jensen (2007) proučava kako je uvođenje mobilnih telefona u cijeloj Kerala, Indija utjecali na funkcioniranje tržišta za ribe. Mislim da je ovo korisno jer pojašnjava da studije koje koriste digitalne izvore podataka može imati vrlo različite ciljeve, čak i ako su koristeći istu vrstu izvora podataka. Kako bi se dodatno razjasnili tu razliku, opisuju četiri studije koje ste vidjeli: dvije koje koriste digitalni sustav kao instrument i dvije koje koriste digitalni sustav kao predmet proučavanja. Možete koristiti primjere iz ovog poglavlja, ako želite.