Key:
[ , ] Algoritamske zbunjujući bio problem s Google Flu Trends. Pročitati novine od Lazer et al. (2014) , i napiše kratak, jasan email inženjer na Google objašnjava problem i nudi ideju o tome kako popraviti problem.
[ ] Bollen, Mao, and Zeng (2011) tvrdi da se podaci iz Twitter se može koristiti za predviđanje berzi. Ovaj nalaz je dovelo do stvaranja hedge fond-Derwent Capital Markets-da investiraju na berzi na osnovu podataka prikupljenih od Twitteru (Jordan 2010) . Kakav dokaz bi želite da vidite prije stavljanja svoj novac u taj fond?
[ ] Dok su neki javno zdravlje zastupnici pozdravljaju e-cigarete kao efikasan pomoć za odvikavanje od pušenja, drugi upozoravaju na potencijalne rizike, kao što su visoke razine nikotina. Zamislite da istraživač odluči da studira javnog mnijenja prema e-cigarete prikupljanjem e-cigarete u vezi sa Twitter poruke i obavljanje analize sentiment.
[ ] U novembru 2009. godine, Twitter promijenio pitanje u tweet kutiju iz "Šta to radiš?" Do "Što se događa?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizirao 41,7 miliona korisničkih profila, 1,47 milijardi društvenih odnosa, 4262 Trending teme, i 106 miliona tweetova između 6. juni i 31. juna 2009. godine na ovoj analizi su zaključili da je Twitter služi više kao novi medij za razmjenu informacija od osnovu socijalna mreža.
[ ] "Retweets" se često koristi za mjerenje utjecaja i širenje utjecaja na Twitteru. U početku, korisnici morali kopirati i zalijepiti tweet im se sviđa, označiti izvornog autora sa njegovim / njenim ručka, i ručno upišite "RT" pred tweet da ukazuju na to da je to retweet. Zatim, u 2009. godini Twitter dodao gumb "retweet". U junu 2016. godine, Twitter je omogućio korisnicima da retweet svoje tweetove (https://twitter.com/twitter/status/742749353689780224). Mislite li da te promjene treba utjecati kako koristite "retweet" u svojim istraživanjima? Zašto ili zašto ne?
[ , , ] Michel et al. (2011) izgrađena je korpus u nastajanju iz Google napor da digitalizacije knjiga. Koristeći prvu verziju korpusa, koja je objavljena 2009. godine i sadrži preko 5 miliona digitalizirana knjiga, autori analiziraju riječ učestalost upotrebe da istraži lingvističke promjene i kulturne tokove. Uskoro Google Knjige Corpus je postao popularan izvor podataka za istraživače, i 2. verzija baze podataka je pušten 2012. godine.
Međutim, Pechenick, Danforth, and Dodds (2015) upozorio je da su istraživači treba da u potpunosti opisali proces uzorkovanja korpusa prije nego ga koristi za izradu široke zaključke. Glavni problem je u tome što korpus je biblioteka-poput, sadrži jednu od svake knjige. Kao rezultat toga, pojedinac, plodan autor je u stanju da značajno ubacite nove fraze u leksikon Google Books. Osim toga, naučni tekstovi predstavljaju sve materijalni dio korpusa tokom 1900-tih. Pored toga, u odnosu dvije verzije Fiction skupova podataka na engleskom, Pechenick et al. pronašli dokaze da je nedovoljno filtriranje je korišten u proizvodnji prvoj verziji. Svi podaci potrebni za aktivnost je dostupan ovdje: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) istražuje da li je rasprostranjen publicitet oko NSA / PRISM nadzor (tj Snowden otkrića) u junu 2013. godine je povezan sa oštrim i nagli pad prometa na Wikipediji članke o temama koje izazivaju zabrinutost privatnost. Ako je tako, ova promjena u ponašanju će biti u skladu sa jezivim posledicu od masovnog nadzora. Pristup Penney (2016) se ponekad naziva prekinuta vremenske serije dizajna i odnosi se na pristupe u poglavlju o približavanju eksperimente iz opservacijskih podataka (Odjeljak 2.4.3).
Da biste odabrali temu ključne riječi, Penney iz liste od strane američkog Ministarstva domovinske sigurnosti koji se koriste za praćenje i praćenje društvenih medija. DHS lista kategorizira određeni pojam u nizu pitanja, odnosno "zdravstveni problem", "Infrastruktura sigurnosti" i "terorizma". Za studijske grupe, Penney koristi četrdeset osam ključnih riječi koje se odnose na "terorizma" (vidi tabelu 8 Dodatak). On je zatim objedinjuju Wikipedia članak pogled računa na mjesečnoj osnovi za odgovarajući četrdeset osam Wikipedia članke u periodu od trideset dva mjeseca, od početka januara 2012. do kraja avgusta 2014. godine da ojača svoj argument, on je stvorio nekoliko poređenje grupe praćenjem pogleda članak o drugim temama.
Sada ćete replicira i proširiti Penney (2016) . Svi sirove podatke koje ćete trebati za ovu aktivnost je dostupan od Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ili možete ga dobiti od wikipediatrend R paket (Meissner and Team 2016) . Kada pišete-svoj odgovor, imajte na umu koji izvor podataka ste koristili. (Napomena: Ovaj isti aktivnost također pojavljuje u Poglavlju 6)
[ ] Efrati (2016) izvještaje, na osnovu povjerljivih informacija, da je "ukupna dijeljenje" na Facebooku je opao za oko 5,5% u odnosu na prošlu godinu, dok "originalni dijeljenje emisiji" je pao za 21% u odnosu na prošlu godinu. Ovaj pad je bio posebno izražen sa Facebook korisnicima ispod 30 godina starosti. U izvještaju se pripisuje pad u dva faktora. Jedan od njih je rast u broju "prijatelja" ljudi imaju na Facebooku. Druga je da su neke aktivnosti dijeljenje je prebačen na poruka i konkurentima kao što su Snapchat. U izvještaju se također otkrila nekoliko taktika Facebook je pokušao da poveća razmjenu, uključujući News Feed algoritam podešavanja koje čine originalne poruke više istaknutih, kao i periodične podsjetnici originalne postove korisnika "Na današnji dan" prije nekoliko godina. Šta implikacije, ako ih ima, da li ovi nalazi imaju za istraživače koji žele da koriste Facebook kao izvor podataka?
[ ] Tumasjan et al. (2010) izvijestio je da udio tweetova spomenuti političke stranke uskladiti udio glasova koje stranka nije dobila u njemačkom parlamentarnim izborima 2009. godine (Slika 2.9). Drugim riječima, čini se da bi mogao koristiti Twitter za predviđanje izbora. U vrijeme ovog Studija je objavljena je smatra izuzetno uzbudljivo, jer se činilo da predloži vrijedan koristi zajednički izvor velikih podataka.
S obzirom na loše osobine velikih podataka, međutim, ne treba odmah biti skeptični prema ovom rezultatu. Nijemci na Twitteru u 2009. godini bili su prilično bez predstavnika grupa, i pristalice jedne strane češće može tweet o politici. Stoga, čini se čudno da sve moguće predrasude koje ste mogli zamisliti da nekako poništava. U stvari, rezultati u Tumasjan et al. (2010) Ispostavilo se da je previše dobro da bi bilo istinito. U svom radu, Tumasjan et al. (2010) smatra šest političkih stranaka: kršćanski demokrati (CDU), Christian socijaldemokrata (CSU), SPD, liberali (FDP), The Left (Die Linke), i Zelene stranke (Grüne). Ipak, najčešće se pominju njemačke političke stranke na Twitteru je u to vrijeme bio je Piratska stranka (Piraten), stranka koja se bori protiv vlade regulacije Interneta. Kada je Piratska stranka uključena u analizu, Twitter spominje postaje strašno prediktor izbornih rezultata (slika 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Nakon toga, drugi istraživači širom svijeta koriste odgajivač metode kao što su pomoću analize sentiment na razliku između pozitivnog i negativnog spominje stranaka-u kako bi se poboljšala sposobnost Twitter podataka za predviđanje niz različitih vrsta izbora (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Evo kako Huberty (2015) sažeti rezultati tih pokušaja da se predvidi izborima:
"Sve poznate metode predviđanja zasnovana na društvenim mrežama nisu kada podvrgnuti zahtjevima pravi budućnost izbornih predviđanja. Ovi kvarovi Čini se da zbog osnovne karakteristike društvenih medija, nego da metodološke ili algoritamske probleme. Ukratko, društveni mediji ne, a vjerojatno nikada neće, ponuditi stabilnu, nepristrasan, predstavnik slika biračkog tijela; i uzorci praktičnost društvenih medija nemaju dovoljno podataka da popravi ove probleme post hoc. "
Pročitajte neke od istraživanja koja dovode Huberty (2015) do tog zaključka, i napišite jednu stranicu dopis politički kandidat opisuje da li i kako Twitter treba koristiti za predviđanje izbore.
[ ] Koja je razlika između sociolog i povjesničar? Prema Goldthorpe (1991) , glavna razlika između sociolog i historičar je kontrolu nad prikupljanjem podataka. Istoričari su prinuđeni da koriste relikvije dok sociolozi mogu prilagoditi svoje prikupljanje podataka za određene svrhe. Pročitajte Goldthorpe (1991) . Kako je razlika između sociologije i povijesti koji se odnose na ideju Custommades i Readymades?
[ ] Nadovezujući se na prethodno pitanje, Goldthorpe (1991) privukao veliki broj kritičnih odgovora, uključujući i jedan od Nicky Hart (1994) koji osporava Goldthorpe je odanost tailor made podataka. Da pojasnimo potencijal ograničenja tailor-made podataka, Hart opisao Affluent Radnik projekta, velika anketa za mjerenje odnosa između društvenih klasa i glasanje koje je sproveo Goldthorpe i kolege u sredinom 1960-ih. Kao što se moglo očekivati od učenjaka koji su podržavali dizajnirao podataka preko pronađena podataka, bogatih radnik projekta prikupljeni podaci koji je prilagođen da se obrati nedavno predložio teoriju o budućnosti društvene klase u eri povećanja životnog standarda. Ali, Goldthorpe i kolege nekako "zaboravili" da prikuplja informacije o ponašanju glasa žena. Evo kako Nicky Hart (1994) sažima cijelu epizodu:
". . . da [je] teško izbjeći zaključak da su žene bile izostavljene jer je ovo 'tailor made' skup je ograničena od strane paradigmatski logike koja isključuje žensko iskustvo. Vođen teorijski viziju klasne svijesti i akcije kao muško preokupacije. . . , Goldthorpe i njegove kolege izgrađen niz empirijskih dokaza koji hranili i njegovati svoje teorijske pretpostavke, umjesto da ih izlaže na važeći test adekvatnosti. "
Hart je nastavio:
"Empirijski nalazi bogatih radnika projekta recite nam više o muškoj vrijednosti sociologije sredine stoljeća nego o tome obavijeste procesa stratifikacije, politike i materijalnog života."
Možete li se sjetiti drugih primjera gdje kolekcije po mjeri podataka ima predrasude kolektora podataka ugrađen u to? Kako se to u odnosu na algoritamski zbunjujućih? Šta implikacije može to imati za kada su istraživači treba koristiti Readymades i kada treba koristiti Custommades?
[ ] U ovom poglavlju, u kontrastu ja podaci prikupljeni od strane istraživača za istraživače sa administrativnih evidencija stvorio kompanije i vlade. Neki ljudi zovu te administrativnih evidencija "Pronašli podataka", koji su u kontrastu sa "dizajnirane podataka." Istina je da administrativnih evidencija se nalaze istraživači, ali oni su također visoko dizajnirani. Na primjer, moderne tehnološke kompanije troše ogromne količine vremena i sredstava za prikupljanje i kustos svoje podatke. Stoga, ovi administrativnih evidencija se i naći i dizajniran, to samo zavisi od vaše perspektive (Slika 2.10).
Pružaju primjer izvor podataka, gdje vidimo ga i kao naći i dizajniran je korisno kada se koristi taj izvor podataka za istraživanje.
[ ] U promišljen eseju, Christian Sandvig i Eszter Hargittai (2015) opisuju dvije vrste digitalnih istraživanja, gdje je digitalni sistem je "instrument" ili "predmet proučavanja." Primjer prve vrste studija je gdje Bengtsson i kolege (2011) koristi podatke mobilni telefon za praćenje migracije nakon potresa na Haitiju u 2010. primjer druge vrste je gdje Jensen (2007) studije kako uvođenje mobilnih telefona u cijeloj Kerala, Indija uticaj na funkcioniranje tržišta za ribe. Mislim da je ovo korisno jer pojašnjava da studije koje koriste digitalnih izvora podataka mogu imati sasvim različite ciljeve, čak i ako oni koriste istu vrstu izvora podataka. Kako bi se dodatno pojasni tu razliku, opisuju četiri studije koje ste vidjeli: dvije koje koriste digitalni sistem kao instrument i dva koje koriste digitalni sistem kao predmet proučavanja. Možete koristiti primjere iz ovog poglavlja ako želite.