Legenda:
[ , ] Algoritmična zavajajočih je problem z Google Flu Trends. Preberite knjigo z Lazer et al. (2014) , in napisati kratko, jasno e-mail: inženir pri Googlu pojasnjujejo problem in ponuja idejo, kako odpraviti težavo.
[ ] Bollen, Mao, and Zeng (2011) trdi, da se lahko podatki iz Twitterja lahko uporabimo za napoved borzi. Ta ugotovitev je privedla do ustanovitve hedge skladi, Derwent Capital Markets-za vlaganje na borzi, ki temelji na podatkih, zbranih iz Twitterja (Jordan 2010) . Kakšne dokaze bi si želeli videti, preden svoj denar v ta sklad?
[ ] Medtem ko so nekateri zagovorniki javnega zdravja toče e-cigarete kot učinkovita pomoč pri prenehanju kajenja, drugi opozarjajo o možnih tveganjih, kot so visoke gladine nikotina. Predstavljajte si, da raziskovalec odloči za študij na javno mnenje proti e-cigaret, ki jih zbira, povezanih z e-cigarete Twitter sporočil in izvajanje analize klime.
[ ] Novembra 2009 je Twitter spremenil vprašanje v polje tweet od "Kaj pa delaš?" V "Kaj se dogaja?« (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizirali 41,7 milijona uporabniških profilov, 1,47 milijarde družbene odnose, 4262 trending teme in 106 milijonov tweetov med 6. junijem in 31. junija 2009. Na podlagi te analize so sklenili, da je Twitter služi več kot nov medij izmenjavo informacij kot socialno omrežje.
[ ] "Retweets" se pogosto uporablja za merjenje vpliva in širjenja vpliva na Twitterju. Prvotno so imeli uporabniki kopirati in prilepiti tweet jim všeč, označite izvirnega avtorja z njegovo / njeno ročico in ročno vnesite "RT" pred tweet kar pomeni, da je to Retweet. Takrat, leta 2009 Twitter dodali gumb "Retweet". V juniju 2016, Twitter je omogočil uporabnikom, da tweetate svoje tweets (https://twitter.com/twitter/status/742749353689780224). Misliš, da te spremembe bi smela vplivati, kako uporabiti "retweets" v raziskave? Zakaj ali zakaj ne?
[ , , ] Michel et al. (2011) zgrajena korpusa nastaja iz Googlovega prizadevanjih za digitalizacijo knjig. S prvo različico korpusa, ki je izšla leta 2009 in je vsebovalo več kot 5 milijonov digitaliziranih knjig, avtorji analizirali pogostnost rabe besed, da razišče jezikovnih sprememb in kulturnih trendov. Kmalu Google Books Corpus postal priljubljen vir podatkov za raziskovalce, in 2. različica zbirke podatkov je izšel leta 2012.
Vendar Pechenick, Danforth, and Dodds (2015) je opozoril, da morajo raziskovalci v celoti označujejo postopek vzorčenja korpusa, preden jo uporabljajo za pripravo splošne sklepe. Glavna težava je, da je korpus knjižnica podobno, ki vsebujejo eno od vsake knjige. Kot rezultat, posameznika, plodovit avtor je lahko opazno vstaviti nove besedne zveze v leksikon Google Books. Poleg tega, znanstvenih besedil predstavljajo bolj vsebinski del korpusa vsej 1900. Poleg tega se s primerjavo dveh različic angleških Fiction podatkovnih nizov na, Pechenick et al. bilo dokazano, da je bila nezadostna filtriranje uporablja pri izdelavi prva različica. Vse podatke, ki so potrebni za dejavnost, je na voljo tukaj: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) raziskuje, ali je razširjena javnosti o NSA nadzor / PRISM (tj Snowden razodetja), v juniju 2013, povezano z ostrim in nenadnega padca prometa na Wikipedia članke o temah, ki sprožajo pomisleke glede zasebnosti. Če je tako, bi ta sprememba v ravnanju biti v skladu s hlajenjem učinka, ki izhaja iz množični nadzor. Pristop Penney (2016) se včasih imenuje prekinjeno obliko čas serije in je povezana z pristopov v poglavju o približevanje poskuse iz opazovalnih podatkov (oddelek 2.4.3).
Da bi izbrali temo ključne besede, Penney iz seznama, ki ga ameriškega ministrstva za domovinsko varnost, ki se uporablja za sledenje in spremljanje socialnih medijev. Seznam DHS razvršča določene iskalne izraze v vrsti vprašanj, in sicer "zdravstveni problem", "varnost infrastrukture," in "proti terorizmu." Za študijske skupine, Penney uporabljajo oseminštirideset ključne besede, povezane z "terorizmu" (glej tabelo 8 Dodatek). Nato združijo Wikipedia pogled članek šteje vsak mesec za ustrezne oseminštirideset Wikipedia članke več kot trideset-dvomesečnem obdobju od začetka januarja 2012 do konca avgusta 2014. Da bi okrepili svojo trditev, je ustvaril tudi več primerjavo skupine po sledenje poglede članek o drugih temah.
Zdaj, boste za ponovitev in razširitev Penney (2016) . Vse surovi podatki, ki jih boste potrebovali za to dejavnost, je na voljo na Wikipediji (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Ali ga lahko dobite od R paketa wikipediatrend za (Meissner and Team 2016) . Ko pišete, svoje odzive, upoštevajte, ki je vir podatkov, ki jih uporabljajo. (Opomba: To isto dejavnost se pojavi tudi v poglavju 6)
[ ] Efrati (2016) poročila, ki temeljijo na zaupne informacije, ki so "skupna delitev" na Facebooku zmanjšala za približno 5,5% leta več kot leto "original delitev oddaja", medtem ko se je zmanjšalo za 21% letno več kot leto. Ta upad je bil še posebej akutna z uporabniki Facebook pod 30 let starosti. Poročilo pripisujejo upad dvema dejavnikoma. Ena je bila rast števila "prijateljev" ljudje imajo na Facebooku. Druga je, da je nekaj delitev dejavnost preusmerila na sporočila in konkurentom, kot Snapchat. Poročilo je razkrila tudi nekaj taktike Facebook so poskušali povečati izmenjavo, vključno News Feed algoritem poteg, ki omogočajo originalne objave bolj izrazit, kot tudi občasnih opomniki prvotnih uporabnikov objave "na ta dan" pred nekaj leti. Kakšne posledice, če sploh, se te ugotovitve raziskovalcev, ki želijo uporabljati Facebook kot vir podatkov?
[ ] Tumasjan et al. (2010) poročajo, da je delež tweets omenjajo politično stranko ujema delež glasov, ki jih stranka prejela v nemškem parlamentarnih volitvah leta 2009 (slika 2.9). Z drugimi besedami, se je izkazalo, da lahko uporabite Twitter napovedati volitve. V času študija je bila objavljena je zdelo zelo zanimivo, saj se je zdelo, da kažejo dragoceno uporabo za skupnega vira velikih podatkov.
Glede na slabe lastnosti velikih podatkov, vendar pa morate takoj biti skeptična do tega rezultata. Nemci so na Twitterju v letu 2009 je bilo kar ni reprezentativna skupina, in zagovorniki ene stranke lahko tweet o politiki bolj pogosto. Tako se zdi presenetljivo, da bi vse možne pristranskosti je, da si lahko predstavljate nekako izničijo. Dejansko se rezultati v Tumasjan et al. (2010) izkazalo, da je prelepo, da bi bilo res. V njihovem prispevku Tumasjan et al. (2010) šteje šest političnih strank: krščanski demokrati (CDU), krščanski Socialne demokrate (CSU), SPD, liberalci (FDP), levo (Die Linke), in stranko Zelenih (Grüne). Vendar pa je bil najbolj zgoraj navedeni nemška politična stranka na Twitterju takrat Pirate Party (Piraten), stranka, ki se bori ureditev vladne interneta. Ko je bila piratska stranka, vključenih v analizo, Twitter omenja postane strašno napovednik volilnih rezultatov (slika 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Kasneje so drugi raziskovalci po vsem svetu uporabljajo luksuznih metod, kot je uporaba analize klime razlikovati med pozitivnimi in negativnimi omenja strank-, da se izboljša sposobnost podatkov Twitter bi lahko napovedali vrsto različnih vrst volitev (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Takole Huberty (2015) povzel rezultate teh poskusov napovedujejo volitev:
"Vse znane napovedi metode, ki temeljijo na družbenih medijih ni uspelo, ko podvrženi zahtevam pravega volilnega napovedovanje prihodnost naprej. Zdi se, da zaradi osnovnih značilnosti socialnih medijev, namesto da metodoloških ali algoritmični težav Te napake. Skratka, socialni mediji ne, in verjetno nikoli ne bo, zagotavljajo stabilno, nepristranski, reprezentativno sliko volivcev; in udobje vzorci družbenih medijev nimajo dovolj podatkov, da se določi te težave naknadnega. "
Preberite nekaj raziskav, ki vodijo Huberty (2015) do tega zaključka, in napisati eno stran beležko političnega kandidata, ki opisuje, če in kako je treba Twitter uporabiti za napoved volitev.
[ ] Kakšna je razlika med sociolog in zgodovinar? Po Goldthorpe (1991) , je glavna razlika med sociolog in zgodovinar, je nadzor nad zbiranjem podatkov. Zgodovinarji so prisiljeni uporabljati relikvije ker lahko sociologi prilagoditi svoje zbiranje podatkov za posebne namene. Preberite Goldthorpe (1991) . Kako se razlika med sociologije in zgodovine, povezane z idejo Custommades in readymade?
[ ] Gradimo na prejšnje vprašanje, Goldthorpe (1991) narisal številne kritične odzive, vključno z enim od Nicky Hart (1994) , ki izpodbija Goldthorpe je predanost meri narejene podatkov. Da bi razjasnili morebitne omejitve prilagojenih podatkov, Hart opisal bogatejših Delavec projekt, veliko raziskavo za merjenje razmerja med družbenim razredom in glasovanju, ki je bila izvedena s Goldthorpe in sodelavci v sredini 1960. Kot bi lahko pričakovali od učenjaka, ki z omejenimi možnostmi zasnovan podatkov preko ugotovljenih podatkov, bogatejših Worker projekta zbrali podatke, ki so prilagojene za obravnavo pred kratkim predlagal teorijo o prihodnosti socialnega razreda v času povečanja življenjskega standarda. Ampak, Goldthorpe in kolegi nekako "pozabil", da zbira informacije o glasovalnem obnašanju žensk. Takole Nicky Hart (1994) povzetki celo epizodo:
". . . da [je] težko izogniti sklepu, da so ženske izpustimo, ker je to "po meri" nabor podatkov je omejena z paradigmatski logiko, ki je izključena žensko izkušnjo. Poganja ga teoretično vizijo razredne zavesti in delovanja kot moških preokupacij. . . , Goldthorpe in njegovi kolegi zgradili niz empiričnih dokazov, ki jih hranili in namesto negovanih svoje teoretične predpostavke, da jih izpostavi veljavno preizkus ustreznosti. "
Hart nadaljeval:
"Empirične ugotovitve bogatejših delavcev projekta nam poveste več o masculinist vrednosti sociologije sredine stoletja, kot so obveščanje procese stratifikacije, politike in materialnega življenja."
Lahko si misliš o drugih primerov, ko ima zbirka prilagojene podatke o pristranskosti zbiralca podatkov, vgrajeno v njej? Kako to primerjati z algoritmično zavajajočih? Kakšne posledice bi to imelo za takrat, ko naj bi raziskovalci uporabljajo readymade in ko bi morali uporabiti Custommades?
[ ] V tem poglavju sem nasprotju podatke, ki jih raziskovalci za raziskovalce s administrativnih evidenc, ki jih podjetja in vlade ustvarili zbrane. Nekateri ljudje imenujejo te administrativne evidence "našel podatke," ki jih nasprotju s "oblikovanih podatkov." Res je, da so administrativne evidence najdejo raziskovalci, so pa tudi zelo oblikovana. Na primer, sodobna tehnološka podjetja porabijo ogromno časa in sredstev za zbiranje in kurat svoje podatke. Tako so te administrativne evidence tako našel in zasnovana, je samo odvisno od vaše perspektive (Slika 2.10).
So primer podatkovnega vira, kjer jo vidijo tako, kot je ugotovljeno in oblikovan v pomoč pri uporabi, da je vir podatkov za raziskave.
[ ] V premišljen eseju, Christian Sandvig in Eszter Hargittai (2015) opisuje dve vrsti digitalnih raziskav, kjer je digitalni sistem "instrument" ali "predmet študija." Primer prve vrste študija je, če Bengtsson in sodelavci (2011) uporabila podatke mobilni telefon, da bi spremljali migracije po potresu na Haitiju leta 2010. primer druge vrste je, če Jensen (2007) študije, kako uvedba mobilnih telefonov po vsem Kerala, Indija vplivali na delovanje trga za ribe. To se mi zdi koristno, saj pojasnjuje, da ima lahko študije, ki uporabljajo digitalne podatkovne vire povsem različne cilje, čeprav so z isto vrsto vira podatkov. Da bi še bolj razjasnili to razliko, opisujejo štiri študije, ki ste jih videli: dva, ki uporabljajo digitalni sistem kot instrument, in dva, ki uporabljajo digitalni sistem, kot predmet študija. Lahko uporabite primere iz tega poglavja, če želite.