Mga Aktibidad

  • antas ng kahirapan: madali madali , daluyan daluyan , mahirap mahirap , napakahirap napakahirap
  • nangangailangan ng matematika ( nangangailangan ng matematika )
  • nangangailangan ng coding ( nangangailangan ng coding )
  • pagkolekta ng data ( pagkolekta ng data )
  • ang aking mga paborito ( Paborito ko )
  1. [ daluyan , Paborito ko Ang algorithmic confounding ay isang problema sa Google Flu Trends. Basahin ang papel ni Lazer et al. (2014) , at magsulat ng isang maikling, malinaw na email sa isang engineer sa Google na nagpapaliwanag ng problema at nag-aalok ng ideya kung paano ayusin ito.

  2. [ daluyan ] Bollen, Mao, and Zeng (2011) na ang data mula sa Twitter ay maaaring gamitin upang mahulaan ang pamilihan ng sapi. Ang paghahanap na ito ay humantong sa paglikha ng isang hedge fund-Derwent Capital Markets-upang mamuhunan sa stock market batay sa data na nakolekta mula sa Twitter (Jordan 2010) . Anong katibayan ang nais mong makita bago ilagay ang iyong pera sa pondong iyon?

  3. [ madali ] Habang itinuturing ng ilang tagapagtaguyod ng pampublikong kalusugan ang mga e-cigarette isang epektibong tulong para sa pagtigil sa paninigarilyo, ang iba ay nagbababala tungkol sa posibleng mga panganib, tulad ng mataas na antas ng nikotina. Isipin na ang isang mananaliksik ay nagpasiya na pag-aralan ang opinyon ng publiko patungo sa mga e-cigarette sa pamamagitan ng pagkolekta ng mga post sa Twitter na may kaugnayan sa e-cigarette at pagsasagawa ng pagtatasa ng damdamin.

    1. Ano ang tatlong posibleng biases na pinakabahala sa iyo sa pag-aaral na ito?
    2. Clark et al. (2016) tumakbo tulad ng isang pag-aaral. Una, nakolekta nila ang 850,000 na tweet na ginamit ang mga keyword na may kaugnayan sa sigarilyo mula Enero 2012 hanggang Disyembre 2014. Sa mas malapit na inspeksyon, natanto nila na marami sa mga tweet na ito ay awtomatiko (ibig sabihin, hindi ginawa ng mga tao) at marami sa mga awtomatikong tweet na ito ay mahalagang mga patalastas. Nakagawa sila ng algorithm ng pagtuklas ng tao upang paghiwalayin ang mga awtomatikong tweet mula sa mga organic na tweet. Gamit ang human detect algorithm na ito nakita nila na ang 80% ng mga tweet ay awtomatiko. Binabago ba ng paghahanap na ito ang iyong sagot sa bahagi (a)?
    3. Kapag inihambing nila ang damdamin sa organic at automated na mga tweet, natagpuan nila na ang mga automated na tweet ay mas positibo kaysa sa mga organic na tweet (6.17 kumpara sa 5.84). Binabago ba ng paghahanap na ito ang iyong sagot sa (b)?
  4. [ madali ] Noong Nobyembre 2009, binago ng Twitter ang tanong sa tweet box mula sa "Ano ang ginagawa mo?" Sa "Ano ang nangyayari?" (Https://blog.twitter.com/2009/whats-happening).

    1. Sa palagay mo, paano maaapektuhan ng pagbabago ng mga senyales kung sino ang mga tweet at / o kung ano ang kanilang tweet?
    2. Pangalanan ang isang proyekto sa pananaliksik kung saan mas gusto mo ang prompt "Ano ang ginagawa mo?" Ipaliwanag kung bakit.
    3. Pangalanan ang isang proyekto sa pananaliksik kung saan mas gusto mo ang prompt "Ano ang nangyayari?" Ipaliwanag kung bakit.
  5. [ madali ] Ang "Retweets" ay madalas na ginagamit upang sukatin ang impluwensiya at pagkalat ng impluwensiya sa Twitter. Sa una, ang mga gumagamit ay kailangang kopyahin at i-paste ang tweet na nagustuhan nila, i-tag ang orihinal na may-akda sa kanyang hawakan, at manu-manong i-type ang "RT" bago ang tweet upang ipahiwatig na ito ay isang retweet. Pagkatapos, noong 2009, nagdagdag ang Twitter ng "retweet" na buton. Noong Hunyo 2016, ginawang posible ng Twitter ang mga user na i-retweet ang kanilang sariling mga tweet (https://twitter.com/twitter/status/742749353689780224). Sa palagay mo ay dapat na makaapekto ang mga pagbabagong ito kung paano mo ginagamit ang "pag-retweet" sa iyong pananaliksik? Bakit o bakit hindi?

  6. [ napakahirap , pagkolekta ng data , nangangailangan ng coding , Paborito ko ] Sa isang malawakang tinalakay na papel, sinuri ni Michel at mga kasamahan (2011) ang nilalaman ng higit sa limang milyong digital na aklat sa pagtatangkang kilalanin ang mga pang-matagalang kultural na mga uso. Ang data na ginamit nila ay inilabas na ngayon bilang dataset ng Google NGrams, at sa gayon maaari naming gamitin ang data upang magtiklop at pahabain ang ilan sa kanilang trabaho.

    Sa isa sa maraming mga resulta sa papel, sinabi ni Michel at mga kasamahan na nalilimutan natin nang mas mabilis at mas mabilis. Para sa isang partikular na taon, sabihin ang "1883," kinakalkula nila ang proporsiyon ng 1-gramo na inilathala sa bawat taon sa pagitan ng 1875 at 1975 na "1883". Nagtapos sila na ang proporsiyon na ito ay isang sukatan ng interes sa mga pangyayari na nangyari sa taong iyon. Sa kanilang figure 3a, nagplano sila ng mga trajectory ng paggamit sa loob ng tatlong taon: 1883, 1910, at 1950. Ang tatlong taon na ito ay nagbahagi ng isang pangkaraniwang pattern: maliit na paggamit bago ang taong iyon, pagkatapos ay isang spike, pagkatapos pagkabulok. Susunod, upang mabilang ang rate ng pagkabulok para sa bawat taon, kinita ni Michel at kasamahan ang "kalahating-buhay" ng bawat taon para sa lahat ng taon sa pagitan ng 1875 at 1975. Sa kanilang figure 3a (inset), ipinakita nila na ang kalahating buhay ng bawat isa taon ay bumababa, at pinagtatalunan nila na nangangahulugan ito na nalilimutan natin ang nakaraan nang mas mabilis at mas mabilis. Ginamit nila ang Bersyon 1 ng corpus na wikang Ingles, ngunit sa dakong huli ay naglabas ang Google ng ikalawang bersyon ng corpus. Pakibasa ang lahat ng mga bahagi ng tanong bago mo simulan ang coding.

    Ang aktibidad na ito ay magbibigay sa iyo ng pagsusulat ng reusable code, interpreting results, at data wrangling (tulad ng pagtatrabaho sa mga awkward file at paghawak ng nawawalang data). Ang aktibidad na ito ay makakatulong din sa iyo upang makakuha ng up at tumatakbo sa isang mayaman at kawili-wiling dataset.

    1. Kunin ang raw na data mula sa website ng Google Books NGram Viewer. Sa partikular, dapat mong gamitin ang bersyon 2 ng corpus na wikang Ingles, na inilabas noong Hulyo 1, 2012. Hindi naka-compress, ang file na ito ay 1.4GB.

    2. Muling likhain ang pangunahing bahagi ng tayahin 3a ng Michel et al. (2011) . Upang muling likhain ang figure na ito, kakailanganin mo ang dalawang file: ang iyong na-download sa bahagi (a) at ang "kabuuang bilang" na file, na maaari mong gamitin upang i-convert ang mga raw na bilang sa mga sukat. Tandaan na ang kabuuang bilang ng file ay may isang istraktura na maaaring gawin itong medyo mahirap basahin. Ang bersyon 2 ng data NGram ay gumagawa ng mga katulad na resulta sa mga iniharap sa Michel et al. (2011) , na batay sa bersyon 1 na data?

    3. Ngayon suriin ang iyong graph laban sa graph na nilikha ng NGram Viewer.

    4. I-recreate ang figure 3a (pangunahing figure), ngunit palitan ang \(y\) -axis upang maging raw na bilang ng pagbanggit (hindi ang rate ng pagbanggit).

    5. Ang pagkakaiba sa pagitan ng (b) at (d) ay humahantong sa iyo upang muling suriin ang anuman sa mga resulta ng Michel et al. (2011). Bakit o bakit hindi?

    6. Ngayon, gamit ang proporsyon ng mga mentions, ginagaya ang inset ng figure 3a. Iyon ay, para sa bawat taon sa pagitan ng 1875 at 1975, kalkulahin ang kalahating-buhay ng taong iyon. Ang kalahating-buhay ay tinukoy bilang ang bilang ng mga taon na pumasa bago ang proporsyon ng mga pagbanggit ay umabot sa kalahati ng pinakamataas na halaga nito. Tandaan na ang Michel et al. (2011) gumawa ng isang bagay na mas kumplikado upang tantyahin ang kalahating buhay-tingnan ang seksyon III.6 ng Suportang Impormasyon sa Online-ngunit inaangkin nila na ang parehong mga diskarte ay gumawa ng katulad na mga resulta. Ang bersyon 2 ng data NGram ay gumawa ng katulad na mga resulta sa mga iniharap sa Michel et al. (2011) , na batay sa bersyon 1 na data? (Pahiwatig: Huwag magulat kung hindi.)

    7. Nagkaroon ba ng mga taon na naging masyado tulad ng mga taon na nalimutan lalo na nang mabilis o partikular na dahan-dahan? Bigyang-sigla ang tungkol sa posibleng mga dahilan para sa pattern na iyon at ipaliwanag kung paano mo nakilala ang mga outliers.

    8. Ngayon ginagaya ang resulta na ito para sa bersyon 2 ng data NGrams sa Chinese, French, German, Hebrew, Italian, Russian at Spanish.

    9. Ang paghahambing sa lahat ng mga wika, ay may anumang mga taon na ang mga outliers, tulad ng mga taon na nakalimutan lalo na mabilis o lalo na dahan-dahan? Mag-isip-isip kaagad tungkol sa mga posibleng dahilan para sa na pattern.

  7. [ napakahirap , pagkolekta ng data , nangangailangan ng coding , Paborito ko ] Ang Penney (2016) kung ang malawak na publisidad tungkol sa NSA / PRISM surveillance (ibig sabihin, ang mga pahayag ng Snowden) noong Hunyo 2013 ay nauugnay sa isang matalim at biglaang pagbawas sa trapiko sa mga artikulo sa Wikipedia tungkol sa mga paksa na nagtataas ng mga alalahanin sa privacy. Kung gayon, ang pagbabagong ito sa pag-uugali ay pare-pareho sa isang nakagiginhawang epekto na nagreresulta mula sa mass surveillance. Ang diskarte ng Penney (2016) ay paminsan-minsan ay tinatawag na isang naputol na disenyo ng serye ng oras , at ito ay may kaugnayan sa mga pamamaraang inilarawan sa seksyon 2.4.3.

    Upang piliin ang mga keyword na paksa, tinutukoy ni Penney ang listahan na ginamit ng Kagawaran ng Homeland Security ng US para sa pagsubaybay at pagmamanman ng social media. Ang listahan ng DHS ay naglalaman ng mga tiyak na mga termino sa paghahanap sa iba't ibang mga isyu, ibig sabihin, "Health Concern," "Infrastructure Security," at "Terrorism." Para sa grupong pag-aaral, ginamit ni Penney ang 48 keyword na may kaugnayan sa "Terorismo" (tingnan ang appendix table 8 ). Pagkatapos ay pinagsama niya ang bilang ng artikulo sa artikulo sa Wikipedia sa isang buwanang batayan para sa nararapat na 48 na artikulo sa Wikipedia sa loob ng 32 na buwan na panahon, mula sa simula ng Enero 2012 hanggang sa katapusan ng Agosto 2014. Upang palakasin ang kanyang argumento, gumawa rin siya ng ilang mga grupo ng paghahambing sa pamamagitan ng pagsubaybay view ng artikulo sa iba pang mga paksa.

    Ngayon, pupunta ka na sa pagtatapos at pagpapalawak ng Penney (2016) . Ang lahat ng mga raw data na kakailanganin mo para sa aktibidad na ito ay magagamit mula sa Wikipedia. O maaari mo itong makuha mula sa R-package wikipediatrend (Meissner and R Core Team 2016) . Kapag isinulat mo ang iyong mga sagot, mangyaring tandaan kung aling pinagmulan ng data ang iyong ginamit. (Tandaan na ang parehong aktibidad na ito ay lumilitaw din sa kabanata 6.) Ang aktibidad na ito ay magbibigay sa iyo ng kasanayan sa data na pag-uugali at pag-iisip tungkol sa mga likas na eksperimento sa mga malalaking data source. Dadalhin ka rin nito at tumatakbo sa isang potensyal na kagiliw-giliw na pinagmulan ng data para sa mga proyekto sa hinaharap.

    1. Basahin ang Penney (2016) at kopyahin ang kanyang figure 2 na nagpapakita ng mga pagtingin sa pahina para sa mga pahina ng "Terorismo" na nauugnay bago at pagkatapos ng mga pahayag ng Snowden. I-translate ang mga natuklasan.
    2. Susunod, magtiklop ang figure 4A, na naghahambing sa grupo ng pag-aaral (mga artikulo ng "terorismo") na may isang grupo ng comparator gamit ang mga keyword na nakategorya sa ilalim ng "DHS & Other Agencies" mula sa listahan ng DHS (tingnan ang appendix table 10 at footnote 139). I-translate ang mga natuklasan.
    3. Sa bahagi (b) inihambing mo ang grupo ng pag-aaral sa isang grupo ng comparator. Si Penney ay inihambing sa dalawang iba pang mga grupo ng comparator: Mga kaugnay na artikulo ng "Infrastructure Security" (appendix table 11) at tanyag na mga pahina ng Wikipedia (appendix table 12). Lumabas sa isang alternatibong grupo ng comparator, at subukan kung ang mga natuklasan mula sa bahagi (b) ay sensitibo sa iyong pagpili ng grupo ng comparator. Aling pagpili ang pinaka-akalain? Bakit?
    4. Sinabi ni Penney na ang mga keyword na may kaugnayan sa "Terorismo" ay ginagamit upang piliin ang mga artikulong Wikipedia dahil ang US na pamahalaan ay binanggit ang terorismo bilang isang pangunahing dahilan para sa mga online na mga kasanayan sa pagmamatyagan. Bilang isang tseke ng mga 48 na keyword na may kaugnayan sa "terorismo", si Penney (2016) ay nagsagawa rin ng isang survey sa MTurk, na humihiling sa mga respondent na i-rate ang bawat isa sa mga keyword sa mga tuntunin ng Problema sa Gobyerno, Privacy-Sensitibo, at Pag-iwas (appendix table 7 and 8 ). Repasuhin ang survey sa MTurk at ihambing ang iyong mga resulta.
    5. Batay sa mga resulta sa bahagi (d) at sa iyong pagbabasa ng artikulo, sumasang-ayon ka ba sa pagpili ng mga keyword na paksa ni Penney sa grupo ng pag-aaral? Bakit o bakit hindi? Kung hindi, ano ang sasabihin mo sa halip?
  8. [ madali Efrati (2016) , batay sa kumpidensyal na impormasyon, ang "kabuuang pagbabahagi" sa Facebook ay tinanggihan ng tungkol sa 5.5% taon sa paglipas ng taon habang ang "orihinal na pagbabahagi ng broadcast" ay bumaba ng 21% taon sa taon. Ang pagtanggi na ito ay partikular na talamak sa mga gumagamit ng Facebook sa ilalim ng 30 taong gulang. Ang ulat ay nagpapahiwatig ng pagtanggi sa dalawang mga kadahilanan. Ang isa ay ang paglago sa bilang ng mga "kaibigan" sa mga tao sa Facebook. Ang iba pa ay na ang ilang aktibidad ng pagbabahagi ay lumipat sa messaging at sa mga katunggali tulad ng Snapchat. Inihayag din ng ulat ang ilang mga taktika na sinubukan ng Facebook na palakasin ang pagbabahagi, kasama ang mga pag-aayos ng algorithm ng News Feed na gumawa ng mga orihinal na post na mas kilalang, pati na rin ang mga pana-panahong paalala ng mga orihinal na post sa tampok na "Sa Araw na Ito." Anong mga implikasyon, kung mayroon man, gawin ang mga natuklasan na ito para sa mga mananaliksik na gustong gamitin ang Facebook bilang pinagmulan ng data?

  9. [ daluyan ] Ano ang pagkakaiba ng isang sociologist at isang mananaysay? Ayon sa Goldthorpe (1991) , ang pangunahing kaibahan ay kontrol sa pagkolekta ng data. Ang mga istoryador ay napipilitang gumamit ng labi, samantalang ang mga sociologist ay maaaring mag-ayos ng kanilang pagkolekta ng data sa mga partikular na layunin. Basahin ang Goldthorpe (1991) . Paano naiiba ang pagkakaiba ng sosyolohiya at kasaysayan sa ideya ng mga pasadya at mga readymade?

  10. [ mahirap ] Bumubuo ito sa nakaraang quesiton. Goldthorpe (1991) nagbigay ng ilang mga kritikal na tugon, kabilang ang isa mula sa Nicky Hart (1994) na hinamon ang debosyon ni Goldthorpe upang makapag-ayos ng data. Upang linawin ang mga potensyal na limitasyon ng mga tailor-made na data, inilarawan ni Hart ang Affluent Worker Project, isang malaking survey upang masukat ang relasyon sa pagitan ng social class at pagboto na isinagawa ng Goldthorpe at mga kasamahan sa kalagitnaan ng 1960s. Tulad ng maaaring asahan mula sa isang scholar na pinapaboran ang dinisenyo na data sa ibabaw ng natagpuang data, ang nakikinabang na Proyekto ng Manggagawa ay nakolekta ang data na iniayon upang tugunan ang isang kamakailang iminungkahing teorya tungkol sa hinaharap ng panlipunang klase sa isang panahon ng pagtaas ng mga pamantayan sa pamumuhay. Ngunit, ang Goldthorpe at mga kasamahan sa paanuman ay "nakalimutan" upang mangolekta ng impormasyon tungkol sa pag-uugali ng pagboto ng kababaihan. Narito kung paano inuulat ni Nicky Hart (1994) ang buong episode:

    "... Mahirap na maiwasan ang konklusyon na ang mga kababaihan ay tinanggal dahil ang 'sastre na ginawa' ng dataset ay nakakulong sa isang paradigmatic na lohika na hindi kasama sa karanasan ng babae. Pinangunahan ng isang panteorya na pangitain ng kamalayan ng klase at pagkilos bilang mga lalaking abala ..., si Goldthorpe at ang kanyang mga kasamahan ay nagtayo ng isang hanay ng mga empirical na katibayan na nagpapakain at nagtanim ng kanilang sariling mga teoretikal na pagpapalagay sa halip na ilantad ang mga ito sa wastong pagsusulit ng kasapatan. "

    Nagpatuloy si Hart:

    "Ang mga natuklasan sa empirical ng Proyekto ng Malaking Manggagawa ay nagsasabi sa atin nang higit pa tungkol sa mga masculinistang halaga ng sosyolohiya sa kalagitnaan ng siglo kaysa ipagbigay-alam nila ang mga proseso ng pagsasapin-sapin, pulitika at materyal na buhay."

    Maaari ba kayong mag-isip ng iba pang mga halimbawa kung saan ang nakalaang pagkolekta ng data ay may mga biases ng data collector na binuo dito? Paano ito kumpara sa algorithmic confounding? Anong mga implikasyon ang maaaring mayroon ito kapag dapat gamitin ng mga mananaliksik ang mga readymade at kapag dapat nilang gamitin ang mga custommade?

  11. [ daluyan ] Sa kabanatang ito, naiiba ko ang data na nakolekta ng mga mananaliksik para sa mga mananaliksik na may mga talaan ng pamamahala na nilikha ng mga kumpanya at pamahalaan. Ang ilang mga tao ay tumawag sa mga talaan ng administratibong ito na "natagpuan ang data," kung saan naiiba ang mga ito sa "dinisenyo na data." Totoo na ang mga rekord ng pangangasiwa ay natagpuan ng mga mananaliksik, ngunit ang mga ito ay dinisenyo din. Halimbawa, ang mga modernong kompanya ng tech ay nagtatrabaho nang napakahirap upang kolektahin at ituturing ang kanilang data. Kaya, ang mga talaan ng pangangasiwa na ito ay parehong natagpuan at dinisenyo, depende lamang ito sa iyong pananaw (figure 2.12).

    Figure 2.12: Ang larawan ay parehong isang pato at isang kuneho; ang nakikita mo ay nakasalalay sa iyong pananaw. Ang mga pinagmulan ng malaking data ay parehong natagpuan at dinisenyo; muli, ang nakikita mo ay depende sa iyong pananaw. Halimbawa, ang mga talaan ng data ng tawag na kinokolekta ng isang kumpanya ng mobile-phone ay natagpuan ang data mula sa pananaw ng isang mananaliksik. Ngunit, ang mga eksaktong parehong mga rekord ay dinisenyo ng data mula sa pananaw ng isang taong nagtatrabaho sa departamento ng pagsingil ng kumpanya ng telepono. Pinagmulan: Popular Science Monthly (1899) / Wikimedia Commons.

    Figure 2.12: Ang larawan ay parehong isang pato at isang kuneho; ang nakikita mo ay nakasalalay sa iyong pananaw. Ang mga pinagmulan ng malaking data ay parehong natagpuan at dinisenyo; muli, ang nakikita mo ay depende sa iyong pananaw. Halimbawa, ang mga talaan ng data ng tawag na kinokolekta ng isang kumpanya ng mobile-phone ay natagpuan ang data mula sa pananaw ng isang mananaliksik. Ngunit, ang mga eksaktong parehong mga rekord ay dinisenyo ng data mula sa pananaw ng isang taong nagtatrabaho sa departamento ng pagsingil ng kumpanya ng telepono. Pinagmulan: Popular Science Monthly (1899) / Wikimedia Commons .

    Magbigay ng isang halimbawa ng pinagmulan ng data kung saan nakakakita ito kapwa bilang natagpuan at dinisenyo ay kapaki-pakinabang kapag ginagamit ang pinagmulan ng data para sa pananaliksik.

  12. [ madali Sa isang maalab na sanaysay, hinati ni Christian Sandvig at Eszter Hargittai (2015) digital na pananaliksik sa dalawang malawak na kategorya depende sa kung ang digital na sistema ay isang "instrumento" o "object of study." Isang halimbawa ng unang uri-kung saan ang sistema ay isang instrumento-ang pananaliksik ni Bengtsson at mga kasamahan (2011) sa paggamit ng data ng mobile-phone upang subaybayan ang migration matapos ang lindol sa Haiti noong 2010. Isang halimbawa ng ikalawang uri-kung saan ang sistema ay isang bagay ng pag-aaral-ay pananaliksik ni Jensen (2007) kung paano ang pagpapakilala ng mga mobile phone sa buong Kerala, India ay naapektuhan ang paggana ng merkado para sa isda. Nakikita ko ang pagkakaiba na ito na nakakatulong dahil tinutukoy nito na ang mga pag-aaral na gumagamit ng mga digital na mapagkukunan ng data ay maaaring magkaroon ng iba't ibang mga layunin kahit na ginagamit nila ang parehong uri ng pinagmulan ng data. Upang higit pang linawin ang pagkakaiba, ilarawan ang apat na pag-aaral na iyong nakita: dalawa na gumagamit ng isang digital na sistema bilang isang instrumento at dalawa na gumagamit ng isang digital na sistema bilang isang bagay ng pag-aaral. Maaari mong gamitin ang mga halimbawa mula sa kabanatang ito kung gusto mo.