key:
[ , ] Algorithmic confounding ng problema sa Google Flu Trends. Basahin ang papel sa pamamagitan ng Lazer et al. (2014) , at magsulat ng isang maikling, malinaw email sa isang engineer sa Google nagpapaliwanag ng problema at nag-aalok ng isang ideya ng kung paano upang ayusin ang problema.
[ ] Bollen, Mao, and Zeng (2011) claims na data mula sa Twitter ay maaaring gamitin upang mahulaan ang stock market. Paghahanap ng mga ito ang humantong sa paglikha ng isang halamang-bakod pondo-Derwent Capital Markets-to mamuhunan sa stock market batay sa data na nakolekta mula sa Twitter (Jordan 2010) . Ano ang katibayan ay iyong gusto upang makita ang bago paglalagay ng iyong pera sa pondong iyon?
[ ] Habang ang ilang mga tagapagtaguyod ng pampublikong kalusugan ulang may yelo e-cigarette bilang isang epektibong aid para sa pagtigil sa paninigarilyo, ang iba balaan tungkol sa mga potensyal na mga panganib, tulad ng mga high-antas ng nikotina. Isipin na ang isang researcher ay nagpasiya upang pag-aralan ng pampublikong opinyon patungo e-sigarilyo sa pamamagitan ng pagkolekta e-cigarette na may kinalaman sa mga post sa Twitter at pagsasagawa damdamin analysis.
[ ] Noong Nobyembre 2009, Twitter nagbago ang tanong sa tweet na kahon mula sa "Ano ang ginagawa mo?" Sa "Ano ang nangyayari?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) pinag-aralan ng 41.7 milyong mga profile ng gumagamit, 1.47 billion panlipunang mga relasyon, 4262 trending topics, at 106 milyong mga tweet sa pagitan ng Hunyo ika-6 at June 31, 2009. Batay sa pagtatasa sila concluded na Twitter naglilingkod sa higit bilang isang bagong daluyan ng pagbabahagi ng impormasyon sa isang social network.
[ ] "Retweet" ay madalas na ginagamit upang masukat ang impluwensiya at pagkalat ng impluwensiya sa Twitter. Sa una, ang mga gumagamit ay may upang kopyahin at i-paste ang tweet nagustuhan nila, i-tag ng orihinal na manunulat sa kanyang / kanyang hawakan, at mano-manong i-type "RT" bago ang tweet upang ipahiwatig na ito ay isang retweet. Pagkatapos, noong 2009 Twitter nagdagdag ng "retweet" button. Noong Hunyo 2016, Twitter ginawa ito posible para sa mga gumagamit sa retweet kanilang sariling mga tweet (https://twitter.com/twitter/status/742749353689780224). Sa tingin ba ninyo ang mga pagbabagong ito ay dapat makaapekto sa kung paano gumamit ka ng "retweet" sa iyong pananaliksik? Bakit o bakit hindi?
[ , , ] Michel et al. (2011) na itinayo ng isang corpus umuusbong mula pagsisikap ng Google upang i-digitize libro. Gamit ang unang bersyon ng corpus, na kung saan ay nai-publish sa 2009 at nakapaloob higit sa 5 milyong Digitized libro, mga may-akda aralan na paggamit ng salita dalas upang siyasatin linguistic pagbabago at kultural na mga trend. Hindi magtatagal ang Google Books Corpus naging isang popular na pinagmulan ng data para sa mga mananaliksik, at isang ika-2 bersyon ng database ay inilabas noong 2012.
Gayunman, Pechenick, Danforth, and Dodds (2015) binigyan ng babala na ang mga mananaliksik na kailangan upang ganap na makilala ang sampling proseso ng corpus bago gamitin ito para sa pagguhit ng malawak na pagpapalagay. Ang pangunahing isyu ay na ang corpus ay library-like, na naglalaman ng isa ng bawat libro. Bilang isang resulta, ang isang indibidwal, maraming mag-anak may-akda ay may kakayahan upang kapansin-pansing magpasok ng mga bagong parirala sa lexicon Google Books. Bukod dito, pang-agham mga teksto ay bumubuo ng isang increasingly mahalagang bahagi ng corpus sa buong 1900s. Sa karagdagan, sa pamamagitan ng paghahambing ng dalawang bersyon ng English Fiction dataset, Pechenick et al. natagpuan na katibayan na hindi sapat na pag-filter ay ginagamit sa paggawa ng mga unang bersyon. Ang lahat ng mga data na kailangan para sa aktibidad ay makukuha dito: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explores kung ang kalat na kalat publisidad tungkol NSA / PRISM surveillance (ie, ang Snowden revelations) sa Hunyo 2013 ay nauugnay sa isang matalim at biglaang pagbaba sa trapiko sa mga artikulo sa Wikipedia sa mga paksa na itaas ang mga alalahanin sa privacy. Kung gayon, ang pagbabagong ito sa pag-uugali ay magiging pare-pareho sa isang chilling effect na nagreresulta mula sa mass surveillance. Ang diskarte ng Penney (2016) ay minsang tinatawag ng naputol na disenyo ng oras serye at ay may kaugnayan sa mga pamamaraang sa kabanata tungkol sa approximating eksperimento mula obserbasyonal data (Section 2.4.3).
Upang piliin ang mga keyword topic, Penney tinutukoy sa listahan na ginagamit ng US Department of Homeland Security para sa pagsubaybay at pagsubaybay sa social media. Ang listahan DHS categorizes ilang termino para sa paghahanap sa isang hanay ng mga isyu, ie "Health Concern," "Infrastructure Security," at "Terorismo." Para sa grupong pag-aaral, Penney ginamit ang apatnapu't walong mga keyword na may kaugnayan sa "Terorismo" (tingnan ang Table 8 Appendix). Siya at pagkatapos ay pinagsama-sama Wikipedia article mga bilang ng view sa isang buwanang batayan para sa kaukulang apatnapu't walong mga artikulo sa Wikipedia sa loob ng isang tatlong pu't dalawang buwan na panahon, mula sa simula ng Enero 2012 hanggang sa katapusan ng Agosto 2014. Upang palakasin ang kanyang argument, siya din ay gumawa ng ilang mga paghahambing grupo sa pamamagitan ng pagsubaybay views artikulo sa iba pang mga paksa.
Ngayon, ikaw ay pagpunta upang magtiklop at palawigin Penney (2016) . Ang lahat ng mga raw data na kailangan mo para sa aktibidad na ito ay magagamit mula sa Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). O maaari kang makakuha ng ito mula sa R package wikipediatrend (Meissner and Team 2016) . Kapag nagsulat ka-up ang iyong mga tugon, pakitandaan na pinagmulan ng data na ginamit mo. (Tandaan: Ang parehong aktibidad din ay lilitaw sa Kabanata 6)
[ ] Efrati (2016) ulat, batay sa mga lihim na impormasyon, na "total sharing" sa Facebook ay tinanggihan sa pamamagitan ng tungkol sa 5.5% taon sa paglipas ng taon habang "original broadcast sharing" ay down 21% taon sa paglipas ng taon. Pagtanggi na ito ay lalo na talamak sa mga gumagamit ng Facebook sa ilalim ng 30 taong gulang. Ang ulat ay maiugnay sa pag-decline sa dalawang mga kadahilanan. Ang isa ay ang paglago sa bilang ng mga "kaibigan" mga tao ay may sa Facebook. Ang iba pang ay na ang ilang mga aktibidad sa pagbabahagi ay shifted sa messaging at sa mga kakumpitensya tulad ng SnapChat. Ang ulat na din nagsiwalat ng ilang mga taktika Facebook had tried upang mapalakas sharing, kabilang ang News Feed algorithm tweaks na gumawa ng orihinal na mga post mas kilalang, pati na rin ang periodical paalala ng orihinal na mga gumagamit post "On This Day" ng ilang taon na ang nakakaraan. Ano implikasyon, kung mayroon man, ay ang mga natuklasan ay may para sa mga mananaliksik na nais na gamitin ang Facebook bilang isang pinagmulan ng data?
[ ] Tumasjan et al. (2010) iniulat na proporsyon ng mga tweet mentioning isang partidong pampulitika tumugma ang bahagdan ng mga boto ng partido natanggap sa German parlyamentaryo halalan sa 2009 (Figure 2.9). Sa ibang salita, ito ay lumitaw na maaari mong gamitin ang Twitter upang mahulaan ang halalan. Sa panahon ng pag-aaral na ito ay nai-publish ito ay itinuturing na lubhang kapana-panabik dahil ito tila sa iminumungkahi ng isang mahalagang paggamit para sa isang pangkaraniwang mapagkukunan ng malaking data.
Dahil sa masamang mga tampok ng malaking data, gayunpaman, ikaw ay dapat na agad na pag-aalinlangan ng ang resultang ito. Germans sa Twitter noong 2009 ay ganap ng isang non-kinatawan group, at mga tagasuporta ng isang partido ay maaaring nag-tweet tungkol sa pulitika nang mas madalas. Kaya, tila kataka-taka na ang lahat ng posibleng biases na maaari mong isipin ay sa paanuman kanselahin out. Sa katunayan, ang mga resulta sa Tumasjan et al. (2010) ay naka-out na maging masyadong magandang upang maging totoo. Sa kanilang papel, Tumasjan et al. (2010) itinuturing anim partidong pampulitika: Christian Democrats (CDU), Christian Social Democrats (CSU), SPD, Liberals (FDP), Ang Kaliwa (Die Linke), at ang Green Party (Grüne). Gayunman, ang pinaka nabanggit German partidong pampulitika sa Twitter sa oras na iyon ay ang Pirate Party (Piraten), isang party na fights pamahalaan regulasyon ng Internet. Kapag ang Pirate Party ay kasama sa pag-aaral, Twitter mentions ay nagiging isang kahila-hilakbot na tagahula ng mga resulta ng halalan (Figure 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Sa dakong huli, iba pang mga mananaliksik sa buong mundo ay may ginagamit na may interes pamamaraan-tulad ng paggamit ng pagtatasa ng damdamin na makilala sa pagitan ng positibo at negatibong mentions ng mga partido-in upang mapabuti ang kakayahan ng Twitter data upang mahulaan ang isang iba't-ibang ng iba't ibang uri ng halalan (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Narito kung paano Huberty (2015) summarized ang mga resulta ng mga pagtatangka upang mahulaan halalan:
"Ang lahat na kilala pamamaraan forecasting batay sa mga social media ay nabigo kapag sumailalim sa ang mga pangangailangan ng tunay na pagtingin sa hinaharap electoral pagtataya. Mga pagkabigo lumalabas na dahil sa pangunahing katangian ng social media, sa halip na sa methodological o algorithmic kahirapan. Sa madaling salita, social media ay hindi, at marahil hindi kailanman ay, nag-aalok ng isang matatag, walang pinapanigan, kinatawan larawan ng mga manghahalal; at kaginhawaan halimbawa ng social media kakulangan ng sapat na data upang ayusin ang mga problemang ito post hoc. "
Basahin ang ilan sa mga pananaliksik na humantong Huberty (2015) sa konklusyon na, at magsulat ng isang isang pahina memo sa isang pampulitikang kandidato na naglalarawan kung at kung paano Twitter ay dapat gamitin upang mag-forecast elections.
[ ] Ano ang pagkakaiba sa pagitan ng isang sosyolohista at isang mananalaysay? Ayon sa Goldthorpe (1991) , ang pangunahing pagkakaiba sa pagitan ng isang sosyolohista at isang mananalaysay ay kontrol sa pangongolekta ng data. Historians ay pinilit na gamitin relics samantalang sociologists maaaring maiangkop ang kanilang data collection sa mga tiyak na mga layunin. Basahin Goldthorpe (1991) . Paano ay ang pagkakaiba sa pagitan ng sosyolohiya at kasaysayan na may kaugnayan sa ideya ng Custommades at Readymades?
[ ] Building sa naunang tanong, Goldthorpe (1991) ay nagkaroon ng bilang ng mga kritikal na mga tugon, kabilang ang isa mula Nicky Hart (1994) na hinamon ni Goldthorpe debosyon upang maiangkop ginawa data. Upang linawin ang mga potensyal na mga limitasyon ng payak data, Hart inilarawan ang mayaman Worker Project, ang isang malaking survey upang masukat ang relasyon sa pagitan ng panlipunan klase at pagboto na ay isinasagawa sa pamamagitan Goldthorpe at kasamahan sa kalagitnaan ng 1960s. Bilang isang maaaring asahan mula sa isang scholar na napaboran dinisenyo data sa paglipas natagpuan data, ang mayaman Worker Project nakolektang data na iniayon upang matugunan ang isang kamakailan-lamang na iminungkahi teorya tungkol sa hinaharap ng social class sa isang panahon ng pagtaas ng mga pamantayan ng pamumuhay. Ngunit, Goldthorpe at kasamahan sa paanuman "nakalimutan" upang mangolekta ng impormasyon tungkol sa pag-uugali ng pagboto ng mga kababaihan. Narito kung paano Nicky Hart (1994) buod ng buong episode:
". . . ito [ay] mahirap upang maiwasan ang konklusyon na ang mga kababaihan ay hindi naitala dahil ito 'tailor ginawa' dataset ay nakakulong sa pamamagitan ng isang paradigmatic lohika na ibinukod babae karanasan. Hinihimok sa pamamagitan ng isang manilay-nilay pananaw ng makauring kamulatan at pagkilos bilang lalaki preoccupations. . . , Goldthorpe at ang kanyang mga kasamahan na itinayo ng isang hanay ng mga empirical proofs na nagpakain at nurtured kanilang sariling panteorya pagpapalagay sa halip ng paglalantad ang mga ito sa isang wastong pagsubok ng kasapatan. "
Hart patuloy na:
"Ang empirical natuklasan ng mayaman Worker Project sabihin sa amin ang nalalaman tungkol sa masculinist halaga ng mid-century sosyolohiya kaysa ipaalam sa mga ito ay ang mga proseso ng pagsasapin-sapin, pulitika at materyal na buhay."
May naiisip ka bang iba pang mga halimbawa kung saan koleksyon payak data ay ang biases ng data kolektor binuo sa mga ito? Paano ito ihambing sa algorithmic confounding? Ano implikasyon ay maaaring ito ay may para sa kapag mananaliksik dapat gumamit Readymades at kung kailan dapat nilang gamitin Custommades?
[ ] Sa kabanatang ito, contrasted ko data na nakolekta ng mga mananaliksik para sa mga mananaliksik na may administrative records nilikha sa pamamagitan ng mga kumpanya at mga pamahalaan. Ang ilang mga tao tumawag sa mga administrative records "Natagpuan data," kung saan sila kaibahan sa "na idinisenyo data." Ito ay totoo na administrative mga talaan ay natagpuan sa pamamagitan ng mga mananaliksik, ngunit sila ay din mataas na naka-disenyo. Halimbawa, modernong tech kompanya ng gastusin malaking halaga ng oras at mga mapagkukunan upang mangolekta at koadhutor kanilang data. Kaya, ang mga administrative mga talaan ay parehong matatagpuan at dinisenyo, ito lamang ay depende sa iyong pananaw (Figure 2.10).
Magbigay ng isang halimbawa ng data source kung saan nakikita ito sa parehong bilang natagpuan at dinisenyo ay helpful kapag gumagamit na pinagmulan ng data para sa pananaliksik.
[ ] Sa isang nag-isip sanaysay, Christian Sandvig at Eszter Hargittai (2015) naglalarawan ng dalawang uri ng mga digital na pananaliksik, kung saan ang mga digital na sistema ay "instrumento" o "object ng pag-aaral." Ang isang halimbawa ng unang uri ng pag-aaral ay kung saan Bengtsson at kasamahan (2011) na ginagamit ng data ng mobile phone upang subaybayan ang migration pagkatapos ng lindol sa Haiti noong 2010. ang isang halimbawa ng ikalawang uri ay kung saan Jensen (2007) pag-aaral kung paano ang pagpapakilala ng mga mobile phone sa buong Kerala, Indya naapektuhan ang gumagana ng merkado para sa mga isda. Tingin ko ito helpful na ito sapagkat ito clarifies na pag-aaral gamit ang digital data sources ay maaaring magkaroon ng lubos na iba't ibang mga layunin kahit na sila ay gumagamit ng parehong uri ng data source. Upang karagdagang linawin ang pagkakaiba, ilarawan apat pag-aaral na iyong nakita: two na gumamit ng isang digital system bilang isang instrumento at dalawang na gumamit ng isang digital system bilang isang bagay ng pag-aaral. Maaari mong gamitin ang mga halimbawa mula sa kabanatang ito kung gusto mo.