Mga Aktibidad

key:

  • antas ng kahirapan: madali madali , medium medium , mahirap mahirap , napaka-hirap napaka-hirap
  • ay nangangailangan ng matematika ( ay nangangailangan ng math )
  • nangangailangan coding ( ay nangangailangan ng coding )
  • pagkolekta ng data ( pagkolekta ng data )
  • aking mga paborito ( Paborito ko )
  1. [ medium , Paborito ko ] Algorithmic confounding ng problema sa Google Flu Trends. Basahin ang papel sa pamamagitan ng Lazer et al. (2014) , at magsulat ng isang maikling, malinaw email sa isang engineer sa Google nagpapaliwanag ng problema at nag-aalok ng isang ideya ng kung paano upang ayusin ang problema.

  2. [ medium ] Bollen, Mao, and Zeng (2011) claims na data mula sa Twitter ay maaaring gamitin upang mahulaan ang stock market. Paghahanap ng mga ito ang humantong sa paglikha ng isang halamang-bakod pondo-Derwent Capital Markets-to mamuhunan sa stock market batay sa data na nakolekta mula sa Twitter (Jordan 2010) . Ano ang katibayan ay iyong gusto upang makita ang bago paglalagay ng iyong pera sa pondong iyon?

  3. [ madali ] Habang ang ilang mga tagapagtaguyod ng pampublikong kalusugan ulang may yelo e-cigarette bilang isang epektibong aid para sa pagtigil sa paninigarilyo, ang iba balaan tungkol sa mga potensyal na mga panganib, tulad ng mga high-antas ng nikotina. Isipin na ang isang researcher ay nagpasiya upang pag-aralan ng pampublikong opinyon patungo e-sigarilyo sa pamamagitan ng pagkolekta e-cigarette na may kinalaman sa mga post sa Twitter at pagsasagawa damdamin analysis.

    1. Anu-ano ang tatlong posibleng biases na ikaw ay pinaka nag-aalala tungkol sa pag-aaral?
    2. Clark et al. (2016) ang bumangga lamang tulad ng isang pag-aaral. Una, sila nakolekta 850,000 tweets na ginamit e-cigarette na may kinalaman sa mga keyword mula Enero 2012 sa pamamagitan ng Disyembre 2014. Sa mas malapit inspeksyon, sila na natanto na marami sa mga tweets ay automated (ibig sabihin, hindi ginawa ng tao) at marami sa mga automated na mga tweet ay mahalagang patalastas. Sila ay binuo ng isang Human Detection Algorithm upang paghiwalayin automated tweets mula sa organic tweet. Gamit ang Human Alamin Algorithm sila ay natagpuan na ang 80% ng mga tweet ay awtomatiko. paghahanap na ito baguhin Ba ang iyong sagot sa bahagi (a)?
    3. Kapag sila ay inihambing sa mga kuru-kuro sa organic at automated tweet sila natagpuan na ang automated tweet ay mas positibong kaysa sa organic tweet (6.17 kumpara 5.84). paghahanap na ito baguhin Ba ang iyong sagot sa (b)?
  4. [ madali ] Noong Nobyembre 2009, Twitter nagbago ang tanong sa tweet na kahon mula sa "Ano ang ginagawa mo?" Sa "Ano ang nangyayari?" (Https://blog.twitter.com/2009/whats-happening).

    1. Paano sa tingin mo ang pagbabago ng mga senyas ay makakaapekto na tweet at / o kung ano ang kanilang nag-tweet?
    2. Pangalanan ang isa pananaliksik proyekto para sa kung saan ang gusto ninyo ang prompt "Ano ang ginagawa mo?" Ipaliwanag kung bakit.
    3. Pangalanan ang isa pananaliksik proyekto para sa kung saan ang gusto ninyo ang prompt "Ano ang nangyayari?" Ipaliwanag kung bakit.
  5. [ medium ] Kwak et al. (2010) pinag-aralan ng 41.7 milyong mga profile ng gumagamit, 1.47 billion panlipunang mga relasyon, 4262 trending topics, at 106 milyong mga tweet sa pagitan ng Hunyo ika-6 at June 31, 2009. Batay sa pagtatasa sila concluded na Twitter naglilingkod sa higit bilang isang bagong daluyan ng pagbabahagi ng impormasyon sa isang social network.

    1. Isinasaalang-alang sa paghahanap Kwak et al, ano uri ng pananaliksik ang gagawin mo sa Twitter data? Ano ang uri ng pananaliksik hindi mo ba gagawin sa Twitter data? Bakit?
    2. Noong 2010, Twitter nagdagdag ng isang Sino Upang Sundin service paggawa ipinasadyang mungkahi sa mga gumagamit. Tatlong rekomendasyon ay ipinapakita sa isang pagkakataon sa pangunahing pahina. Rekomendasyon ay madalas na iginuhit mula sa isa sa "mga kaibigan-ng-kaibigan," at mutual mga contact ay ipinapakita din sa rekomendasyon. Mga gumagamit ay maaaring i-refresh upang makita ang isang bagong hanay ng mga rekomendasyon o bisitahin ang isang pahina na may isang mas mahabang listahan ng mga rekomendasyon. Sa tingin ba ninyo ang bagong tampok na nais baguhin ang iyong sagot sa bahagi a)? Bakit o bakit hindi?
    3. Su, Sharma, and Goel (2016) sinusuri ang epekto ng Sino Upang Sundin service at natagpuan na habang ang mga gumagamit sa buong popularity spectrum benefited mula sa mga rekomendasyon, ang pinaka-popular na mga gumagamit profited malaki mas kaysa sa average. paghahanap na ito baguhin Ba ang iyong sagot sa bahagi b)? Bakit o bakit hindi?
  6. [ madali ] "Retweet" ay madalas na ginagamit upang masukat ang impluwensiya at pagkalat ng impluwensiya sa Twitter. Sa una, ang mga gumagamit ay may upang kopyahin at i-paste ang tweet nagustuhan nila, i-tag ng orihinal na manunulat sa kanyang / kanyang hawakan, at mano-manong i-type "RT" bago ang tweet upang ipahiwatig na ito ay isang retweet. Pagkatapos, noong 2009 Twitter nagdagdag ng "retweet" button. Noong Hunyo 2016, Twitter ginawa ito posible para sa mga gumagamit sa retweet kanilang sariling mga tweet (https://twitter.com/twitter/status/742749353689780224). Sa tingin ba ninyo ang mga pagbabagong ito ay dapat makaapekto sa kung paano gumamit ka ng "retweet" sa iyong pananaliksik? Bakit o bakit hindi?

  7. [ medium , pagkolekta ng data , ay nangangailangan ng coding ] Michel et al. (2011) na itinayo ng isang corpus umuusbong mula pagsisikap ng Google upang i-digitize libro. Gamit ang unang bersyon ng corpus, na kung saan ay nai-publish sa 2009 at nakapaloob higit sa 5 milyong Digitized libro, mga may-akda aralan na paggamit ng salita dalas upang siyasatin linguistic pagbabago at kultural na mga trend. Hindi magtatagal ang Google Books Corpus naging isang popular na pinagmulan ng data para sa mga mananaliksik, at isang ika-2 bersyon ng database ay inilabas noong 2012.

    Gayunman, Pechenick, Danforth, and Dodds (2015) binigyan ng babala na ang mga mananaliksik na kailangan upang ganap na makilala ang sampling proseso ng corpus bago gamitin ito para sa pagguhit ng malawak na pagpapalagay. Ang pangunahing isyu ay na ang corpus ay library-like, na naglalaman ng isa ng bawat libro. Bilang isang resulta, ang isang indibidwal, maraming mag-anak may-akda ay may kakayahan upang kapansin-pansing magpasok ng mga bagong parirala sa lexicon Google Books. Bukod dito, pang-agham mga teksto ay bumubuo ng isang increasingly mahalagang bahagi ng corpus sa buong 1900s. Sa karagdagan, sa pamamagitan ng paghahambing ng dalawang bersyon ng English Fiction dataset, Pechenick et al. natagpuan na katibayan na hindi sapat na pag-filter ay ginagamit sa paggawa ng mga unang bersyon. Ang lahat ng mga data na kailangan para sa aktibidad ay makukuha dito: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Sa Michel et al. Ni orihinal na papel (2011) , na ginamit nila ang ika-1 na bersyon ng data set Ingles, naka-plot ang dalas ng paggamit ng mga taon "1880", "1912" at "1973", at concluded na "tayo forgetting aming mga nakaraang mas mabilis sa bawat pagdaan taon "(fig. 3A, Michel et al.). Kopyahin ang parehong balangkas gamit 1) 1st bersyon ng corpus, Ingles dataset (katulad ng Fig. 3A, Michel et al.)
    2. Ngayon ginagaya ang parehong plot sa ika-1 bersiyon, English fiction dataset.
    3. Ngayon ginagaya ang parehong balangkas na may ika-2 bersyon ng corpus, Ingles dataset.
    4. Sa wakas, ginagaya ang parehong balangkas na may ika-2 bersyon, English fiction dataset.
    5. Ilarawan ang mga pagkakaiba at pagkakatulad sa pagitan ng mga apat na plots. Huwag mong sumang-ayon kay Michel et al. Orihinal na interpretasyon ng obserbahan trend? (Hint: c) at d) ay dapat na ang parehong bilang Figure 16 sa Pechenick et al).
    6. Ngayon na na replicated ang isang ito sa paghahanap gamit ang iba't ibang Google Books corpora, pumili ng isa pang wika pagbabago o cultural phenomena iniharap sa Michel et al. Orihinal na papel. Huwag mong sumang-ayon sa kanilang interpretasyon sa liwanag ng mga limitasyon iniharap sa Pechenick et al.? Upang gumawa ng iyong argument malakas, subukan ginagaya ang parehong graph paggamit ng iba't ibang mga bersyon ng data set tulad ng nasa itaas.
  8. [ napaka-hirap , pagkolekta ng data , ay nangangailangan ng coding , Paborito ko ] Penney (2016) explores kung ang kalat na kalat publisidad tungkol NSA / PRISM surveillance (ie, ang Snowden revelations) sa Hunyo 2013 ay nauugnay sa isang matalim at biglaang pagbaba sa trapiko sa mga artikulo sa Wikipedia sa mga paksa na itaas ang mga alalahanin sa privacy. Kung gayon, ang pagbabagong ito sa pag-uugali ay magiging pare-pareho sa isang chilling effect na nagreresulta mula sa mass surveillance. Ang diskarte ng Penney (2016) ay minsang tinatawag ng naputol na disenyo ng oras serye at ay may kaugnayan sa mga pamamaraang sa kabanata tungkol sa approximating eksperimento mula obserbasyonal data (Section 2.4.3).

    Upang piliin ang mga keyword topic, Penney tinutukoy sa listahan na ginagamit ng US Department of Homeland Security para sa pagsubaybay at pagsubaybay sa social media. Ang listahan DHS categorizes ilang termino para sa paghahanap sa isang hanay ng mga isyu, ie "Health Concern," "Infrastructure Security," at "Terorismo." Para sa grupong pag-aaral, Penney ginamit ang apatnapu't walong mga keyword na may kaugnayan sa "Terorismo" (tingnan ang Table 8 Appendix). Siya at pagkatapos ay pinagsama-sama Wikipedia article mga bilang ng view sa isang buwanang batayan para sa kaukulang apatnapu't walong mga artikulo sa Wikipedia sa loob ng isang tatlong pu't dalawang buwan na panahon, mula sa simula ng Enero 2012 hanggang sa katapusan ng Agosto 2014. Upang palakasin ang kanyang argument, siya din ay gumawa ng ilang mga paghahambing grupo sa pamamagitan ng pagsubaybay views artikulo sa iba pang mga paksa.

    Ngayon, ikaw ay pagpunta upang magtiklop at palawigin Penney (2016) . Ang lahat ng mga raw data na kailangan mo para sa aktibidad na ito ay magagamit mula sa Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). O maaari kang makakuha ng ito mula sa R package wikipediatrend (Meissner and Team 2016) . Kapag nagsulat ka-up ang iyong mga tugon, pakitandaan na pinagmulan ng data na ginamit mo. (Tandaan: Ang parehong aktibidad din ay lilitaw sa Kabanata 6)

    1. Basahin Penney (2016) at magtiklop Figure 2 na nagpapakita ng mga page view para sa "Terorismo"-kaugnay mga pahina bago at pagkatapos ng paghahayag Snowden. Bigyang-kahulugan ang mga napag-alaman.
    2. Susunod, ginagaya Fig 4A, na kung saan inihahambing ang pag-aaral group ( "Terorismo"-kaugnay na mga artikulo) na may isang comparator grupo gamit ang mga keyword ikinategorya sa ilalim ng "DHS & Other Agencies" mula sa listahan DHS (tingnan ang Appendix Table 10). Bigyang-kahulugan ang mga napag-alaman.
    3. Sa bahagi b) mo kumpara sa pag-aaral ng grupo na isa comparator group. Penney din kung ikukumpara sa dalawang iba pang mga pangkat comparator: "Infrastructure Security"-kaugnay na mga artikulo (Appendix Table 11) at popular Wikipedia pahina (Appendix Table 12). Halika up sa isang alternatibong comparator grupo, at subukan kung ang mga natuklasan mula sa bahagi b) ay sensitibo sa iyong pagpili ng comparator group. Aling pagpili ng comparator grupo gumagawa ng karamihan ng kahulugan? Bakit?
    4. Ang may-akda nakasaad na mga keyword na may kaugnayan sa "Terorismo" ay ginagamit upang piliin ang mga artikulo sa Wikipedia dahil ang gobyerno ng Estados Unidos Nabanggit terorismo bilang isang susi dahilan para ang mga gawain nito online surveillance. Bilang isang check ng mga 48 "Terorismo"-kaugnay na mga keyword, Penney (2016) din na isinasagawa ng isang survey sa MTurk humihingi respondents na i-rate ang bawat isa sa mga keyword sa mga tuntunin ng Gobyerno Trouble, Privacy-Sensitive, at iwas (Appendix Table 7 at 8). Kopyahin ang survey sa MTurk at ihambing ang iyong mga resulta.
    5. Batay sa mga resulta sa bahagi d) at ang iyong pagbabasa ng artikulo, sumasang-ayon ka sa pagpili ng may-akda ng mga keyword topic sa grupo ng pag-aaral? Bakit o bakit hindi? Kung hindi, ano ang gusto mong iminumungkahi sa halip?
  9. [ madali ] Efrati (2016) ulat, batay sa mga lihim na impormasyon, na "total sharing" sa Facebook ay tinanggihan sa pamamagitan ng tungkol sa 5.5% taon sa paglipas ng taon habang "original broadcast sharing" ay down 21% taon sa paglipas ng taon. Pagtanggi na ito ay lalo na talamak sa mga gumagamit ng Facebook sa ilalim ng 30 taong gulang. Ang ulat ay maiugnay sa pag-decline sa dalawang mga kadahilanan. Ang isa ay ang paglago sa bilang ng mga "kaibigan" mga tao ay may sa Facebook. Ang iba pang ay na ang ilang mga aktibidad sa pagbabahagi ay shifted sa messaging at sa mga kakumpitensya tulad ng SnapChat. Ang ulat na din nagsiwalat ng ilang mga taktika Facebook had tried upang mapalakas sharing, kabilang ang News Feed algorithm tweaks na gumawa ng orihinal na mga post mas kilalang, pati na rin ang periodical paalala ng orihinal na mga gumagamit post "On This Day" ng ilang taon na ang nakakaraan. Ano implikasyon, kung mayroon man, ay ang mga natuklasan ay may para sa mga mananaliksik na nais na gamitin ang Facebook bilang isang pinagmulan ng data?

  10. [ medium ] Tumasjan et al. (2010) iniulat na proporsyon ng mga tweet mentioning isang partidong pampulitika tumugma ang bahagdan ng mga boto ng partido natanggap sa German parlyamentaryo halalan sa 2009 (Figure 2.9). Sa ibang salita, ito ay lumitaw na maaari mong gamitin ang Twitter upang mahulaan ang halalan. Sa panahon ng pag-aaral na ito ay nai-publish ito ay itinuturing na lubhang kapana-panabik dahil ito tila sa iminumungkahi ng isang mahalagang paggamit para sa isang pangkaraniwang mapagkukunan ng malaking data.

    Dahil sa masamang mga tampok ng malaking data, gayunpaman, ikaw ay dapat na agad na pag-aalinlangan ng ang resultang ito. Germans sa Twitter noong 2009 ay ganap ng isang non-kinatawan group, at mga tagasuporta ng isang partido ay maaaring nag-tweet tungkol sa pulitika nang mas madalas. Kaya, tila kataka-taka na ang lahat ng posibleng biases na maaari mong isipin ay sa paanuman kanselahin out. Sa katunayan, ang mga resulta sa Tumasjan et al. (2010) ay naka-out na maging masyadong magandang upang maging totoo. Sa kanilang papel, Tumasjan et al. (2010) itinuturing anim partidong pampulitika: Christian Democrats (CDU), Christian Social Democrats (CSU), SPD, Liberals (FDP), Ang Kaliwa (Die Linke), at ang Green Party (Grüne). Gayunman, ang pinaka nabanggit German partidong pampulitika sa Twitter sa oras na iyon ay ang Pirate Party (Piraten), isang party na fights pamahalaan regulasyon ng Internet. Kapag ang Pirate Party ay kasama sa pag-aaral, Twitter mentions ay nagiging isang kahila-hilakbot na tagahula ng mga resulta ng halalan (Figure 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figure 2.9: Twitter pagbanggit lilitaw upang mahulaan ang mga resulta ng ang 2009 German halalan (Tumasjan et al 2010.), Ngunit ito resulta ay lumiliko out na umaasa sa ilang di-makatwirang at unjustified pagpipilian (Jungherr, Jurgens, at Schoen 2012).

    Figure 2.9: Twitter pagbanggit lilitaw upang mahulaan ang mga resulta ng ang 2009 German halalan (Tumasjan et al. 2010) , Ngunit ito resulta ay lumiliko out na umaasa sa ilang di-makatwirang at unjustified mga pagpipilian (Jungherr, Jürgens, and Schoen 2012) .

    Sa dakong huli, iba pang mga mananaliksik sa buong mundo ay may ginagamit na may interes pamamaraan-tulad ng paggamit ng pagtatasa ng damdamin na makilala sa pagitan ng positibo at negatibong mentions ng mga partido-in upang mapabuti ang kakayahan ng Twitter data upang mahulaan ang isang iba't-ibang ng iba't ibang uri ng halalan (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Narito kung paano Huberty (2015) summarized ang mga resulta ng mga pagtatangka upang mahulaan halalan:

    "Ang lahat na kilala pamamaraan forecasting batay sa mga social media ay nabigo kapag sumailalim sa ang mga pangangailangan ng tunay na pagtingin sa hinaharap electoral pagtataya. Mga pagkabigo lumalabas na dahil sa pangunahing katangian ng social media, sa halip na sa methodological o algorithmic kahirapan. Sa madaling salita, social media ay hindi, at marahil hindi kailanman ay, nag-aalok ng isang matatag, walang pinapanigan, kinatawan larawan ng mga manghahalal; at kaginhawaan halimbawa ng social media kakulangan ng sapat na data upang ayusin ang mga problemang ito post hoc. "

    Basahin ang ilan sa mga pananaliksik na humantong Huberty (2015) sa konklusyon na, at magsulat ng isang isang pahina memo sa isang pampulitikang kandidato na naglalarawan kung at kung paano Twitter ay dapat gamitin upang mag-forecast elections.

  11. [ medium ] Ano ang pagkakaiba sa pagitan ng isang sosyolohista at isang mananalaysay? Ayon sa Goldthorpe (1991) , ang pangunahing pagkakaiba sa pagitan ng isang sosyolohista at isang mananalaysay ay kontrol sa pangongolekta ng data. Historians ay pinilit na gamitin relics samantalang sociologists maaaring maiangkop ang kanilang data collection sa mga tiyak na mga layunin. Basahin Goldthorpe (1991) . Paano ay ang pagkakaiba sa pagitan ng sosyolohiya at kasaysayan na may kaugnayan sa ideya ng Custommades at Readymades?

  12. [ mahirap ] Building sa naunang tanong, Goldthorpe (1991) ay nagkaroon ng bilang ng mga kritikal na mga tugon, kabilang ang isa mula Nicky Hart (1994) na hinamon ni Goldthorpe debosyon upang maiangkop ginawa data. Upang linawin ang mga potensyal na mga limitasyon ng payak data, Hart inilarawan ang mayaman Worker Project, ang isang malaking survey upang masukat ang relasyon sa pagitan ng panlipunan klase at pagboto na ay isinasagawa sa pamamagitan Goldthorpe at kasamahan sa kalagitnaan ng 1960s. Bilang isang maaaring asahan mula sa isang scholar na napaboran dinisenyo data sa paglipas natagpuan data, ang mayaman Worker Project nakolektang data na iniayon upang matugunan ang isang kamakailan-lamang na iminungkahi teorya tungkol sa hinaharap ng social class sa isang panahon ng pagtaas ng mga pamantayan ng pamumuhay. Ngunit, Goldthorpe at kasamahan sa paanuman "nakalimutan" upang mangolekta ng impormasyon tungkol sa pag-uugali ng pagboto ng mga kababaihan. Narito kung paano Nicky Hart (1994) buod ng buong episode:

    ". . . ito [ay] mahirap upang maiwasan ang konklusyon na ang mga kababaihan ay hindi naitala dahil ito 'tailor ginawa' dataset ay nakakulong sa pamamagitan ng isang paradigmatic lohika na ibinukod babae karanasan. Hinihimok sa pamamagitan ng isang manilay-nilay pananaw ng makauring kamulatan at pagkilos bilang lalaki preoccupations. . . , Goldthorpe at ang kanyang mga kasamahan na itinayo ng isang hanay ng mga empirical proofs na nagpakain at nurtured kanilang sariling panteorya pagpapalagay sa halip ng paglalantad ang mga ito sa isang wastong pagsubok ng kasapatan. "

    Hart patuloy na:

    "Ang empirical natuklasan ng mayaman Worker Project sabihin sa amin ang nalalaman tungkol sa masculinist halaga ng mid-century sosyolohiya kaysa ipaalam sa mga ito ay ang mga proseso ng pagsasapin-sapin, pulitika at materyal na buhay."

    May naiisip ka bang iba pang mga halimbawa kung saan koleksyon payak data ay ang biases ng data kolektor binuo sa mga ito? Paano ito ihambing sa algorithmic confounding? Ano implikasyon ay maaaring ito ay may para sa kapag mananaliksik dapat gumamit Readymades at kung kailan dapat nilang gamitin Custommades?

  13. [ medium ] Sa kabanatang ito, contrasted ko data na nakolekta ng mga mananaliksik para sa mga mananaliksik na may administrative records nilikha sa pamamagitan ng mga kumpanya at mga pamahalaan. Ang ilang mga tao tumawag sa mga administrative records "Natagpuan data," kung saan sila kaibahan sa "na idinisenyo data." Ito ay totoo na administrative mga talaan ay natagpuan sa pamamagitan ng mga mananaliksik, ngunit sila ay din mataas na naka-disenyo. Halimbawa, modernong tech kompanya ng gastusin malaking halaga ng oras at mga mapagkukunan upang mangolekta at koadhutor kanilang data. Kaya, ang mga administrative mga talaan ay parehong matatagpuan at dinisenyo, ito lamang ay depende sa iyong pananaw (Figure 2.10).

    Figure 2.10: Ang larawan ay parehong isang pato at isang kuneho; ano ang nakikita mo ay depende sa iyong pananaw. Pamahalaan at negosyo administrative records ay parehong natagpuan at dinisenyo; ano ang nakikita mo ay depende sa iyong pananaw. Halimbawa, ang mga tala ng tawag na data na nakolekta sa pamamagitan ng isang kumpanya ng cell phone ay matatagpuan data mula sa pananaw ng isang researcher. Subalit, ang mga eksaktong parehong mga talaan ay dinisenyo data pananaw ng isang tao na nagtatrabaho sa departamento billing ng kompanya ng telepono. Source: Wikimedia Commons

    Figure 2.10: Ang larawan ay parehong isang pato at isang kuneho; ano ang nakikita mo ay depende sa iyong pananaw. Pamahalaan at negosyo administrative records ay parehong natagpuan at dinisenyo; ano ang nakikita mo ay depende sa iyong pananaw. Halimbawa, ang mga tala ng tawag na data na nakolekta sa pamamagitan ng isang kumpanya ng cell phone ay matatagpuan data mula sa pananaw ng isang researcher. Subalit, ang mga eksaktong parehong mga talaan ay dinisenyo data pananaw ng isang tao na nagtatrabaho sa departamento billing ng kompanya ng telepono. Source: Wikimedia Commons

    Magbigay ng isang halimbawa ng data source kung saan nakikita ito sa parehong bilang natagpuan at dinisenyo ay helpful kapag gumagamit na pinagmulan ng data para sa pananaliksik.

  14. [ madali ] Sa isang nag-isip sanaysay, Christian Sandvig at Eszter Hargittai (2015) naglalarawan ng dalawang uri ng mga digital na pananaliksik, kung saan ang mga digital na sistema ay "instrumento" o "object ng pag-aaral." Ang isang halimbawa ng unang uri ng pag-aaral ay kung saan Bengtsson at kasamahan (2011) na ginagamit ng data ng mobile phone upang subaybayan ang migration pagkatapos ng lindol sa Haiti noong 2010. ang isang halimbawa ng ikalawang uri ay kung saan Jensen (2007) pag-aaral kung paano ang pagpapakilala ng mga mobile phone sa buong Kerala, Indya naapektuhan ang gumagana ng merkado para sa mga isda. Tingin ko ito helpful na ito sapagkat ito clarifies na pag-aaral gamit ang digital data sources ay maaaring magkaroon ng lubos na iba't ibang mga layunin kahit na sila ay gumagamit ng parehong uri ng data source. Upang karagdagang linawin ang pagkakaiba, ilarawan apat pag-aaral na iyong nakita: two na gumamit ng isang digital system bilang isang instrumento at dalawang na gumamit ng isang digital system bilang isang bagay ng pag-aaral. Maaari mong gamitin ang mga halimbawa mula sa kabanatang ito kung gusto mo.