[ , Ang pagsagol sa algoritmiko usa ka problema sa Google Flu Trends. Basaha ang papel ni Lazer et al. (2014) , ug pagsulat og usa ka mubo, tin-aw nga email ngadto sa usa ka engineer sa Google nga nagpatin-aw sa problema ug naghatag og usa ka ideya kon unsaon kini pag-ayo.
[ ] Si Bollen, Mao, and Zeng (2011) nag-angkon nga ang data gikan sa Twitter mahimong magamit aron sa pagtagna sa stock market. Ang kini nga nakakaplag misangpot sa pagmugna sa usa ka hedge fund-Derwent Capital Markets-aron mamuhunan sa stock market base sa datos nga nakolekta gikan sa Twitter (Jordan 2010) . Unsa nga ebidensya ang gusto nimo nga makita sa dili pa ibutang ang imong salapi sa pondo?
[ Samtang ang ubang mga tigpasiugda sa panglawas sa publiko nag-isip sa mga e-sigarilyo nga usa ka epektibong tabang alang sa paghunong sa pagpanigarilyo, ang uban nagpasidaan mahitungod sa posibleng risgo, sama sa taas nga lebel sa nikotina. Hunahunaa nga ang usa ka tigdukiduki mihukom nga tun-an ang opinyon sa publiko ngadto sa e-sigarilyo pinaagi sa pagkolekta sa mga post sa Twitter nga dunay sigarilyo ug pagpahigayon og pag-analisa sa sentimyento.
[ Sa Nobyembre 2009, giusab sa Twitter ang pangutana sa kahon sa tweet gikan sa "Unsay imong gibuhat?" Ngadto sa "Unsay nanghitabo?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Ang "Retweets" kasagarang gigamit sa pagsukod sa impluwensya ug pagkaylap sa impluwensya sa Twitter. Sa sinugdan, ang mga tiggamit kinahanglang kopyahon ug i-paste ang tweet nga ilang gusto, tag ang orihinal nga awtor sa iyang kuptanan, ug i-type sa manwal ang "RT" sa atubangan sa tweet aron ipakita nga kini usa ka retweet. Dayon, sa 2009, ang Twitter nagdugang sa usa ka "retweet" nga buton. Niadtong Hunyo 2016, ang Twitter nagpaposible alang sa mga tiggamit sa pag-retweet sa ilang kaugalingong mga tweets (https://twitter.com/twitter/status/742749353689780224). Sa imong hunahuna kini ba nga mga pagbag-o mag-apekto kon giunsa nimo paggamit ang "pagsaway" sa imong pagsiksik? Ngano o nganong dili?
[ , , , Sa usa ka hinugpong nga gihisgutan nga pamantalaan, si Michel ug mga kaubanan (2011) nag-analisar sa sulod sa sobra sa lima ka milyon nga digitized nga mga libro sa usa ka paningkamot sa pag-ila sa dugay nga mga uso sa kultura. Ang datos nga ilang gigamit karon gipagawas isip ang dataset sa Google NGrams, ug busa mahimo namong gamiton ang kasayuran sa pagsundog ug paghatag sa pipila sa ilang trabaho.
Sa usa sa daghan nga mga resulta sa papel, si Michel ug mga kaubanan miangkon nga nalimtan nato ang mas paspas ug mas paspas. Alang sa usa ka partikular nga tuig, isulti ang "1883," ilang gikalkula ang gidaghanon sa 1-gramo nga gipatik kada tuig tali sa 1875 ug 1975 nga "1883". Sila nangatarongan nga kini nga proporsiyon usa ka sukod sa interes sa mga panghitabo nga nahitabo nianang tuiga. Sa ilang hulagway 3a, gilaraw nila ang mga taktika sa paggamit sulod sa tulo ka tuig: 1883, 1910, ug 1950. Tulo ka tuig nga gipaambit ang usa ka komon nga sumbanan: gamay nga paggamit sa wala pa nianang tuiga, unya usa ka paglambo, dayon pagkadunot. Sunod, aron mabana-bana ang gidaghanon sa pagkadunot alang sa matag tuig, si Michel ug mga kaubanan nagkalkula sa "tunga sa kinabuhi" sa matag tuig sa tanang tuig tali sa 1875 ug 1975. Sa ilang hulagway 3a (inset), gipakita nila nga ang katunga sa kinabuhi sa matag usa ang tuig nagakunhod, ug sila nangatarongan nga kini nagpasabot nga nalimtan nato ang milabay nga mas paspas ug mas paspas. Gigamit nila ang Bersyon 1 sa corpus sa Iningles nga pinulongan, apan sa ulahi ang Google nagpagawas sa ikaduhang bersyon sa corpus. Palihog basaha ang tanan nga mga bahin sa pangutana sa dili ka magsugod sa coding.
Kini nga kalihokan magahatag kanimo og pagsulat pagsulat nga magamit pag-usab nga code, paghubad sa mga resulta, ug mga pagkasayup sa datos (sama sa pagtrabaho uban ang mga awkward files ug pagdumala sa nawala nga datos). Kini nga kalihokan makatabang usab kanimo pagbarug ug pagdagan sa usa ka dato ug makapaikag nga dataset.
Pagkuha sa hilaw nga data gikan sa website sa Google Books NGram Viewer. Sa partikular, kinahanglan mong gamiton ang bersyon 2 sa corpus nga Iningles nga pinulongan, nga gibuhian sa Hulyo 1, 2012. Wala ma-compress, kini nga file maoy 1.4GB.
I-recreate ang nag-unang bahin sa numero 3a sa Michel et al. (2011) . Aron mahibalik kini nga numero, kinahanglan nimo ang duha ka mga file: ang imong na-download sa bahin (a) ug ang "total counts" nga file, nga mahimo nimo gamiton sa pag-convert sa mga giilang mga ihap ngadto sa proporsyon. Hinumdomi nga ang kinatibuk-ang file nga adunay usa ka estraktura nga mahimong lisud mabasa. Ang bersyon 2 sa NGram nga datos nagpakita sa susama nga resulta sa gipresentar sa Michel et al. (2011) , nga gibase sa bersyon sa bersyon 1?
Karon susiha ang imong grapaw batok sa graph nga gibuhat sa NGram Viewer.
Pag-recreate sa numero 3a (nag-unang numero), apan usba ang \(y\) -axis nga mao ang hilabihan nga paghisgot sa gidaghanon (dili ang rate nga gihisgutan).
Ang kalainan tali sa (b) ug (d) maghatud kanimo sa pagtuon pag-usab sa bisan unsang resulta sa Michel et al. (2011). Ngano o nganong dili?
Karon, ginamit ang gidaghanon sa mga gihisgotan, gisundog ang inset sa numero 3a. Kana, alang sa matag tuig tali sa 1875 ug 1975, kuwentaha ang katunga nga kinabuhi nianang tuiga. Ang katunga nga kinabuhi gihubit nga mao ang gidaghanon sa mga tuig nga milabay sa dili pa ang gidaghanon sa mga gihisgutan makaabot sa katunga sa iyang kinatibuk-ang bili. Matikdi nga ang Michel et al. (2011) usa ka butang nga mas komplikado aron sa pag-estimate sa tunga sa kinabuhi-tan-awa ang seksyon III.6 sa Suportang Impormasyon sa Online-apan giangkon nila nga ang duha nga pamaagi naghimo sa susama nga mga resulta. Ang bersyon 2 sa NGram nga datos naghimo sa susama nga resulta sa gipresentar sa Michel et al. (2011) , nga gibase sa bersyon sa bersyon 1? (Timailhan: Ayaw kahibulong kon dili.)
Aduna bay mga katuigan nga mga outliers sama sa mga tuig nga nakalimtan ilabi na sa madali o ilabi na sa hinay-hinay? Sa mubo nga paghunahuna mahitungod sa posible nga mga hinungdan alang niana nga sumbanan ug ipasabut giunsa nimo pagkahibal-an ang mga outliers.
Karon, kopyaha kini nga resulta sa bersyon 2 sa NGrams data sa Chinese, French, German, Hebrew, Italian, Russian ug Spanish.
Ang pagtandi sa tanan nga mga pinulongan, aduna bay mga tuig nga mga outlier, sama sa mga katuigan nga nakalimtan ilabi sa madali o ilabi na sa hinay? Sa mubo nga paghunahuna mahitungod sa posible nga mga hinungdan alang niana nga sumbanan.
[ , , , Gisusi ni Penney (2016) kon ang kaylap nga publisidad mahitungod sa NSA / PRISM surveillance (ie, ang mga pagpadayag sa Snowden) sa Hunyo 2013 gilangkit sa usa ka mahait ug kalit nga pagkunhod sa trapiko sa mga artikulo sa Wikipedia bahin sa mga hilisgutan nga nagpataas sa mga problema sa privacy. Kon mao, kining pagbag-o sa pamatasan magkauyon sa usa ka makahahadlok nga epekto nga resulta sa masa nga pagpaniktik. Ang paagi sa Penney (2016) usahay gitawag nga usa ka interrupted time series design, ug kini may kalabutan sa mga pamaagi nga gihulagway sa seksyon 2.4.3.
Aron mapili ang hilisgutan nga mga pulong, si Penney naghisgot sa lista nga gigamit sa US Department of Homeland Security alang sa pagsubay ug pagbantay sa social media. Ang DHS nga listahan nag-categorize sa pipila ka mga termino sa pagpangita ngadto sa nagkalainlain nga mga isyu, nga mao, "Health Concern," "Infrastructure Security," ug "Terrorism." Alang sa grupo sa pagtuon, gigamit ni Penney ang 48 ka mga keyword nga may kalabutan sa "Terorismo" (tan-awa ang appendix table 8 ). Gitapok niya ang mga artikulo sa artikulo sa usa ka binulan nga basahon alang sa katugbang nga 48 nga mga artikulo sa Wikipedia sulod sa 32 ka bulan nga panahon, gikan sa sinugdanan sa Enero 2012 hangtud sa katapusan sa Agosto 2014. Aron mapalig-on ang iyang argumento, siya usab nagmugna og pipila ka mga grupo sa pagtandi pinaagi sa tracking Mga panglantaw sa artikulo sa ubang hilisgutan.
Karon, ikaw moadto sa pagsulat ug pagpalapad sa Penney (2016) . Ang tanan nga hilaw nga datos nga imong gikinahanglan alang niini nga kalihokan anaa gikan sa Wikipedia. O mahimo nimo kini makuha gikan sa R-package wikipediatrend (Meissner and R Core Team 2016) . Sa dihang isulat nimo ang imong mga tubag, palihug timan-i ang gikuhaan sa datos nga imong gigamit. (Timan-i nga kining sama nga kalihokan makita usab sa kapitulo 6.) Kini nga kalihokan magahatag kanimo sa pagpraktis sa kasayuran sa pagkalagot ug paghunahuna mahitungod sa natural nga mga eksperimento sa dagkong mga tinubdan sa datos. Makita usab kini ug magdagan sa usa ka potensyal nga makapaikag nga tinubdan sa datos alang sa umaabot nga mga proyekto.
[ Nag-ingon ang Efrati (2016) , base sa kompidensyal nga impormasyon, nga ang "total sharing" sa Facebook mikunhod mga 5.5% nga tuig sa tuig samtang ang "orihinal nga pagpaambit sa sibya" mikubos og 21% tuig sa tuig. Kini nga pagkunhod labi nga mahait uban sa mga tiggamit sa Facebook ubos sa 30 anyos. Ang report nag-ingon nga ang pagkunhod ngadto sa duha ka mga hinungdan. Ang usa mao ang pagtubo sa gidaghanon sa "mga higala" nga mga tawo nga anaa sa Facebook. Ang lain mao nga ang pipila ka kalihokan sa pagpakigbahin mibalhin ngadto sa messaging ug sa mga kakompetensya sama sa Snapchat. Ang taho usab nagpadayag sa daghang mga taktika nga Facebook nga misulay sa pagpauswag sa pagpaambit, lakip na ang mga pag-us aka News Feed algorithm nga naghimo sa orihinal nga mga post nga mas prominenteng, ingon man ang matag pahinumdom sa orihinal nga mga post uban sa "On This Day" feature. Unsa nga mga implikasyon, kung duna man, kini ba nga mga kaplag alang sa mga tigdukiduki kinsa gusto nga mogamit sa Facebook isip usa ka tinubdan sa datos?
[ ] Unsa ang kalainan tali sa usa ka sociologist ug usa ka historyano? Sumala sa Goldthorpe (1991) , ang nag-unang kalainan mao ang kontrol sa pagkolekta sa datos. Napugos ang mga istoryador nga mogamit sa mga relikyas, samtang ang mga sosyologo makahimo sa pagpahaum sa ilang pagkolekta sa datos ngadto sa piho nga mga katuyoan. Basaha ang Goldthorpe (1991) . Giunsa ang kalainan tali sa sociology ug kasaysayan nga may kalabutan sa ideya sa mga kustomer ug mga readymade?
[ ] Kini gitukod sa naunang quesiton. Goldthorpe (1991) adunay daghang mga kritikal nga mga tubag, lakip ang usa gikan sa Nicky Hart (1994) nga mihagit sa debosyon ni Goldthorpe sa pag-adjust sa datos. Aron maklaro ang mga potensyal nga limitasyon sa tailor-made nga kasayuran, gihulagway ni Hart ang Affluent Worker Project, usa ka dako nga survey aron pagsukod sa relasyon tali sa social class ug pagbotohan nga gihimo sa Goldthorpe ug mga kauban sa tunga-tunga sa dekada 1960. Ingon sa usa nga gilauman gikan sa usa ka eskolar nga mipabor sa gidisenyo nga datos sa nakitang datos, ang Affluent Worker Project nakolekta ang mga datos nga gihimo aron matubag ang bag-o nga gisugyot nga teorya mahitungod sa kaugmaon sa social class sa usa ka panahon sa pagdugang sa mga sumbanan sa pagpuyo. Apan, ang Goldthorpe ug mga kaubanan daw "nakalimot" sa pagkolekta og kasayuran mahitungod sa pagbotar sa mga babaye. Ania kung giunsa ni Nicky Hart (1994) summarize sa tibuok nga episode:
"... malisud ang paglikay sa konklusyon nga ang mga babaye wala ilakip tungod kay kini nga 'tailor made' nga dataset gibutang sa usa ka paradigmatic nga lohika nga wala maglakip sa babaye nga kasinatian. Giduso sa usa ka teoritikanhong panglantaw sa class consciousness ug aksiyon isip mga lalaki nga nag-atake ..., si Goldthorpe ug ang iyang mga kaubanan nagtukod og usa ka hugpong sa mga pruweba sa pamatasan nga nagpakaon ug nag-amuma sa ilang kaugalingon nga teoretikal nga mga panghunahuna imbis nga ibutyag kini ngadto sa usa ka balido nga pagsulay sa katukma. "
Hart nagpadayon:
"Ang mga resulta sa empirical sa Liloan nga Manggugubat nga Proyekto nagsulti kanato og dugang mahitungod sa masculinist nga mga bili sa sosyolohiya sa tungatunga sa siglo kay sa pagpahibalo sa mga proseso sa pagsabwag, politika ug materyal nga kinabuhi."
Makahunahuna ka ba sa uban pa nga mga pananglitan diin ang pagkolekta sa naandan nga pagkolekta sa datos adunay mga pagpaangay sa datos nga kolektor nga gitukod niini? Giunsa kini itandi sa algorithmic confounding? Unsa ang mga implikasyon niini alang sa diha nga ang mga tigdukiduki kinahanglan nga mogamit sa mga readymade ug sa diha nga sila kinahanglan nga gamiton nga mga custommades?
[ ] Niini nga kapitulo, gipalahi nako ang mga datos nga nakolekta sa mga tigdukiduki alang sa mga tigdukiduki nga adunay mga rekord sa pagdumala nga gimugna sa mga kompanya ug gobyerno Ang uban nga mga tawo nagtawag niining mga rekord sa pagdumala nga "nakit-an ang datos," nga gitandi nila sa "gidisenyo nga datos." Tinuod nga ang mga rekord sa pagdumala makaplagan sa mga tigdukiduki, apan kini usab gidisenyo kaayo. Pananglitan, ang mga modernong tech nga mga kompaniya nagtrabaho pag-ayo aron sa pagkolekta ug pagtuon sa ilang datos. Busa, kini nga mga rekord sa pagdumala nga makita ug gidisenyo, nag-agad kini sa imong panglantaw (numero 2.12).
Paghatag og usa ka pananglitan sa tinubdan sa datos diin ang pagtan-aw niini pareho nga nakit-an ug gidesinyo makatabang sa paggamit niana nga tinubdan sa datos alang sa pagsiksik.
[ Sa usa ka mahunahunaon nga essay, si Christian Sandvig ug Eszter Hargittai (2015) mibahin sa digital nga panukiduki ngadto sa duha ka dagkong mga kategoriya depende kung ang digital nga sistema usa ka "instrumento" o "butang nga pagtuon." Usa ka pananglitan sa unang matang-diin ang sistema usa ka instrumento-mao ang panukiduki ni Bengtsson ug mga kaubanan (2011) sa paggamit sa mga datos sa mobile phone aron masubay ang paglalin human sa linog sa Haiti sa 2010. Usa ka pananglitan sa ikaduha nga matang-diin ang sistema usa ka butang nga pagtuon-maoy panukiduki ni Jensen (2007) kon sa unsa nga paagi nga ang pagpaila sa mga cellphone sa tibuok Kerala, India nakaapektar sa pag-obra sa merkado sa mga isda. Nakaplagan nako kini nga kalainan nga nakatabang tungod kay kini nagpatin-aw nga ang mga pagtuon nga gamit ang digital nga tinubdan sa datos mahimong dunay lahi nga mga tumong bisan kung gigamit nila ang sama nga tinubdan sa datos. Aron sa dugang nga pagpatin-aw niini nga kalainan, paghulagway sa upat ka pagtuon nga imong nakita: duha nga naggamit sa digital nga sistema isip usa ka instrumento ug duha nga naggamit sa usa ka digital nga sistema isip tumong sa pagtuon. Mahimo nimong gamiton ang mga ehemplo gikan niini nga kapitulo kon gusto nimo.