[ , Kuchanganyikiwa kwa algorithm ilikuwa tatizo na Mwelekeo wa Google Flu. Soma karatasi na Lazer et al. (2014) , na uandike barua pepe fupi, wazi kwa mhandisi kwenye Google kuelezea tatizo na kutoa wazo la jinsi ya kuitengeneza.
[ ] Bollen, Mao, and Zeng (2011) wanadai kuwa data kutoka Twitter inaweza kutumika kutabiri soko la hisa. Matokeo haya yalisababisha kuundwa kwa mfuko wa jiji-Derwent Capital Masoko-kuwekeza katika soko la hisa kulingana na data zilizokusanywa kutoka Twitter (Jordan 2010) . Ushahidi gani unataka kuona kabla ya kuweka fedha zako katika mfuko huo?
[ ] Wakati baadhi ya watetezi wa afya ya umma wanafikiria e-sigara misaada yenye ufanisi kwa kuacha sigara, wengine wanaonya juu ya hatari ambazo zinaweza kuwa, kama viwango vya juu vya nikotini. Fikiria kuwa mtafiti anaamua kujifunza mtazamo wa umma kuelekea sigara za e-e kwa kukusanya posts za Twitter zinazohusiana na sigara na kufanya uchambuzi wa hisia.
[ ] Mnamo Novemba 2009, Twitter ilibadili swali kwenye sanduku la tweet kutoka "Unafanya nini?" Kwa "Nini kinatokea?" (Https://blog.twitter.com/2009/whats-happening).
[ ] "Retweets" mara nyingi hutumiwa kupima ushawishi na kuenea kwa ushawishi kwenye Twitter. Awali, watumiaji walipaswa kuchapisha na kuingiza tweet walipenda, tagia mwandishi wa awali na kushughulikia, na aina ya "RT" kabla ya tweet ilionyesha kwamba ilikuwa retweet. Kisha, mwaka wa 2009, Twitter iliongeza kifungo cha "retweet". Mnamo Juni 2016, Twitter imefanya iwezekanavyo kwa watumiaji kurejesha tweets zao (https://twitter.com/twitter/status/742749353689780224). Je, unadhani mabadiliko haya yanapaswa kuathiri jinsi unavyotumia "rembo" katika utafiti wako? Kwa nini au kwa nini?
[ , , , ] Katika karatasi iliyojadiliwa sana, Michel na wenzake (2011) walichambua maudhui ya vitabu zaidi ya milioni tano digitized kwa jaribio la kutambua mwenendo wa muda mrefu wa kitamaduni. Data ambayo walitumia sasa imetolewa kama dataset ya Google NGrams, na hivyo tunaweza kutumia data ili kuiga na kupanua baadhi ya kazi zao.
Katika moja ya matokeo mengi katika karatasi, Michel na wenzi wenzake wakasema kwamba sisi ni kusahau kwa kasi na kwa kasi. Kwa mwaka fulani, sema "1883," walihesabu idadi ya gramu 1 iliyochapishwa kila mwaka kati ya 1875 na 1975 ambayo ilikuwa "1883". Wao walidhani kwamba uwiano huu ni kipimo cha maslahi katika matukio yaliyotokea mwaka huo. Katika takwimu yao 3a, walipanga utaratibu wa matumizi kwa miaka mitatu: 1883, 1910, na 1950. Miaka mitatu huwa na mfano wa kawaida: matumizi kidogo kabla ya mwaka huo, kisha kuumwa, kisha kuoza. Kisha, ili kupima kiwango cha kuoza kwa kila mwaka, Michel na wenzake walihesabu "nusu ya maisha" ya kila mwaka kwa miaka yote kati ya 1875 na 1975. Katika takwimu yao 3a (inset), walionyesha kuwa nusu ya maisha ya kila mmoja mwaka unapungua, na walisema kuwa hii ina maana kwamba sisi ni kusahau zamani zaidi na kwa kasi. Walitumia Toleo la 1 la lugha ya Kiingereza, lakini hatimaye Google imetoa toleo la pili la corpus. Tafadhali soma sehemu zote za swali kabla ya kuanza kuandika.
Shughuli hii itakupa mazoezi ya kuandika kanuni za kurekebishwa, matokeo ya kutafsiri, na ushindani wa data (kama vile kufanya kazi na faili zisizo na utunzaji data zilizopo). Shughuli hii pia itasaidia kuamka na kuendesha na dataset yenye utajiri na yenye kuvutia.
Pata data ghafi kutoka kwenye tovuti ya Google Books NGram Viewer. Hasa, unapaswa kutumia toleo la 2 la lugha ya Kiingereza, ambayo ilitolewa Julai 1, 2012. Inakabiliwa na, faili hii ni 1.4GB.
Recreate sehemu kuu ya takwimu 3a ya Michel et al. (2011) . Ili kurejesha takwimu hii, unahitaji mafaili mawili: moja uliyopakuliwa kwa sehemu (a) na faili "jumla ya hesabu", ambayo unaweza kutumia kubadili hesabu za ghafi kwa idadi. Kumbuka kwamba faili jumla ya faili ina muundo ambao unaweza kufanya vigumu sana kusoma. Je, toleo la 2 la data ya NGram hutoa matokeo sawa na yale yaliyotolewa katika Michel et al. (2011) , ambayo inategemea data ya toleo la 1?
Sasa angalia grafu yako dhidi ya grafu iliyoundwa na NGram Viewer.
Rejesha takwimu 3a (takwimu kuu), lakini ubadilisha \(y\) -axis kuwa hesabu ya kutaja ghafi (sio kiwango cha kutaja).
Je! Tofauti kati ya (b) na (d) inakuongoza uone upya matokeo yoyote ya Michel et al. (2011). Kwa nini au kwa nini?
Sasa, kwa kutumia uwiano wa mazungumzo, jibu kipengele cha takwimu 3a. Hiyo ni kwa kila mwaka kati ya 1875 na 1975, kuhesabu nusu ya maisha ya mwaka huo. Maisha ya nusu hufafanuliwa kuwa idadi ya miaka ambayo hupita kabla ya uwiano wa mazungumzo kufikia nusu ya thamani ya kilele. Kumbuka kwamba Michel et al. (2011) kufanya kitu ngumu zaidi ili kukadiria sehemu ya nusu ya maisha-tazama kifungu cha III.6 cha Habari ya Kuunga mkono Online-lakini wanasema kuwa njia zote mbili zinazalisha matokeo sawa. Je, toleo la 2 la data ya NGram hutoa matokeo sawa na yale yaliyotolewa katika Michel et al. (2011) , ambayo inategemea data ya toleo la 1? (Maelezo: Usishangae ikiwa haifai.)
Je, kulikuwa na miaka yoyote ambayo ilikuwa ya nje kama vile miaka ambayo ilikuwa imesahau hasa haraka au hasa polepole? Fikiria kwa kifupi kuhusu sababu zinazowezekana za muundo huo na ueleze jinsi ulivyotambua nje.
Sasa fanya matokeo haya kwa toleo la 2 la data ya NGrams katika Kichina, Kifaransa, Kijerumani, Kiebrania, Kiitaliano, Kirusi na Kihispania.
Kulinganisha katika lugha zote, kulikuwa na miaka yoyote ambayo ilikuwa nje ya nje, kama miaka ambayo ilikuwa imesahau hasa haraka au hasa polepole? Fikiria kwa kifupi juu ya sababu zinazowezekana za muundo huo.
[ , , , Penney (2016) alitathmini kama uenezaji ulioenea kuhusu ufuatiliaji wa NSA / PRISM (yaani, mafunuo ya Snowden) mwezi Juni 2013 ulihusishwa na kupungua kwa kasi na ghafla kwa trafiki kwenye makala za Wikipedia juu ya mada ambayo huleta wasiwasi wa faragha. Ikiwa ndivyo, mabadiliko haya katika tabia yatakuwa sawa na athari ya kutisha kutokana na ufuatiliaji wa wingi. Njia ya Penney (2016) wakati mwingine huitwa kuingiliwa kwa mfululizo wa mfululizo wa kubuni, na inahusiana na mbinu zilizoelezwa katika kifungu 2.4.3.
Ili kuchagua maneno muhimu ya kichwa, Penney ametajwa kwenye orodha iliyotumiwa na Idara ya Usalama wa Nchi kwa Marekani kwa kufuatilia na kufuatilia vyombo vya habari vya kijamii. Orodha ya DHS inaweka maneno fulani ya utafutaji katika masuala mbalimbali, yaani "Matatizo ya Afya," "Usalama wa Miundombinu," na "Ugaidi." Kwa kundi la utafiti, Penney alitumia maneno muhimu 48 yanayohusiana na "Ugaidi" (tazama kiambatisho cha meza 8) ). Kisha akachanganya makadirio ya makala ya Wikipedia kila mwezi kwa makala 48 zinazofanana za Wikipedia kwa kipindi cha miezi 32, tangu mwanzo wa Januari 2012 hadi mwisho wa Agosti 2014. Kuimarisha hoja yake, pia aliunda vikundi kadhaa vya kulinganisha kwa kufuatilia maoni ya makala juu ya mada mengine.
Sasa, utaenda kuandika na kupanua Penney (2016) . Data yote ghafi ambayo utahitaji kwa shughuli hii inapatikana kutoka Wikipedia. Au unaweza kupata kutoka kwa mfuko wa R-wikipediatrend (Meissner and R Core Team 2016) . Unapoandika majibu yako, tafadhali angalia chanzo gani cha data ulichotumia. (Ona kwamba shughuli hiyo pia inaonekana katika sura ya 6.) Shughuli hii itakupa mazoezi katika ushindani wa data na kufikiri juu ya majaribio ya asili katika vyanzo vya data kubwa. Pia itawapeleka na kuendesha na chanzo cha data cha kuvutia kwa miradi ya baadaye.
[ Efrati (2016) iliripoti, kwa kuzingatia taarifa za siri, kwamba "ushirikiano wa jumla" kwenye Facebook ulipungua kwa asilimia 5.5% kwa mwaka wakati "usambazaji wa awali wa awali" ulikuwa chini ya asilimia 21% mwaka. Kupungua huku kulikuwa na papo hapo kwa watumiaji wa Facebook chini ya umri wa miaka 30. Ripoti hiyo imesababisha kushuka kwa sababu mbili. Moja ni ukuaji wa idadi ya "marafiki" wanao kwenye Facebook. Jingine ni kwamba shughuli nyingine ya kugawana imesababisha ujumbe na washindani kama vile Snapchat. Ripoti pia ilibainisha mbinu kadhaa za Facebook zilijaribu kukuza ushirikiano, ikiwa ni pamoja na tweaks za Habari za algorithm ambazo zinafanya machapisho ya awali kuwa maarufu zaidi, pamoja na vikumbusho vya mara kwa mara ya machapisho ya awali na kipengele cha "Siku hii". Je! Matokeo gani, ikiwa ni yo yote, kufanya matokeo haya yana kwa watafiti ambao wanataka kutumia Facebook kama chanzo cha data?
[ ] Ni tofauti gani kati ya mwanasosholojia na mwanahistoria? Kulingana na Goldthorpe (1991) , tofauti kuu ni udhibiti wa ukusanyaji wa data. Wanahistoria wanalazimika kutumia mabaki, wakati wanasosholojia wanaweza kuunganisha ukusanyaji wao wa data kwa makusudi maalum. Soma Goldthorpe (1991) . Je, ni tofauti gani kati ya jamii na historia kuhusiana na wazo la ulinzi na tayari?
[ ] Hii inajenga kwenye Jumuiya ya awali. Goldthorpe (1991) ilitoa majibu kadhaa muhimu, ikiwa ni pamoja na moja kutoka kwa Nicky Hart (1994) ambayo yaliwahimiza kujitolea kwa Goldthorpe kwa data iliyopangwa. Ili kufafanua upungufu wa uwezo wa data zilizopangwa, Hart alielezea Mradi wa Wafanyabiashara wenye Thamani, utafiti mkuu wa kupima uhusiano kati ya darasa la kijamii na upigaji kura uliofanywa na Goldthorpe na wenzake katikati ya miaka ya 1960. Kama mtu anayeweza kutarajia kutoka kwa mwanachuoni ambaye alipenda data iliyopatikana juu ya kupatikana kwa data, Mradi wa Wafanyabiashara wenye Mkusanyiko alikusanya data zilizolengwa ili kushughulikia nadharia iliyopendekezwa hivi karibuni kuhusu siku zijazo za darasa la jamii katika kipindi cha viwango vya kuongezeka kwa maisha. Lakini, Goldthorpe na wenzake kwa namna fulani "walisahau" kukusanya taarifa kuhusu tabia ya kupiga kura ya wanawake. Hapa ni jinsi Nicky Hart (1994) alivyofupisha sehemu nzima:
"... ni vigumu kuepuka hitimisho la kuwa wanawake hawakuachiliwa kwa sababu hii dataset 'tailor alifanya ilikuwa imefungwa na mantiki ya kimapenzi ambayo hakuwa na uzoefu wa kike. Kutokana na maono ya kinadharia ya ufahamu wa darasa na hatua kama masuala ya kiume ..., Goldthorpe na wenzake walijenga seti za ushahidi wa kimapenzi ambao walishiriki na kuwalisha mawazo yao ya kinadharia badala ya kuwafunua kwa mtihani sahihi wa kutosha. "
Hart iliendelea:
"Matokeo ya kimapenzi ya Mradi wa Wafanyabiashara wenye Ustawi hutuambia zaidi juu ya maadili ya masculinist ya teknologia ya katikati ya karne kuliko kuwajulisha mchakato wa stratification, siasa na maisha ya nyenzo."
Je, unafikiria mifano mingine ambapo ukusanyaji wa data ulio na ufanisi una upendeleo wa ushuru wa data umejengwa ndani yake? Je, hii inalinganishaje na hali ya kuchanganyikiwa ya algorithm? Je, matokeo haya yanaweza kuwa nini wakati wachunguzi wanapaswa kutumia tayari na wapi wanapaswa kutumia vizuizi?
[ ] Katika sura hii, nimefafanua data zilizokusanywa na watafiti kwa watafiti wenye rekodi za utawala zilizoundwa na makampuni na serikali. Watu wengine huita rekodi za utawala "zilizopatikana data," ambazo zinalingana na "data iliyopangwa." Ni kweli kwamba rekodi za utawala zinapatikana na watafiti, lakini pia zinaundwa sana. Kwa mfano, makampuni ya kisasa ya tech hufanya kazi ngumu sana kukusanya na kuondokana na data zao. Hivyo, kumbukumbu hizi za utawala zinapatikana na iliyoundwa, inategemea mtazamo wako (Fungu la 2.12).
Kutoa mfano wa chanzo cha data ambapo kuona wote kama kupatikana na iliyoundwa ni muhimu wakati wa kutumia chanzo cha data kwa ajili ya utafiti.
[ Katika somo linalopendeza, Mkristo Sandvig na Eszter Hargittai (2015) waligawanya utafiti wa digital katika makundi mawili mawili kulingana na mfumo wa digital ni "chombo" au "kitu cha kujifunza." Mfano wa aina ya kwanza-ambapo mfumo ni chombo-ni utafiti na Bengtsson na wafanyakazi wenzake (2011) kwa kutumia data ya simu ya simu kufuatilia uhamiaji baada ya tetemeko la ardhi huko Haiti mwaka 2010. Mfano wa aina ya pili-ambayo mfumo ni kitu cha kujifunza-ni utafiti na Jensen (2007) juu ya jinsi kuanzishwa kwa simu za mkononi kote Kerala, India iliathiri utendaji wa soko kwa samaki. Ninaona tofauti hii kwa manufaa kwa sababu inafafanua kwamba tafiti za kutumia vyanzo vya data vya digital zinaweza kuwa na malengo tofauti hata kama wanatumia aina hiyo ya chanzo cha data. Ili kufafanua zaidi tofauti hii, eleza masomo manne ambayo umeona: wawili wanaotumia mfumo wa digital kama chombo na mbili ambazo hutumia mfumo wa digital kama kitu cha kujifunza. Unaweza kutumia mifano kutoka kwa sura hii ikiwa unataka.