2.3.2.6 Dirty

Big vyanzo data inaweza kubeba na Junk na spam.

Baadhi ya watafiti wanaamini kwamba data vyanzo kubwa, hasa wale kutoka vyanzo online, ni siku za nyuma kwa sababu wao ni zilizokusanywa moja kwa moja. Kwa kweli, watu ambao wamefanya kazi na vyanzo big data kujua kwamba wao ni mara nyingi chafu. Hiyo ni, wao mara nyingi ni pamoja na data kwamba wala kutafakari vitendo halisi ya riba na watafiti. wanasayansi wengi wa jamii ni tayari ukoo na mchakato wa kusafisha kiasi kikubwa takwimu za utafiti wa kijamii, lakini kusafisha big vyanzo data ni vigumu zaidi kwa sababu mbili: 1) hawakuumbwa na watafiti kwa watafiti na 2) watafiti kwa ujumla kuwa chini uelewa wa jinsi walipoumbwa.

Hatari ya data chafu digital kuwaeleza ni mfano kwa Back na wenzake ' (2010) Utafiti wa mwitikio wa hisia na mashambulizi ya Septemba 11, 2001. Watafiti kawaida kujifunza kukabiliana na matukio ya kutisha kwa kutumia data retrospective zilizokusanywa katika kipindi cha miezi au hata miaka. Lakini, Back na wenzake kupatikana ujumbe daima-juu ya chanzo cha athari-digital timestamped, moja kwa moja kumbukumbu kutoka 85,000 wa Marekani pagers-na hii kuwezeshwa watafiti kujifunza mwitikio wa hisia juu ya kiasi Finer tidsperioden. Back na wenzake umba dakika-na-dakika hisia ratiba ya Septemba 11 na coding yaliyomo hisia ya ujumbe pager na asilimia ya maneno yanayohusiana na (1) huzuni (kwa mfano, kilio, majonzi), (2) wasiwasi (kwa mfano, wasiwasi, waoga), na (3) hasira (kwa mfano, chuki muhimu). Waligundua kuwa huzuni na wasiwasi zilishuka katika siku bila mfano nguvu, lakini kwamba kulikuwa na ongezeko fora kwa hasira kwa siku. Utafiti huu inaonekana kuwa mfano wa ajabu wa nguvu za daima-on vyanzo data: kutumia njia ya kiwango itakuwa vigumu kuwa kama high-azimio ratiba ya majibu ya haraka kwa tukio zisizotarajiwa.

Moja tu mwaka mmoja baadaye, hata hivyo, Cynthia Pury (2011) inaonekana katika data kwa makini zaidi. Aligundua kuwa idadi kubwa ya ujumbe eti hasira walikuwa yanayotokana na pager moja na wote walikuwa kufanana. Hapa ni nini wale ujumbe eti hasira alisema:

"Reboot NT mashine [jina] katika baraza la mawaziri [jina] katika [eneo]: MUHIMU: [tarehe na wakati]"

Hawa ujumbe walikuwa kinachoitwa hasira kwa sababu wao ni pamoja na neno "muhimu", ambayo inaweza kwa ujumla zinaonyesha hasira lakini haina katika kesi hii. Kuondoa ujumbe yanayotokana na pager hii single automatiska huondoa kabisa ongezeko dhahiri kwa hasira juu ya mwendo wa siku (Kielelezo 2.2). Kwa maneno mengine, matokeo kuu katika Back, Küfner, and Egloff (2010) ilikuwa artifact ya pager moja. Kama mfano huu unaeleza, rahisi uchambuzi wa data kiasi tata na messy ina uwezo wa kwenda vibaya sana.

Kielelezo 2.2: mwenendo Inakadiriwa kwa hasira juu ya mwendo ya Septemba 11, 2001 kwa kuzingatia pagers 85,000 wa Marekani (Back, Küfner, na Egloff 2010; Pury 2011; Back, Küfner, na Egloff 2011). Awali, Back, Küfner, na Egloff (2010) The taarifa hali ya kuongezeka kwa hasira kwa siku. Hata hivyo, wengi wa hawa ujumbe dhahiri hasira walikuwa yanayotokana na pager moja ambayo kurudia kutumwa ujumbe yafuatayo: Reboot NT mashine [jina] katika baraza la mawaziri [jina] katika [eneo]: MUHIMU: [tarehe na wakati]. Na ujumbe huu kuondolewa, ongezeko dhahiri katika hasira kutoweka (Pury 2011; Back, Küfner, na Egloff 2011). Takwimu hii ni uzazi wa Kielelezo 1B katika Pury (2011).

Kielelezo 2.2: mwenendo Inakadiriwa kwa hasira juu ya mwendo ya Septemba 11, 2001 kwa kuzingatia pagers 85,000 wa Marekani (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Awali, Back, Küfner, and Egloff (2010) The taarifa hali ya kuongezeka kwa hasira kwa siku. Hata hivyo, wengi wa hawa ujumbe dhahiri hasira walikuwa yanayotokana na pager moja ambayo kurudia kutumwa ujumbe yafuatayo: "Reboot NT mashine [jina] katika baraza la mawaziri [jina] katika [eneo]: MUHIMU: [tarehe na wakati]". Na ujumbe huu kuondolewa, ongezeko dhahiri katika hasira kutoweka (Pury 2011; Back, Küfner, and Egloff 2011) . Takwimu hii ni uzazi wa Kielelezo 1B katika Pury (2011) .

Wakati data chafu kwamba ni iliyoundwa bila kukusudia-kama vile kutoka kwa mmoja kelele pager-inaweza kuwa wanaona na mtafiti sababu makini, pia kuna baadhi ya mifumo online kwamba kuvutia spammers kukusudia. spammers hizi kikamilifu kuzalisha data feki, na-mara nyingi motisha kwa faida kufanya kazi kwa bidii sana kuweka spamming zao siri. Kwa mfano, shughuli za kisiasa juu ya Twitter inaonekana ni pamoja na angalau baadhi spam sababu kisasa, ambapo baadhi ya sababu za kisiasa ni kukusudia kufanywa kwa kuangalia maarufu zaidi kuliko wao halisi ni (Ratkiewicz et al. 2011) . Watafiti kufanya kazi na data ambayo inaweza vyenye kukusudia spam kukabiliana na changamoto ya kushawishi watazamaji wao kwamba wao kuwa wanaona na kuondolewa spam husika.

Hatimaye, nini ni kuchukuliwa data chafu unaweza wanategemea kwa njia zisizo wazi juu ya maswali ya utafiti wako. Kwa mfano, masahihisho mengi ya Wikipedia ni kuundwa kwa roboti automatiska (Geiger 2014) . Kama una nia ya viumbe na mazingira ya Wikipedia, kisha roboti haya ni muhimu. Lakini, kama una nia ya jinsi binadamu kuchangia Wikipedia, masahihisho hayo yaliyotolewa na roboti hizo lazima kutengwa.

njia bora ya kuepuka kuwa fooled na data chafu ni kuelewa jinsi data yako viliumbwa kufanya uchunguzi uchambuzi rahisi, kama vile kufanya kuwatawanya viwanja rahisi.