2.3.2.6 Dirty

Big tietolähteitä voidaan ladata roskaa ja roskapostin.

Jotkut tutkijat uskovat, että suuri tietolähteitä, erityisesti online-lähteistä, ovat koskematon koska ne kerätään automaattisesti. Itse asiassa, ihmiset, jotka ovat työskennelleet suuria tietolähteet tietää, että ne ovat usein likaisia. Eli ne usein sisältävät tietoja, jotka eivät vastaa todellisia toimia kiinnostaa tutkijoita. Sosiaalitieteilijöille tuntevat jo prosessin puhdistus suuria sosiaalisia tutkimustietoja, mutta puhdistusta iso tietolähteitä on vaikeampi kahdesta syystä: 1) niitä ei ole luotu tutkijat tutkijoille ja 2) tutkijat ovat yleensä vähemmän ymmärtää, miten ne luotiin.

Vaaroista likainen digitaalisen jäljittää data on havainnollistettu Back ja kollegoiden (2010) tutkimus emotionaalinen vastauksena syyskuun 11. päivän iskuja, 2001. Tutkijat tyypillisesti tutkia vastaus traagisiin tapahtumiin käyttäen retrospektiivinen kerättyjä yli kuukausia tai jopa vuosia. Mutta, Back ja työtovereiden löysi aina päällä lähteestä digitaalisten jälkiä the timestamped, automaattisesti tallennetut viestit 85,000 American hakulaitteet-ja tämä mahdollisti tutkijoille mahdollisuuden tutkia emotionaalisen vasteen paljon hienompi ajassa. Back ja kollegat loivat minuutti-by minuutin emotionaalinen aikajanalla syyskuun 11. koodaamalla emotionaalisen sisällön hakulaitteen viestejä prosenttiosuus liittyviä sanoja (1) surua (esim itku, suru), (2) ahdistus (esim huolestunut, pelokas), ja (3) vihan (esim, viha, kriittinen). He havaitsivat, että surua ja ahdistusta vaihdellut koko päivän ilman vahvaa mallia, mutta että oli silmiinpistävä nousu vihaa koko päivän. Tämä tutkimus näyttää olevan hieno esimerkki valtaa aina-tietolähteistä: tavanomaisilla menetelmillä olisi mahdotonta saada tällainen korkean resoluution aikajanaa välitön reaktio odottamaton tapahtuma.

Vain vuotta myöhemmin, kuitenkin, Cynthia Pury (2011) tarkasteltiin tietoja tarkemmin. Hän havaitsi, että suuri määrä muka vihaisia ​​viestejä kertyi yksi hakulaite ja ne olivat kaikki samanlaisia. Tässä mitä ne muka vihainen viestit sanoi:

"Reboot NT kone [name] kaappiin [name] at [sijainti]: CRITICAL: [päivämäärä ja aika]"

Nämä viestit leimattiin vihaisia, koska ne oli ilmaisu "kriittinen", joka voidaan yleensä osoittaa vihaa, mutta ei tässä tapauksessa. Irrottaminen sanomat tällä yhdellä automatisoidulla hakulaitteeseen poistaa kokonaan ilmeinen kasvu vihaa aikana päivä (Kuva 2.2). Toisin sanoen, tärkein tulos Back, Küfner, and Egloff (2010) oli artefakti yksi hakulaite. Koska tämä esimerkki osoittaa, suhteellisen yksinkertainen analyysi suhteellisen monimutkainen ja sekava data on mahdollista mennä pahasti pielessä.

Kuva 2.2: Arvioitu suuntaukset viha aikana syyskuun 11. 2001 tiedot perustuvat 85000 American hakulaitteet (Back, Küfner, ja Egloff 2010 Pury 2011; Back, Küfner, ja Egloff 2011). Alun perin, Back, Küfner, ja Egloff (2010) raportoitiin kuvio lisätä anger koko päivän. Kuitenkin suurin osa näistä näennäinen vihaisia ​​viestejä kertyi yksi hakulaite, joka toistuvasti lähetti seuraavan viestin: Reboot NT kone [name] kaappiin [name] at [sijainti]: CRITICAL: [päivämäärä ja aika]. Tällä viestillä poistettu, näennäinen kasvu viha katoaa (Pury 2011; Back, Küfner, ja Egloff 2011). Tämä luku on jäljennös kuvion 1B Pury (2011).

Kuva 2.2: Arvioitu suuntaukset viha aikana syyskuun 11. 2001 tiedot perustuvat 85000 American hakulaitteet (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Alun perin, Back, Küfner, and Egloff (2010) raportoitiin kuvio lisätä anger koko päivän. Kuitenkin suurin osa näistä näennäinen vihaisia ​​viestejä kertyi yksi hakulaite, joka toistuvasti lähetti seuraavan viestin: "Reboot NT kone [name] kaappiin [name] at [sijainti]: CRITICAL: [päivämäärä ja aika]". Tällä viestillä poistettu, näennäinen kasvu viha katoaa (Pury 2011; Back, Küfner, and Egloff 2011) . Tämä luku on jäljennös kuvion 1B Pury (2011) .

Vaikka likainen luodut tiedot tahattomasti-kuten yhdeltä meluisa hakulaite-voidaan havaita kohtuullisen huolellinen tutkija, on olemassa myös joitakin online järjestelmiä, jotka houkuttelevat tahallinen roskapostittajia. Nämä roskapostittajia aktiivisesti tuottavat väärennettyjä tietoja ja-usein motiivina voittoa työ kovasti pitämään roskapostin piilossa. Esimerkiksi poliittinen aktiivisuus Twitterissä näyttää sisältävän ainakin joitakin kohtuullisen kehittyneitä roskapostin, jolloin jotkut poliittiset syyt ovat tarkoituksella tehty näyttämään suositumpia kuin ne todelliset ovat (Ratkiewicz et al. 2011) . Tutkijat kanssa tietoja, jotka saattavat sisältää tahallinen roskapostin haasteena vakuuttava yleisönsä että ne ovat havainneet ja poistaa asiaan roskapostin.

Lopuksi, mitä pidetään likainen tiedot voivat riippua hienovaraisempia oman tutkimuksen kysymyksiä. Esimerkiksi monet muokkaukset Wikipediaan syntyvät automatisoituja robotteja (Geiger 2014) . Jos olet kiinnostunut ekologian Wikipedia, niin nämä robotit ovat tärkeitä. Mutta, jos olet kiinnostunut siitä, miten ihmiset edistävät Wikipedia, nämä muutokset tehdään näiden robotteja olisi jätettävä.

Paras tapa välttää huijata likaisia ​​tietoa ymmärtää, miten tiedot luotiin yksinkertaisia ​​Tutkimusanalyysi, kuten yksinkertaisten sirontakuvaajiin.