2.3.2.6 Валкани

Големи извори на податоци може да биде вчитан со ѓубре и спам.

Некои истражувачи сметаат дека големите извори на податоци, особено оние од други извори на интернет, се недопрени, бидејќи тие се собираат автоматски. Всушност, луѓето кои работеле со големи извори на податоци се знае дека тие често се валкани. Тоа е, тие често вклучуваат податоци кои не се одразуваат реалните активности во интерес на истражувачите. Многу научници од општествените науки се веќе запознаени со процесот на чистење на податоци социјално истражување големи, но чистење на големи извори на податоци е многу потешко од две причини: 1) не се создадени од страна на истражувачите на истражувачи и 2) истражувачите обично имаат помалку разбирање на тоа како тие биле создадени.

Опасностите од валкани податоци дигитални траги се илустрирани со грбот и колеги (2010) студија на емоционалниот одговор на нападите од 11 септември 2001 година Истражувачите обично учат на одговор до трагични настани, користејќи ретроспектива на податоци собрани во текот на неколку месеци или дури со години. Но, назад и неговите колеги откриле секогаш на извор на дигиталните траги-на timestamped, автоматски снимени пораки од 85.000 американски скокачот на работни површини, што и овозможи на истражувачите да учат емоционалниот одговор на многу пофини временска рамка. Назад и колеги создаде една минута по минута емоционална временска рамка од 11 септември од страна на кодирање на емоционална содржина на порака на пејџер со процентот на зборови поврзани со (1) тага (на пример, да плаче, тага), (2) анксиозност (на пример, загрижени, исплашени) и (3) гнев (на пример, омраза, критички). Тие откриле дека тага и вознемиреност флуктуира во текот на денот без силна шема, но дека има впечатлива зголемување на гневот во текот на денот. Ова истражување се чини дека е прекрасна илустрација на моќта на секогаш-на извори на податоци: со користење на стандардните методи за тоа ќе биде невозможно да се има таква висока резолуција временска рамка на итна реакција на неочекуван настан.

Само една година подоцна, сепак, Синтија Pury (2011) погледна на податоци повнимателно. Таа откри дека голем број на наводно лути пораки се генерирани од страна на една пејџер и тие сите беа идентични. Еве што рече дека тие наводно лути пораки:

"Рестартирај NT машина [име] во кабинетот на [име] на [адреса]: Критички: [датум и време]"

Овие пораки беа означени лути затоа што тие го вклучува зборот "критична", која генерално може да укажуваат на омраза, но не и во овој случај. Отстранување на пораки генерираше ова автоматски пејџер целосно ја елиминира очигледен пораст во лутина во текот на денот (Слика 2.2). Со други зборови, главниот резултат во Back, Küfner, and Egloff (2010) беше артефакт на еден пејџер. Како овој пример ги илустрира релативно едноставна анализа на релативно сложена и нејасна податоци има потенцијал да се сериозно погрешни.

Слика 2.2: Проценка на трендови во гнев во текот на 11 септември 2001 година врз основа на 85.000 американски скокачот на работни површини (назад, Küfner и Egloff 2010 година; Pury 2011 година назад, Küfner и Egloff 2011). Првично, грбот, Küfner и Egloff (2010) објавија модел на зголемување на гневот во текот на денот. Сепак, повеќето од овие очигледни лути пораки се генерирани од страна на една пејџер што постојано му ја испрати следната порака: Рестартирајте NT машина [име] во кабинетот на [име] на [адреса]: Критички: [датум и време]. Со отстрани оваа порака, очигледно зголемување на гнев исчезнува (Pury 2011 година назад, Küfner и Egloff 2011). Оваа бројка е репродукција на слика 1Б во Pury (2011).

Слика 2.2: Проценка на трендови во гнев во текот на 11 септември 2001 година врз основа на 85.000 американски скокачот на работни површини (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Првично, Back, Küfner, and Egloff (2010) објавија модел на зголемување на гневот во текот на денот. Сепак, повеќето од овие очигледни лути пораки се генерирани од страна на една пејџер што постојано му ја испрати следната порака: "Рестартирај NT машина [име] во кабинетот на [име] на [адреса]: Критички: [датум и време]". Со отстрани оваа порака, очигледно зголемување на гнев исчезнува (Pury 2011; Back, Küfner, and Egloff 2011) . Оваа бројка е репродукција на слика 1Б во Pury (2011) .

Додека валкани податоци што е создадена од ненамерно, како на пример, од една бучна пејџер-може да се открие од страна на разумно внимателен истражувач, исто така има и некои онлајн системи кои привлекуваат намерно спамери. Овие спамери активно да генерира лажни податоци, и-често мотивирани од добивка работат многу напорно за да ги задржат своите спам сокриени. На пример, политичката активност на Твитер се чини дека за да го вклучите барем некои разумно софистицирани спам, при што некои политички причини се намерно направени да изгледаат повеќе популарна отколку што вистински се (Ratkiewicz et al. 2011) . Истражувачите кои работат со податоци кои можат да содржат намерно спем се соочуваат со предизвикот на убедување на својата публика дека тие се детектираат и отстранат релевантни спам.

Конечно, она што се смета за валкани податоци можат да се потпрат на суптилен начин на вашиот истражувачки прашања. На пример, многу промени на Википедија се создадени од автоматски ботови (Geiger 2014) . Ако сте заинтересирани во областа на екологијата на Википедија, а потоа овие ботови се важни. Но, ако сте заинтересирани за тоа како луѓето да придонесе за Википедија, овие промени, направени од страна на овие ботови треба да бидат исклучени.

Најдобрите начини да избегнат да бидат измамени од страна на валкани податоци треба да се разбере како се создадени вашите податоци да се изврши едноставни прелиминарни анализи, како што се прави едноставен растера парцели.