Sumber data Big bisa dimuat karo ajur lan spam.
Sawetara peneliti pracaya manawa sumber data gedhe, utamane sumber online, murni amarga dikumpulake kanthi otomatis. Ing kasunyatane, wong sing wis nggarap sumber data gedhe ngerti yen dheweke kerep dirawat . Sing, padha kerep nyakup data sing ora nggambarake tumindak sing nyata tumrap peneliti. Paling ilmuwan sosial wis ngerti babagan proses pembersihan data panaliten sosial skala gedhe, nanging sumber data sing luwih gedhe ngresiki luwih angel. Aku sumber utama masalah iki yaiku akeh sumber data gedhe sing ora dimaksudake kanggo riset, lan ora dikumpulake, disimpen, lan didokumentasikan kanthi cara sing nggawe data cleaning.
Bebaya data surut digital kotor digambarake dening Back and colleagues ' (2010) sinau respon emosional kanggo serangan 11 September 2001, sing saya sebut kasebut ing ndhuwur. Peneliti biasane nyinaoni respon kanggo acara tragis kanthi nggunakake data retrospektif sing dikumpulake liwat sasi utawa taun. Nanging, Back lan kolega nemokake sumber digital sing tansah ono-wektu sing kacathet, kanthi otomatis ngrekam pesen saka 85.000 pager Amerika-lan iki bisa nyinaoni respon emosional ing skala waktu sing luwih apik. Dheweke nggawe garis wektu emosional saben menit saka 11 kanthi ngode isi emosional pesen pager kanthi persentase tembung sing ana hubungane karo (1) sedih (contone, "nangis" lan "sedih"), (2) kegelisahan ( eg, "kuwatir" lan "wedi"), lan (3) amarah (umpamane, "sengit" lan "kritis"). Dheweke nemokake kasunyatan lan karingkes kabeh wis owah-owahan kabeh tanpa pola sing kuat, nanging ana sing nambah bebendune sedina sedina muput. Panaliten iki misale jek minangka ilustrasi apik saka sumber data tansah: yen sumber data tradisional wis dipigunakaké, mesthine ora bisa nemtokake garis wektu resolusi dhuwur saka respon langsung menyang acara sing ora kaduga.
Nanging, setahun kepungkur, Cynthia Pury (2011) nyritakake data kanthi luwih teliti. Dheweke nemokake manawa pesen gedhe sing kedadeyan duka digawe dening pager siji lan kabeh padha identik. Punika apa pesen-pesen sing kedadeyan sing kedadeyan kasebut:
"Mesin urip maneh NT [jeneng] ing kabinèt [jeneng] ing [lokasi]: kritis: [Tanggal lan wektu]"
Pesen kasebut dicelupake amerga amerga kalebu tembung "KRITIK," sing bisa umumake nesune nanging ing kasus iki ora. Ngilangi pesen sing digawé dening pager otomatis tunggal iki rampung ngilangi paningkatan sing nandhang kacepetan nalika dina iki (tokoh 2.4). Ing tembung liya, asil utama ing Back, Küfner, and Egloff (2010) artefak saka siji pager. Minangka conto iki sing nggambarake, analisis sing relatif prasaja saka data sing relatif rumit lan ora kuwat nduweni potensi kanggo lali sacara serius.
Nalika data reged sing digawe kanthi sengaja-kayata saka pager sing bisu-bisa dideteksi dening peneliti sing cukup ati-ati, ana uga sawetara sistem online sing narik spammers sing disengaja. Spammers iki kanthi aktif ngasilake data palsu, lan-asring dimotivasi dening kerja keras banget kanggo tetep ndhelikake spam. Contone, kegiatan politik ing Twitter katon kalebu paling ora sawetara spam sing cukup canggih, ing ngendi sawetara panyebab politik sing sengaja digawe katon luwih populer tinimbang sing bener (Ratkiewicz et al. 2011) . Sayange, ngilangi spam sing disengaja iki bisa dadi angel banget.
Temtu apa sing dianggep data regane bisa gumantung, ing sisih, ing pitakonan paneliten. Contone, akeh suntingan ing Wikipedia digawe kanthi bot otomatis (Geiger 2014) . Yen sampeyan kepengin weruh ekologi Wikipedia, banjur kasebut suntingan bot-digawe sing penting. Nanging manawa sampeyan kepengin nyumbang manawa wong bisa nyumbang Wikipedia, banjur ngowahi bingkisan kasebut kudu dikalahake.
Ora ana teknik statistik siji utawa pendekatan sing bisa njamin yen sampeyan wis ngresiki data reged kanthi cekap. Ing pungkasan, aku mikir cara paling apik kanggo supaya ora ditipu dening data reged kanggo mangerteni apa wae babagan carane data sampeyan digawe.