Sumber data Big bisa dimuat karo ajur lan spam.
Sapérangan panliti pracaya sumber data amba, utamané sing asal saka sumber online, sing murni amarga padha diklumpukake otomatis. Ing kasunyatan, wong sing wis kerjo karo sumber data amba ngerti sing lagi seneng reged. Sing, padha kerep kalebu data sing ora nggambarake tumindak nyata saka kapentingan kanggo peneliti. Akeh ilmuwan sosial wis menowo proses reresik data survey sosial gedhe-ukuran, nanging reresik sumber data amba luwih angel kanggo loro alasan: 1) padha ora digawe dening peneliti kanggo panliti lan 2) peneliti umume duwe pangerten kurang saka carane digawe.
Beboyo saka reged data tilak digital sing gambaran dening Back lan kolega ' (2010) sinau saka respon emosional serangan saka September 11, 2001. Peneliti biasane sinau nanggepi acara tragis nggunakake data retrospektif dikumpulake liwat sasi utawa malah taun. Nanging, Back lan kolega ketemu pesen tansah ing sumber digital ngambah-ing distempel, otomatis direkam saka 85,000 Amérika Kabel-lan iki aktif peneliti kanggo sinau respon emosional ing timescale becik akeh. Back lan kolega digawe timeline emosi menit-by-menit saka 11 September dening werna isi emosi saka pesen pager dening persentasi tembung related kanggo (1) sumelang (eg, nangis, sungkowo), (2) kuatir (eg, kuwatir, wedi), lan (3) nesu (eg, sengit, kritis). Padha ketemu sing sumelang lan kuatir fluctuated sedina muput tanpa pola kuwat, nanging sing ana Tambah striking ing nesu sedina muput. Panaliten iki misale jek dadi gambaran apik saka daya saka tansah ing sumber data nggunakake cara standar iku bakal mokal kanggo duwe kuwi timeline dhuwur-Résolusi saka respon langsung kanggo acara sing ora dikarepke.
Mung siji taun salajengipun, Cynthia Pury (2011) kapandeng ing data liyane kasebut kanthi teliti. Dheweke katutup sing nomer akeh pesen mesthine duka padha kui dening pager siji lan padha kabeh podho. Punika apa ngandika sing pesen mesthine duka:
"Mesin urip maneh NT [jeneng] ing kabinèt [jeneng] ing [lokasi]: kritis: [Tanggal lan wektu]"
pesen padha cap duka amarga padha klebu ing tembung "kritis", kang umume bisa nunjukaké nesu nanging ora ing kasus iki. Njabut pesen déning pager otomatis siji iki rampung ngilangake Tambah nyoto ing nesu liwat mesthi ing dina (Figure 2.2). Ing tembung liyane, ing asil utama ing Back, Küfner, and Egloff (2010) ana artefak siji pager. Minangka conto iki nggambaraké, analisis relatif prasaja saka data relatif Komplek lan tumoto wis potensial kanggo pindhah akeh salah.
Nalika data reged sing digawe sengaja-kayata saka siji rame pager-bisa dideteksi dening peneliti akal-ati, ana uga sawetara sistem online sing narik kawigaten spammers disengojo. spammers iki aktif generate data palsu, lan asring motivasi dening MediaWiki-karya banget hard kanggo tetep spamming sing ndhelikke. Contone, kegiatan politik ing Twitter misale jek kalebu ing paling sawetara spam akal canggih, kang sawetara nimbulaké politik sing sengojo digawe kanggo katon luwih populer tinimbang padha nyata sing (Ratkiewicz et al. 2011) . Peneliti nggarap data sing bisa ngemot spam disengojo ngadhepi tantangan mestekake pirsawan sing padha dideteksi lan dibusak spam relevan.
Akhire, apa dianggep data reged bisa gumantung ing cara subtle ing pitakonan riset. Contone, akeh suntingan kanggo Wikipedia sing digawe dening bot otomatis (Geiger 2014) . Yen kasengsem ing ékologi saka Wikipedia, banjur bot iki penting. Nanging, yen kasengsem ing carane manungsa kontribusi jroning Wikipedia, suntingan iki digawe dening bot iki kudu dipun tilar.
Cara paling apik kanggo supaya kang diapusi dening data reged sing ngerti carane data digawe kanggo nindakake analisis eksplorasi prasaja, kayata nggawe ngrugekake buyar prasaja.