დიდი მონაცემთა წყაროები შეიძლება დატვირთული უსარგებლო და spam.
ზოგიერთი მკვლევარი მიიჩნევს, რომ დიდი მონაცემთა წყაროები, განსაკუთრებით ონლაინ წყაროები, არიან ხელუხლებელი, რადგან ისინი ავტომატურად აგროვებენ. სინამდვილეში, ადამიანები, რომლებიც მუშაობდნენ დიდი მონაცემთა წყაროებით, იციან, რომ ისინი ხშირად ბინძურია . ანუ ისინი ხშირად შეიცავს მონაცემებს, რომლებიც არ ასახავს მკვლევართა ინტერესების რეალური ქმედებები. სოციოლოგთა უმრავლესობამ უკვე გააცნო ფართომასშტაბიანი სოციალური კვლევის მონაცემების დასუფთავების პროცესი, მაგრამ უფრო დიდი მონაცემების გაწმენდა, როგორც ჩანს, უფრო რთულია. ვფიქრობ, ამ სირთულის საბოლოო წყარო ისაა, რომ ამ დიდი მონაცემთა წყაროების დიდი ნაწილი არასოდეს ყოფილა გამოყენებული კვლევისთვის და ამიტომ არ არის შეგროვებული, შენახული და დოკუმენტირებული, რომელიც ხელს უწყობს მონაცემების გაწმენდას.
ბინძური ციფრული მონაცემების საფრთხე ილუსტრირებულია თავში და კოლეგებმა (2010) 2001 წლის 11 სექტემბრის თავდასხმების ემოციური რეაქციის შესწავლაზე, რაც მოკლედ მე მოკლედ აღვნიშნე თავი. მკვლევარებმა, ჩვეულებრივ, რეაქციულ მოვლენებზე რეაგირება რეტროსპექტული მონაცემებით რეაგირებენ თვეების ან თუნდაც წლების განმავლობაში. თუმცა, უკან და კოლეგებმა აღმოაჩინეს ციფრული კვალი - დედამიწის დროებით, ავტომატურად დაფიქსირებული გზავნილებიდან 85,000 ამერიკელი პიერსიდან, რაც საშუალებას მისცემდა მათ ემოციური რეაქციის შესწავლა გაცილებით უფრო მტკიცე დროში. ისინი ქმნიან 11 სექტემბრის წუთიანი წუთიანი ემოციურ ვადას, რომელიც იწონებს (1) მწუხარებასთან დაკავშირებულ სიტყვებს (მაგალითად, "ტირილი" და "მწუხარება"), (2) შფოთვა (2) მაგალითად, "შეშფოთებული" და "შიში") და (3) აღშფოთება (მაგალითად, "სიძულვილი" და "კრიტიკული"). მათ აღმოაჩინეს, რომ მწუხარება და შფოთვა მერყეობდა მთელი დღის განმავლობაში ძლიერი ნიმუშის გარეშე, მაგრამ რომ მთელი დღის განმავლობაში აღინიშნა აღმაშფოთებელი ზრდა. ეს კვლევა, როგორც ჩანს, სასიამოვნო ილუსტრაციაა მონაცემების წყაროებზე: თუ ტრადიციული მონაცემთა წყარო იყო გამოყენებული, შეუძლებელი იქნებოდა მოულოდნელი მოვლენის დაუყოვნებლივი რეაგირების ასეთი მაღალი ხარისხის ვადის მიღება.
სინამდვილეში ერთი წლის შემდეგ სინტია პიარი (2011) უფრო დეტალურად გადახედა. მან აღმოაჩინა, რომ დიდი რაოდენობით სავარაუდოდ გაბრაზებული შეტყობინებები გენერირებული ერთი პეიჯერი და ისინი ყველა იდენტურია. აი რა სავარაუდოდ გაბრაზებული შეტყობინებები ამბობდა:
"გადატვირთეთ NT მანქანა [სახელი] კაბინეტი [სახელი] ზე [ადგილმდებარეობა]: კრიტიკულ: [თარიღი და დრო]"
ეს შეტყობინებები იყო გაბრაზებული გაბრაზებული, რადგან მათ შორის სიტყვა "კრიტიკული", რომელიც შეიძლება ზოგადად მიუთითოს რისხვა, მაგრამ ამ შემთხვევაში არ. ამ ერთი ავტომატური დამწერის მიერ მოხსენებული შეტყობინებების წაშლა მთლიანად გამორიცხავს დღის გაღრმავების მკვეთრად გაზრდას (ფიგურა 2.4). სხვა სიტყვებით რომ ვთქვათ, Back, Küfner, and Egloff (2010) მთავარი შედეგი იყო ერთი პეიჯერის ნიმუში. ეს მაგალითი გვიჩვენებს, შედარებით მარტივი და შედარებით კომპლექსური მონაცემების ანალიზს აქვს სერიოზულად არასწორი.
მიუხედავად იმისა, რომ ბინძური მონაცემები, რომელიც შექმნილია შემთხვევით, ისეთი, როგორიც არის ერთი ხმაურიანი პეიჯერი, შეიძლება გამოვლინდეს გონივრულად ფრთხილად მკვლევარი, ასევე არსებობს ონლაინ სისტემა, რომელიც მიზნად ისახავს მიზანმიმართული სპამისგან. ეს სპამერები აქტიურად ქმნიან ყალბი მონაცემებს, და ხშირად მოტივირებული აქვთ მოგების სამუშაოები, რომ მათი სპამერთა დაფარვა ძნელია. მაგალითად, Twitter- ის პოლიტიკურ აქტივობას, როგორც ჩანს, გულისხმობს რაიმე გონივრულად დახვეწილი სპამი, რამაც შესაძლოა გარკვეული პოლიტიკური მიზნები უფრო პოპულარული (Ratkiewicz et al. 2011) ვიდრე ისინი რეალურად არიან (Ratkiewicz et al. 2011) . სამწუხაროდ, ამ განზრახ სპამის მოცილება საკმაოდ რთულია.
რა თქმა უნდა, სავარაუდოდ, შეიძლება ჩაითვალოს ბინძური მონაცემები, ნაწილობრივ, კვლევის საკითხზე. მაგალითად, ბევრი რედაქტირება ვიკიპედიას ქმნის ავტომატური წერილებისგან (Geiger 2014) . თუ თქვენ დაინტერესებული ხართ ვიკიპედიის ეკოლოგიაში, მაშინ ეს ბოტი შექმნილი რედაქტირება მნიშვნელოვანია. მაგრამ თუ თქვენ ხართ დაინტერესებული, როგორ ადამიანებს წვლილი შეაქვთ ვიკიპედიაში, მაშინ ბოტი შექმნილი რედაქტირება უნდა გამოირიცხოს.
არ არსებობს არცერთი სტატისტიკური ტექნიკა ან მიდგომა, რომელიც უზრუნველყოფს იმის უზრუნველყოფას, რომ თქვენ საკმარისად გაწმენდა თქვენი ბინძური მონაცემები. საბოლოო ჯამში, მე ვფიქრობ, რომ საუკეთესო გზა, რათა თავიდან აეცილებინათ ბინძური მონაცემები, გაიგოთ მაქსიმალურად იმის შესახებ, თუ როგორ შეიქმნა თქვენი მონაცემები.