Böyük məlumatların nə qədər böyük olmasına baxmayaraq, ehtimal ki, istədiyiniz məlumatlara malik deyildir.
Ən böyük məlumat mənbələri natamamdır , çünki sizin tədqiqatınız üçün istədiyiniz məlumatı yoxdur. Araşdırmalardan başqa məqsədlər üçün yaradılan məlumatların ümumi bir xüsusiyyəti. Bir çox sosial elm adamları, artıq lazımsız bir sual soruşmayan mövcud sorğu kimi çatışmazlıqla məşğul olmaq təcrübəsinə sahibdirlər. Təəssüf ki, çatışmazlıq problemləri böyük məlumatlarda daha həssas olur. Təcrübəmdə böyük məlumatlar sosial tədqiqatlar üçün faydalı olan üç növ məlumatın olmamasıdır: iştirakçılar haqqında demoqrafik məlumatlar, digər platformalarda davranış və nəzəri konstruksiyaların işlənməsi üçün məlumatlar.
Nəzarətin üç növü arasındakı problemlərin həll edilməsi ən çətin məsələdir. Və mənim təcrübə, çox vaxt təsadüfən gözardı olunur. Təxminən, nəzəri konstruksiyaların sosial elm öyrənmək və həyata nəzəri tikinti ki müşahidə məlumatları tikintisi tutmaq üçün bir yol təklif deməkdir mücərrəd fikir. Təəssüf ki, bu sadə səsvermə prosesi çox vaxt çətin olur. Məsələn, daha ağıllı insanlar daha çox pul qazanmaq üçün görünən sadə iddianı empirik şəkildə sınamağa çalışın. Bu iddianı sınamaq üçün "kəşfiyyatı" ölçmək lazımdır. Lakin kəşfiyyat nədir? Gardner (2011) əslində səkkiz müxtəlif kəşfiyyat forması olduğunu müdafiə etdi. Bu kəşfiyyat növlərinin hər birini dəqiq ölçə bilən prosedurlar varmı? Psixoloqlar tərəfindən çox sayda işə baxmayaraq, bu suallar hələ də birmənalı cavab vermir.
Beləliklə, nisbətən sadə bir iddia - daha çox ağıllı olan insanlar daha çox pul qazanırlar - ampirik olaraq qiymətləndirmək çətin ola bilər, çünki məlumatlarda nəzəri konstruksiyaların işlənməsi çətin ola bilər. Siyasi elmlər nəzəri konstruksiyalar və məlumatların qurulmasının etibarlılığı (Cronbach and Meehl 1955) arasındakı matçı "normalar", "sosial kapital" və "demokratiya" kimi qiymətləndirirlər. Quruluşların bu qısa siyahıdan göründüyü kimi, etibarlılıq qurmaq sosial elm adamlarının çox uzun müddət mübarizə apardığı problemdir. Amma təcrübəmdə, araşdırma məqsədi üçün yaradılmayan məlumatlarla işləyərkən (Lazer 2015) quruluşun yaranma problemləri daha da böyükdür.
Bir araşdırma nəticəsində qiymətləndirdiyiniz zaman, quruluşun etibarlılığını qiymətləndirmək üçün tez və faydalı bir üsul, ümumiyyətlə quruluş baxımından ifadə olunan nəticəni almaq və istifadə edilən məlumatlar baxımından yenidən ifadə etməkdir. Məsələn, daha ağıllı insanlar daha çox pul qazanmaq olduğunu iddia edən iki hipotetik araşdırma hesab et. Tədqiqatçı ilk araşdırmada Raven Progressive Matrix Testində yaxşı təhlil edən analitik zəkanın (Carpenter, Just, and Shell 1990) çox yaxşı öyrənilmiş testləri - vergi bəyannamələri üzrə daha yüksək gəlir verdiklərini tapdı. İkinci araşdırmada, tədqiqatçı daha uzun sözlər istifadə edən Twitterdə insanların lüks markalardan daha çox ehtimal olduğunu təsbit etdi. Hər iki halda, bu tədqiqatçılar daha ağıllı insanlar daha çox pul qazanmaq olduğunu göstərdiklərini iddia edə bilərlər. Ancaq ilk işdə nəzəri konstruksiyalar məlumatlar tərəfindən yaxşı işlənir, ikincisi isə onlar deyil. Bundan əlavə, bu nümunə göstərir ki, daha çox məlumat quruluşun etibarlılığı ilə bağlı problemləri avtomatik olaraq həll etmir. Bir milyon tweets, bir milyard tweets və ya bir trilyon tweets iştirak etdiyi ikinci araşdırmanın nəticələrindən şübhə etməlisiniz. Quruluşun etibarlılığını düşünməyən tədqiqatçılar üçün 2.2. Cədvəl rəqəmsal iz məlumatlarını istifadə edərək nəzəri konstruksiyaların fəaliyyətini həyata keçirən bəzi nümunələr təqdim edir.
Verilənlər mənbəyi | Teorik quruluş | References |
---|---|---|
Bir üniversiteden e-poçt günlükleri (yalnız meta-veri) | Sosial əlaqələr | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sosial media Weibo mövzusunda mesajlar | Vətəndaş nişan | Zhang (2016) |
Bir şirkətdən e-poçt logları (meta-məlumat və tam mətn) | Bir təşkilatda mədəni uyğunlaşma | Srivastava et al. (2017) |
Teorik konstruksiyaların ələ alınması üçün tamamlanmamış məlumat problemi olduqca çətin olmasına baxmayaraq, digər ümumi olmayan natamam tiplərə ümumi həll var: tam olmayan demoqrafik məlumat və digər platformalarda davranışa dair tam olmayan məlumat. İlk həlli, həqiqətən, lazım olan məlumatları toplamaqdır; Soruşmalar haqqında sizə söylədiyimdə bu barədə 3-cü fəsildə sizə xəbər verəcəyəm. İkinci əsas həlli, elm adamlarının istifadəçi xüsusiyyətləri dediklərini və ictimai elm adlarından istifadə etməyi çağırır. Bu yanaşmada, tədqiqatçılar bəzi insanlara məxsus olan məlumatları digər insanların atributlarına daxil etmək üçün istifadə edirlər. Üçüncü mümkün həll birdən çox məlumat mənbəyini birləşdirməkdir. Bu proses bəzən rekord əlaqələr adlanır. Bu prosesin ən sevdiyim metaforu Dunn (1946) tərəfindən yazılmış ilk sənədin ilk bəndində yazılmışdır:
"Dünyanın hər bir insanı həyat kitabını yaradır. Bu kitab doğumdan başlayır və ölümlə bitər. Onun səhifələrində həyatın başlıca hadisələrinin qeydlərindən ibarətdir. Yazı əlaqəsi bu kitabın səhifələrini bir həcmdə yığma prosesinə verilmişdir. "
Dann bu keçid yazarkən, Həyat Kitabının doğum, evlilik, boşanma və ölüm kimi böyük həyat hadisələrini ehtiva edə biləcəyini düşünür. Halbuki indi insanlar haqqında çox məlumatlar qeyd olunur, Həyat Kitabı inanılmaz ətraflı portret ola bilər, əgər bu müxtəlif səhifələr (yəni, bizim rəqəmsal izlərimiz) bir-birinə bağlansaydı. Bu Həyat Kitabı tədqiqatçılar üçün böyük bir qaynaq ola bilər. Fəsil 6-da (Etika) təsvir edildiyi kimi, bununla da hər cür etik kötüyə görə istifadə edilə biləcək bir zərər veritabanı (Ohm 2010) ola bilər.