Olursa olsun "böyük" sizin "böyük data" yəqin ki, siz istədiyiniz məlumat yoxdur necə.
Ən böyük məlumat mənbələri onlar sizin tədqiqat üçün istəyirəm məlumat yoxdur mənada, natamam var. Bu tədqiqat başqa məqsədlər üçün yaradılmışdır məlumatların ümumi xüsusiyyətidir. Bir çox sosial alimlər artıq istəyirdi sual soruşmadı mövcud sorğu kimi, natamamlıq ilə məşğul təcrübəsi var. Təəssüf ki, natamamlıq problemləri böyük data daha ifrat olur. nəzəri inşa operationalize üçün demoqrafik, digər platformalarda davranış və məlumat: Mənim təcrübəsi, böyük data üç sosial tədqiqat üçün faydalı informasiya növ itkin çalışır.
Natamamlıq bu formaları üç Gueorgi Kossinets və Duncan Watts ilə bir iş təsvir edilir (2006) bir universitetdə sosial şəbəkə təkamül haqqında. Kossinets və Watts (tədqiqatçılar e-poçt content girişi yox idi) nə vaxt e-poçt göndərən haqqında dəqiq məlumat əldə universitet e-poçt logs ilə başladı. Bu e-poçt qeydlər inanılmaz verilənlər bazasının kimi səs, lakin onlar baxmayaraq, onların ölçüsü və granularity-əsaslı natamam. Məsələn, e-poçt logs belə gender və yaş kimi tələbə demoqrafik xüsusiyyətləri haqqında məlumatları daxil deyil. Əlavə, e-poçt logs telefon zəngləri, mətn mesajı və ya üz-üzə söhbət kimi digər media vasitəsilə ünsiyyət haqqında məlumat daxil deyil. Nəhayət, e-poçt logs birbaşa münasibətlər çox mövcud nəzəriyyələr nəzəri inşa haqqında məlumat daxil deyil. Mən tədqiqat strategiyaları haqqında danışmaq zaman sonra fəsildə, siz Kossinets və Watts bu problemləri həll necə görürsünüz.
natamamlıq üç növ, nəzəri inşa operationalize üçün natamam məlumatların problem həll üçün ən ağır və mənim təcrübəsi, tez-tez təsadüfən data alimləri tərəfindən yayınmamalıdır. Təxminən, nəzəri konstruksiyaların təəssüf ki, bu konstruksiyaların həmişə birmənalı şəkildə müəyyən edilmiş və ölçülə bilməz, sosial elm öyrənmək mücərrəd fikir, lakin. Məsələn, empirically daha ağıllı insanlar daha çox pul qazanmaq yəqin sadə iddia test çalışır təsəvvür edək. bu iddianı test üçün siz kəşfiyyat nədir ". kəşfiyyat" ölçmək lazımdır, lakin olardı? Məsələn, Gardner (2011) kəşfiyyat səkkiz müxtəlif formaları həqiqətən var olduğunu müdafiə etdi. Və dəqiq kəşfiyyat bu formaları hər hansı ölçmək bilər orada prosedurları var? psixoloqlar tərəfindən işin böyük məbləğlər baxmayaraq, bu məsələlər hələ birmənalı cavab yoxdur. Belə ki, daha ağıllı nisbətən sadə iddia nəfərlik qazanmaq daha çox pul edə bilər data nəzəri inşa operationalize üçün ağır ola bilər, çünki empirik qiymətləndirmək çətin ola bilər. "Norma", "sosial kapital" və "demokratiya daxil operationalize üçün vacibdir, lakin ağır nəzəri inşa digər nümunələr." Sosial elm nəzəri inşa və məlumat tikinti etibarlılıq arasında matç zəng (Cronbach and Meehl 1955) . Və Constructs bu siyahı təklif kimi, onlar araşdırma məqsədilə toplandı data ilə iş hətta etibarlılıq sosial alimlər çox uzun müddət mübarizə ki, bir problem tikintisi. Tədqiqat başqa məqsədlər üçün toplanmış məlumatlarla işləyən zaman tikintisi etibarlılıq problemləri daha çətin (Lazer 2015) .
Bir tədqiqat kağız oxu zaman, bir sürətli və faydalı yol tikinti qüvvədə haqqında narahatlıqlar adətən inşa baxımından ifadə olunur kağız, əsas iddia almaq üçün qiymətləndirmək və istifadə olunan məlumatların baxımından yenidən bildirirəm. Məsələn, daha ağıllı insanlar daha çox pul qazanmaq göstərir ki, iddia iki hipotetik tədqiqatlar hesab:
Hər iki halda, tədqiqatçılar onlar daha ağıllı insanlar daha çox pul qazanmaq ki, göstərir ki, iddia edə bilər. Lakin ilk iş nəzəri konstruksiyaların də data fəaliyyətə, və ikinci onlar deyil. Bu misal göstərir kimi daha, daha çox məlumat avtomatik tikinti qüvvədə problemləri həll etmir. bir milyon tweets, bir milyard tweets, və ya bir trilyon tweets cəlb olub Study 2 nəticələrini şübhəsi olmasın. tikinti qüvvədə ideyası ilə tanış olmayan tədqiqatçılar üçün, Cədvəl 2.2 digital iz veri istifadə edərək, nəzəri inşa fəaliyyətə var araşdırmalar bəzi nümunələr verir.
Digital iz | Nəzəri tikinti | sitat |
---|---|---|
universitet e-poçt logs (meta-data yalnız) | Sosial münasibətlər | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo sosial media ismarıc | Civic nişan | Zhang (2016) |
bir firma e-poçt logs (meta-data və tam mətn) | bir təşkilat Mədəniyyət uyğun | Goldberg et al. (2015) |
operationalizing nəzəri Constructs üçün natamam məlumatların problem həll etmək olduqca çətindir, baxmayaraq ki, natamam demoqrafik məlumat və digər platformalarda davranış natamam informasiya probleminə üç ümumi həllər var. ilk həqiqətən lazım olan məlumatları toplamaq üçün edir; Mən sorğular haqqında sizə zaman Fəsil 3 ki, misal haqqında sizə deyim. Təəssüf ki, məlumatların toplanması bu cür həmişə mümkün deyil. Ikinci əsas həll data elm istifadəçi atributu nəticəçıxarma və nə sosial elm töhmət zəng zəng etmək. Bu yanaşma, tədqiqatçılar digər insanların atributları nəticə çıxarmaq onlar bəzi insanlar var istifadə edir. Kossinets və istifadə üçüncü mümkün həll bir çox məlumat mənbələri birləşdirməyə Watts-idi. Bu proses bəzən birləşmə və ya rekord əlaqə adlanır. Bu prosesi Mənim sevimli metafora heç rekord əlaqələr yazılı ilk kağız ilk bəndində təklif edilmişdir (Dunn 1946) :
"Dünyada hər bir şəxs Həyat bir kitab yaradır. Bu kitab doğum ilə başlayır və ölüm ilə başa çatır. Onun pages həyat prinsipi hadisələrin uçotunun təşkil edir. Record əlaqələr həcmi bu kitabın pages montaj prosesinə verilən addır. "
Bu keçid 1946-cı ildə yazılmış və o zaman insanlar Həyat Kitab doğum, nikah, boşanma və ölüm kimi böyük həyat hadisələri daxil edə bilər ki, düşünür. bu müxtəlif pages (yəni bizim digital izləri) birlikdə bağlı ola bilər, əgər Lakin, indi insanlar haqqında çox məlumat qeyd olunur ki, Həyat Kitab inanılmaz ətraflı portret ola bilər. Həyat Kitab tədqiqatçılar üçün böyük resurs ola bilər. Lakin, Həyat Kitab də məhv bazası adlandırmaq olar (Ohm 2010) aşağıda böyük data mənbələrdən toplanmış məlumatların həssas təbiəti haqqında danışmaq zaman aşağıda daha göstərildiyi kimi, qeyri-etik məqsədlər bütün növ üçün istifadə edilə bilər, Fəsil 6 (etik) ilə.