Yaxşı data ilə yaxşı bir sual birləşdirmək əgər sadə hesablanması maraqlı ola bilər.
Mürəkkəb səslənən dildə yayılmış olmasına baxmayaraq, çoxsaylı sosial tədqiqatlar həqiqətən yalnız şeyləri sayır. Böyük məlumatlar dövründə, tədqiqatçılar hər zamankindən daha çox sayda saya bilə bilərlər, lakin bu, sadəcə olaraq, birbaşa sayılmağa başlamalıdırlar. Bunun əvəzinə, tədqiqatçılar xahiş etməli: Nə saymaq lazımdır? Bu tamamilə subyektiv məsələ kimi görünə bilər, amma bəzi ümumi nümunələr var.
Tez-tez şagirdlər hesablama tədqiqatlarını motivasiya edərək motivasiya edirlər: Mən heç kimdən əvvəlki hesablaşmamış bir şeyi sayacağam. Məsələn, bir tələbə çox sayda insan immiqrantları araşdırdıqlarını və bir çoxları əkizləri öyrəndiklərini söyləyə bilər, lakin heç kim immiqrant əkizlərini öyrənməmişdir. Təcrübəmdə, mən motivasiyanı yoxluğuna çağırdığım bu strategiya adətən yaxşı tədqiqata səbəb olmayacaqdır. Yoxlama səbəbi, orada bir çuxur olduğunu söyləyən cürdür və mən onu doldurmaq üçün çox çalışacağam. Lakin hər bir çuxurun doldurulmaması lazımdır.
Məşğul olmamaqla motivasiya etmək əvəzinə daha yaxşı bir strategiya əhəmiyyətli və ya maraqlı (ya da ideal şəkildə) tədqiqat suallarını axtarmaqdır. Bu şərtlərin hər ikisi müəyyən etmək çətindir, lakin vacib tədqiqat barədə düşünmək üçün bir yoldur, siyasət edənlər tərəfindən əhəmiyyətli bir qərar qəbul etmək üçün bəzi ölçülə təsir edə bilər və ya qidalanır. Məsələn, işsizlik nisbətinin ölçülməsi vacibdir, çünki bu, siyasət qərarlarını idarə edən iqtisadiyyatın göstəricisidir. Ümumiyyətlə, düşünürəm ki, tədqiqatçılar çox vacibdirlər. Beləliklə, bu bölmənin qalan hissəsində mən hesablamanın maraqlı olduğunu düşündüyüm iki nümunəni təqdim edəcəyəm. Hər halda, tədqiqatçılar həyəcanla hesablanmırdılar; əksinə, sosial sistemlərin necə işlədiyinə dair daha çox ümumi ideyalara dair mühüm anlayışlar ortaya qoyan çox xüsusi şəraitdə sayılırdılar. Başqa sözlə, bu xüsusi hesablamanı maraqlı edən bir çox şey məlumatın özü deyil, bu daha ümumi fikirlərdəndir.
Səs saymanın sadə gücündən nümunə olan Henry Farber (2015) Nyu-York şəhərinin taksi sürücüsünün davranışını öyrənir. Bu qrup təbii olaraq maraqlı deyil, baxmayaraq ki, əmək iqtisadiyyatı sahəsində iki rəqabətçi nəzəriyyəni sınaqdan keçirmək üçün strateji bir tədqiqat sahəsidir . Farber tədqiqatının məqsədi üçün taksi sürücüsünün iş mühiti ilə bağlı iki əhəmiyyətli xüsusiyyət var: (1) onların saatlik əmək haqqı, hava kimi amillərə əsaslanaraq, gündən-günə dalğalanır və (2) iş onların qərarları əsasında hər gün dəyişə bilər. Bu xüsusiyyətlər, saatlik əmək haqqı ilə işləyən saat arasındakı əlaqələr haqqında maraqlı bir sual yaradır. İqtisadiyyatdakı neoklasik modellər, taksi sürücüsünün saatlıq yüksək əmək haqqı olduğu günlərdə daha çox işləyəcəyini təxmin edirlər. Alternativ olaraq, davranış iqtisadiyyatı modelləri tam əksini təxmin edir. Sürücülər müəyyən bir gəlir hədəfini təyin edərsə, gündə 100 dollar deyəcəklər və hədəf yerinə çatana qədər işləyəcəklərsə, sürücülər daha çox qazandıqları günlərdə daha az iş saatı ilə başa çatacaqlar. Məsələn hədəf qazanmış olsanız, yaxşı bir gündə (saatda 25 dollar) dörd saat yaxşı işə və beş saat pis bir gündə (saatda 20 dollar) işə başlaya bilərsiniz. Beləliklə, sürücular, saatlik əmək haqqının yüksək olduğunu (neoklasik modellər tərəfindən proqnozlaşdırıldığı kimi) və ya daha aşağı saatlıq əmək haqqı ilə (günahkar iqtisadi modellərlə təxmin edildiyi kimi) günlərdə daha çox saat işlədirlər?
Bu suallara cavab vermək üçün Farber, 2009-2013-cü illərdə New York City kabinələri tərəfindən verilən hər bir taksi səfərində məlumat aldı, indi açıq olan məlumatlar. Şəhərin taksilərdən istifadə etməsini tələb edən elektron sayğaclar tərəfindən yığılmış bu məlumatlar - hər bir səfər barədə məlumatları daxil edin: başlanğıc vaxtı, başlanğıc yeri, bitmə vaxtı, sonuncu yeri, xərci və ipucu (ipucu kredit kartı ilə ödənilmişsə) . Farber, bu taksi sayğacının məlumatlarını istifadə edərək, maaşların daha yüksək olduğu zaman neoklasik nəzəriyyəyə uyğun bir çox sürücü daha çox iş gördüklərini tapdı.
Bu əsas tapıntıdan əlavə, Farber heterogen və dinamikanın daha yaxşı başa düşülməsi üçün məlumatın ölçüsünü istifadə edə bildi. O, zaman keçdikcə daha yeni sürücülər tədricən yüksək əmək haqqı günlərində daha çox saat işləməyi öyrənirlər (məsələn, neoklasik modeli nəzərdə tutur kimi davranırlar). Və hədəf qazananlar kimi daha çox davranan yeni sürücülər taksi sürücüsündən çıxma ehtimalı daha çoxdur. Mövcud sürücülərin müşahidə edilən davranışlarını izah etməyə kömək edən bu daha inadkar tapıntıların hər ikisi də məlumat bazasının ölçüsü sayəsində mümkündür. Keçirilən araşdırmalarda qısa müddət ərzində taksi (Camerer et al. 1997) az sayda kağız səfəri vərəqələrini istifadə etmişdi (Camerer et al. 1997) .
Farber tədqiqatı böyük bir məlumat mənbəyi istifadə edərək tədqiqat üçün ən yaxşı bir ssenariyə yaxın idi, çünki şəhər tərəfindən toplanan məlumatlar Farberın topladığı məlumatlara olduqca yaxın idi (bir fərqi Farber bütün məlumatları istəməyidir) əmək haqqı tarifləri və məsləhətlər - lakin şəhər məlumatları yalnız kredit kartı ilə ödənilmiş ipuçlarını ehtiva edir). Ancaq məlumat tək başına çatmadı. Farberin tədqiqatının açarı, məlumatlara maraqlı bir sual verərək, bu spesifik şəraitin ötəri daha böyük təsiri olan bir sual idi.
Nümunə saymanın ikinci bir nümunəsi Gary King, Jennifer Pan və Molly Roberts (2013) tərəfindən Çin hökumətinin onlayn senzura ilə bağlı araşdırmalarından ibarətdir. Lakin bu halda tədqiqatçılar öz məlumatlarını toplamaq məcburiyyətində qaldılar və onların məlumatlarının natamam olması ilə məşğul olmalı idi.
Kral və iş yoldaşları, sosial media orqanlarının Çində on minlərlə insanı əhatə edən böyük bir dövlət quruluşu tərəfindən senzura etdiyinə görə motivasiya edildi. Tədqiqatçılar və vətəndaşlar, bu senzorların məzmunun silinməsinə necə qərar verdiyini bilməmişlər. Çinli alimlər, həqiqətən, hansı yazı tiplərinin silinməsinə baxmayaraq, qarşıdurma gözləmələrinə malikdirlər. Bəziləri, senzorların dövləti tənqid edən mesajlara diqqət yetirəcəyini düşünür, bəziləri isə etiraz kimi kollektiv davranışı təşviq edən mesajlara diqqət yetirirlər. Bu gözləntilərdən hansı birinin doğru olduğunu göstərmək, tədqiqatçıların Çin və senzura ilə məşğul olan digər avtoritar hökumətləri necə başa düşdüyünə təsir edir. Buna görə Kral və həmkarları nəşr olunan və sonradan dərc edilmiş və əsla silinməmiş yazılarla silinmiş yazılar müqayisə etmək istədi.
bu mesajları Toplanması müxtəlif səhifə müvafiq ismarışları layouts tapmaq və sonra sonra silinmiş olan görmək üçün bu mesajları Alpdakının ilə 1000-dən çox Çin sosial media web-hər tarama gözəl engineering feat iştirak edib. geniş miqyaslı web-tarama ilə bağlı normal mühəndislik problemləri ilə yanaşı, bu layihə çox senzura posts az 24 saat aşağı alınır, çünki bu, çox sürətli olmaq lazım əlavə problem idi. Başqa sözlə, bir yavaş Skaner senzura edilmişdir xəbərlərin çox miss olardı. Bundan əlavə, robotlarının sosial media saytları araşdırmaya cavab öz siyasətini dəyişmək başqa çıxış qarşısını almaq və ya deyə aşkar yayınma isə bütün bu məlumatların toplanması idi.
Bu kütləvi mühəndislik tapşırığının başa çatdığı vaxtda Kral və həmkarları 85 müxtəlif mövzuda təxminən 11 milyon mesaj əldə etmişdilər, hər biri həssaslıq səviyyəsinə malik idi. Məsələn, yüksək həssaslıq mövzusu müxalif rəssam Ai Weiwei; Orta həssaslıq mövzusu Çin valyutasının qiymətləndirilməsi və devalüasiyasıdır və aşağı həssaslıq mövzusu Dünya Kubokudır. Bu 11 milyon postdan təxminən 2 milyon senzura alındı. Bir qədər təəccüblü olaraq, Kral və iş yoldaşları, yüksək həssas mövzulardakı mesajların orta və aşağı həssaslıq mövzularında yazılardan daha az tez-tez senzura etdiyini tapdılar. Başqa sözlə, Çin senzuraları Ai Weiwei-ni Dünya Kubokuna toxunan bir post olaraq xatırladan bir post sansür ehtimalı var. Bu nəticələr hökumətin həssas mövzularda bütün vəzifələrini senzuraya qoyduğu ideyasını dəstəkləmir.
Bununla yanaşı, senzuranın dərəcəsinin sadə hesablanması yanlış ola bilər. Məsələn, hökumət Ai Weiwei-ni dəstəkləyən postları senzura edə bilər, amma onu tənqid edən vəzifələri buraxın. Mövzulardan daha diqqətlə ayırmaq üçün tədqiqatçılar hər bir postun həssaslığını ölçməlidirlər. Təəssüf ki, çox işlərə baxmayaraq, əvvəldən mövcud olan lüğətlərdən istifadə edərək, duyğuların aşkarlanması üçün tam avtomatlaşdırılmış üsullar hələ də çox hallarda çox yaxşı deyildir (2001-ci il sentyabrın 11-dən 2001-ci il tarixli, 2.3.9-cu bəndi). Buna görə, Kral və həmkarları 11 milyon sosial media orqanının dövlətin tənqid etdiyi, (2) dövlətin dəstəklədiyi və ya (3) hadisələrlə bağlı olmayan və ya faktiki hesabatlar olub olmadığına etiraz etmək üçün bir yola ehtiyac duydular. Bu, kütləvi bir iş kimi səslənir, amma məlumat elmində ümumi, lakin ictimai fənnlərdə nisbətən nadir olan güclü bir oyundan istifadə edirlər: nəzarət olunan öyrənmə ; Şəkil 2.5-ə baxın.
Birincisi, adətən preprocessing adlanan bir addımda, tədqiqatçılar sosial media mesajlarını hər bir sənəd üçün bir sıra və yazıda xüsusi bir söz (məsələn, etiraz və ya trafik) olub olmadığını yazan bir sütun olduğu sənəd dövr matrisinə çevirdi. . Daha sonra, bir qrup tədqiqat köməkçisi, bir nümunə nümunəsinin fikirlərini əl ilə etiketledi. Daha sonra, bu əl etiketli məlumatları, bir xarakterə əsaslanan xarakteristikaya bənzər bir maşın öyrənmə modeli yaratmaq üçün istifadə etdilər. Nəhayət, onlar 11 milyon mesajın həssaslığını qiymətləndirmək üçün bu modeli istifadə etdilər.
Beləliklə, 11 milyon mesajı əl ilə oxumaq və etiketləməkdən çox - lojistik cəhətdən mümkün olmayacaq - Kral və iş yoldaşları əl ilə az sayda ismarıc yazdılar və sonra bütün mesajların həssaslığını qiymətləndirmək üçün nəzarət edilmiş öyrənmədən istifadə etdilər. Bu təhlilləri tamamladıqdan sonra, bir qədər təəccüblü olaraq, silinən bir postun ehtimalı dövlətin və ya dövlətin tənqidçisi olub-olmaması ilə əlaqədardır.
Sonda Kral və iş yoldaşları aşkar etdilər ki, yalnız üç növ yazı müntəzəm olaraq senzura edilib: pornoqrafiya, senzorların tənqidi və kollektiv hərəkət potensialı olanlar (yəni geniş miqyaslı etirazlara yol açma imkanı). Silinən çox sayda yazı və silinməmiş mesajlar gözdən keçirərək, Kral və həmkarları senzorların yalnız seyr və saymaqla necə işlədiyini öyrənə bildi. Bundan əlavə, bu kitab boyunca baş verəcək bir mövzunu ön plana çıxararaq, bəzi nəticələrə əl etiketlədikləri və sonra qalanları etiketləmək üçün bir maşın öyrənmə modeli yaratdıqları nəzarət olunan öyrənmə yanaşması rəqəmsal dövrdə ictimai araşdırmada çox yaygınlaşır . Şəkil 3-5-də (Sorğuların sualları) və 5-də (Kütləvi əməkdaşlıq yaratmaq) 2.5 rəqəminə çox oxşar şəkilləri görəcəksiniz. bu bir çox fəsildə görünən bir neçə fikirdən biridir.
Bu nümunələr - Nyu-Yorkda taksi sürücüsünün davranış davranışı və Çin hökumətinin ictimai media senzura davranışı göstərir ki, böyük məlumat mənbələrinin nisbətən sadə sayılması bəzi hallarda maraqlı və əhəmiyyətli tədqiqatlara səbəb ola bilər. Lakin hər iki halda tədqiqatçılar böyük məlumat mənbəyinə maraqlı suallar gətirməlidirlər; məlumatların özü kifayət deyil.