Kiraan mudah boleh menjadi menarik jika anda menggabungkan satu soalan yang baik dengan data yang baik.
Walaupun ia couched dalam bahasa yang berbunyi canggih, banyak penyelidikan sosial benar-benar hanya mengira perkara. Dalam usia data besar, penyelidik boleh mengira lebih dari sebelumnya, tetapi itu tidak bermakna bahawa mereka hanya perlu mula mengira secara tidak sengaja. Sebaliknya, para penyelidik harus bertanya: Apa perkara yang perlu dikira? Ini mungkin kelihatan seperti perkara yang sangat subjektif, tetapi terdapat beberapa corak umum.
Selalunya pelajar memotivasi penyelidikan mereka dengan mengatakan: Saya akan mengira sesuatu yang tidak pernah dikira sebelum ini. Sebagai contoh, seorang pelajar mungkin mengatakan bahawa ramai orang telah mempelajari pendatang dan ramai orang telah mempelajari kembar, tetapi tiada siapa yang mempelajari kembar migran. Dalam pengalaman saya, strategi ini, yang saya panggil motivasi dengan ketiadaan , biasanya tidak menyebabkan penyelidikan yang baik. Motivasi dengan ketiadaan adalah seperti mengatakan bahawa ada lubang di sana, dan saya akan bekerja sangat keras untuk mengisi itu. Tetapi tidak setiap lubang perlu diisi.
Daripada motivasi dengan ketiadaan, saya fikir strategi yang lebih baik adalah mencari pertanyaan penyelidikan yang penting atau menarik (atau idealnya keduanya). Kedua-dua istilah ini agak sukar untuk ditakrifkan, tetapi satu cara untuk memikirkan penyelidikan penting adalah bahawa ia mempunyai beberapa kesan yang dapat diukur atau memberi makanan kepada keputusan penting oleh pembuat dasar. Sebagai contoh, mengukur kadar pengangguran adalah penting kerana ia merupakan penunjuk ekonomi yang mendorong keputusan dasar. Pada umumnya, saya fikir para penyelidik mempunyai rasa yang sangat baik tentang apa yang penting. Oleh itu, di bahagian lain, saya akan menyediakan dua contoh di mana saya rasa pengiraan menarik. Dalam setiap kes, penyelidik tidak mengira secara sembarangan; Sebaliknya, mereka mengira dalam tetapan yang sangat khusus yang mendedahkan pandangan penting ke dalam idea yang lebih umum tentang bagaimana sistem sosial berfungsi. Dalam erti kata lain, banyak perkara yang membuat latihan mengira tertentu menarik bukanlah data itu sendiri, ia berasal dari idea-idea yang lebih umum ini.
Satu contoh kuasa mudah mengira datang dari kajian Henry Farber (2015) tentang tingkah laku pemandu teksi New York City. Walaupun kumpulan ini mungkin tidak terdengar menarik, ia adalah tapak penyelidikan strategik untuk menguji dua teori bersaing dalam ekonomi buruh. Untuk tujuan penyelidikan Farber, terdapat dua ciri penting mengenai persekitaran kerja pemandu teksi: (1) upah setiap jam mereka turun naik dari hari ke hari, berdasarkan sebahagian faktor seperti cuaca, dan (2) berapa jam mereka kerja boleh berubah-ubah setiap hari berdasarkan keputusan mereka. Ciri-ciri ini membawa kepada persoalan yang menarik tentang hubungan antara gaji dan jam kerja setiap jam. Model neoklasik dalam ekonomi meramalkan bahawa pemandu teksi akan bekerja lebih banyak pada hari di mana mereka mempunyai upah setiap jam yang lebih tinggi. Secara alternatif, model dari ekonomi tingkah laku meramalkan yang sebaliknya. Jika pemandu menetapkan sasaran pendapatan tertentu-kira-kira $ 100 setiap hari-dan bekerja sehingga sasaran itu dipenuhi, maka pemandu akan bekerja lebih sedikit pada hari-hari yang mereka memperoleh lebih banyak. Sebagai contoh, jika anda menjadi sasaran pendapatan, anda mungkin akan bekerja empat jam pada hari yang baik ($ 25 per jam) dan lima jam pada hari yang buruk ($ 20 per jam). Oleh itu, adakah pemandu bekerja lebih banyak waktu pada hari dengan upah setiap jam yang lebih tinggi (seperti yang diramalkan oleh model neoklasik) atau lebih banyak jam pada hari dengan upah per jam yang lebih rendah (seperti yang diramalkan oleh model ekonomi tingkah laku)?
Untuk menjawab pertanyaan ini Farber memperoleh data mengenai setiap perjalanan teksi yang diambil oleh teksi New York City dari tahun 2009 hingga 2013, data yang kini tersedia secara umum. Data-data ini yang dikumpul oleh meter elektronik yang memerlukan teksi untuk digunakan termasuk maklumat tentang setiap perjalanan: waktu mula, lokasi mula, waktu tamat, lokasi akhir, tambang, dan tip (jika tip telah dibayar dengan kad kredit) . Menggunakan data meter teksi ini, Farber mendapati bahawa kebanyakan pemandu bekerja lebih banyak pada hari-hari apabila upah lebih tinggi, selaras dengan teori neoklasik.
Di samping penemuan utama ini, Farber dapat menggunakan saiz data untuk pemahaman yang lebih baik tentang heterogen dan dinamik. Beliau mendapati bahawa, dari masa ke masa, pemandu baru secara beransur-ansur belajar untuk bekerja lebih banyak jam pada hari gaji tinggi (contohnya, mereka belajar untuk berperilaku sebagai model neoklasik yang diramalkan). Dan pemandu baru yang berkelakuan lebih seperti orang yang berniat sasaran lebih cenderung untuk berhenti menjadi pemandu teksi. Kedua-dua penemuan yang lebih halus ini, yang membantu menjelaskan tingkah laku yang diamati pemandu semasa, hanya mungkin kerana saiz dataset. Mereka adalah mustahil untuk mengesan dalam kajian terdahulu yang menggunakan kertas perjalanan kertas dari sebilangan kecil pemandu teksi dalam masa yang singkat (Camerer et al. 1997) .
Kajian Farber adalah dekat dengan senario terbaik untuk penyelidikan menggunakan sumber data besar kerana data yang dikumpulkan oleh bandar cukup dekat dengan data yang Farber akan dikumpulkan (satu perbezaan ialah Farber akan menginginkan data secara total gaji-tambang ditambah tip-tetapi data bandar hanya termasuk petua yang dibayar oleh kad kredit). Walau bagaimanapun, data sahaja tidak mencukupi. Kunci untuk penyelidikan Farber adalah membawa persoalan yang menarik kepada data, soalan yang mempunyai implikasi yang lebih besar di luar sekadar tetapan khusus ini.
Contoh kedua mengenai hal-hal yang dihitung adalah penyelidikan oleh Gary King, Jennifer Pan, dan Molly Roberts (2013) di penapisan dalam talian oleh kerajaan China. Dalam kes ini, bagaimanapun, para penyelidik terpaksa mengumpul data besar mereka sendiri dan mereka terpaksa berurusan dengan fakta bahawa data mereka tidak lengkap.
Raja dan rakannya didorong oleh hakikat bahawa jawatan media sosial di China disensor oleh alat negara yang sangat besar yang dianggap mencakup puluhan ribu orang. Walau bagaimanapun, para penyelidik dan warganegara kurang memahami bagaimana penapis ini menentukan kandungan apa yang harus dihapuskan. Ulama China benar-benar mempunyai jangkaan yang bercanggah tentang jenis jawatan yang kemungkinan besar akan dihapuskan. Sesetengah berpendapat bahawa penapis memberi tumpuan kepada jawatan yang kritikal terhadap negara, sementara yang lain berpendapat bahawa mereka memberi tumpuan kepada jawatan yang menggalakkan tingkah laku kolektif, seperti protes. Memikirkan yang mana jangkaan ini betul mempunyai implikasi untuk bagaimana para penyelidik memahami China dan kerajaan autoritarian lain yang terlibat dalam penapisan. Oleh itu, Raja dan rakan sekerja ingin membandingkan jawatan yang diterbitkan dan kemudian dihapuskan dengan jawatan yang diterbitkan dan tidak pernah dipadamkan.
Mengumpul jawatan-jawatan ini terlibat kejuruteraan feat yang menakjubkan merangkak lebih daripada 1000 laman web-setiap media sosial China dengan halaman yang berbeza susun atur pencarian catatan, dan kemudian kembali melawat jawatan ini untuk melihat yang kemudiannya dipadam. Selain daripada masalah kejuruteraan biasa dikaitkan dengan skala besar web merangkak, projek ini mempunyai cabaran yang menambah bahawa ia diperlukan untuk menjadi sangat cepat kerana banyak jawatan ditapis diambil ke bawah dalam masa kurang daripada 24 jam. Dalam erti kata lain, crawler perlahan akan terlepas banyak siaran yang telah ditapis. Selanjutnya, crawler terpaksa melakukan semua pengumpulan data ini sementara mengelakkan pengesanan supaya laman media sosial menyekat akses atau sebaliknya mengubah dasar mereka sebagai tindak balas kepada kajian ini.
Pada masa tugas kejuruteraan besar ini selesai, Raja dan rakan sekerja telah memperoleh kira-kira 11 juta jawatan di 85 topik yang berbeza-beza, masing-masing dengan tahap kepekaan yang diasumsikan. Sebagai contoh, topik kepekaan tinggi ialah Ai Weiwei, artis pembangkang; topik kepekaan tengah adalah penghargaan dan penurunan nilai mata wang Cina, dan topik kepekaan rendah adalah Piala Dunia. Daripada 11 juta jawatan ini, kira-kira 2 juta telah ditapis. Agak menghairankan, Raja dan rakan sekerja mendapati bahawa jawatan pada topik yang sangat sensitif ditapis hanya sedikit lebih kerap daripada jawatan pada topik tengah dan rendah kepekaan. Dalam erti kata lain, penapis China kira-kira mungkin menyensor jawatan yang menyebut Ai Weiwei sebagai jawatan yang menyebut Piala Dunia. Penemuan ini tidak menyokong idea bahawa penapis kerajaan semua menyiarkan topik sensitif.
Walau bagaimanapun, perhitungan kadar penapisan yang mudah ini boleh mengelirukan. Sebagai contoh, kerajaan mungkin menapis jawatan yang menyokong Ai Weiwei, tetapi meninggalkan jawatan yang kritikal terhadapnya. Untuk membezakan antara jawatan lebih berhati-hati, para penyelidik perlu mengukur sentimen setiap jawatan. Malangnya, walaupun banyak kerja, kaedah pengesanan sentimen secara automatik dengan menggunakan kamus yang sedia ada masih tidak begitu baik dalam banyak situasi (berfikir kembali kepada masalah yang mewujudkan garis masa emosi pada 11 September 2001 yang diterangkan dalam bahagian 2.3.9). Oleh itu, Raja dan rakan-rakan memerlukan cara untuk melabelkan 11 juta jawatan media sosial mereka sama ada mereka (1) kritikal terhadap negeri, (2) menyokong negara, atau (3) laporan yang tidak berkaitan atau fakta mengenai kejadian tersebut. Ini kelihatan seperti pekerjaan besar-besaran, tetapi mereka menyelesaikannya menggunakan helah yang biasa yang biasa dalam sains data tetapi agak jarang dalam sains sosial: pembelajaran yang diselia ; lihat angka 2.5.
Pertama, dalam satu langkah yang biasanya disebut preprocessing , para penyelidik menukar jawatan media sosial ke dalam matriks istilah dokumen , di mana terdapat satu baris bagi setiap dokumen dan satu lajur yang mencatatkan sama ada jawatan itu mengandungi perkataan tertentu (misalnya protes atau trafik) . Selanjutnya, sekumpulan pembantu penyelidik melabel sentimen sampel. Kemudian, mereka menggunakan data berlabel tangan ini untuk membuat model pembelajaran mesin yang dapat menyimpulkan sentimen jawatan berdasarkan ciri-cirinya. Akhirnya, mereka menggunakan model ini untuk menganggarkan sentimen semua 11 juta jawatan.
Oleh itu, bukannya secara manual membaca dan melabel 11 juta jawatan - yang mungkin tidak logistik - King dan rakan sekerja secara manual melabel sebilangan kecil jawatan dan kemudian menggunakan pembelajaran di bawah seliaan untuk menganggarkan sentimen semua jawatan. Selepas menamatkan analisis ini, mereka dapat menyimpulkan bahawa, agak menghairankan, kebarangkalian pos yang dipadamkan tidak berkaitan dengan sama ada ia kritikal terhadap negeri atau sokongan negara.
Akhirnya, Raja dan rakan sekerja mendapati hanya tiga jenis jawatan yang sering ditapis: pornografi, kritikan terhadap penapis, dan orang-orang yang mempunyai potensi tindakan kolektif (iaitu kemungkinan membawa kepada bantahan besar-besaran). Dengan memerhati sejumlah besar jawatan yang dipadam dan jawatan yang tidak dipadamkan, Raja dan rakan sekerja dapat mengetahui bagaimana pengawal berfungsi hanya dengan menonton dan mengira. Tambahan pula, membayangkan tema yang akan berlaku di seluruh buku ini, pendekatan pembelajaran yang diawasi yang mereka gunakan-pelabelan tangan beberapa hasil dan kemudian membina model pembelajaran mesin untuk melabelkan selebihnya-ternyata sangat umum dalam penyelidikan sosial dalam zaman digital . Anda akan melihat gambar yang hampir sama dengan angka 2.5 dalam bab 3 (Menanya soalan) dan 5 (Mencipta kolaborasi massa); ini adalah salah satu daripada beberapa idea yang muncul dalam beberapa bab.
Contoh-contoh ini-tingkah laku pekerja pemandu teksi di New York dan tingkah laku penapisan media sosial kerajaan China-menunjukkan bahawa pengiraan yang agak mudah untuk sumber data besar boleh, dalam beberapa situasi, membawa kepada kajian yang menarik dan penting. Walau bagaimanapun dalam kedua-dua kes, para penyelidik terpaksa membawa soalan-soalan menarik kepada sumber data besar; data itu sendiri tidak mencukupi.