Simple დათვლა შეიძლება იყოს საინტერესო, თუ გავაერთიანებთ კარგი კითხვა კარგი მონაცემები.
მიუხედავად იმისა, რომ იგი არის დახვეწილი დახვეწილი ენა, ბევრი სოციალური კვლევა მართლაც მხოლოდ დათვლის რამ. დიდი მონაცემების ასაკში მკვლევარები უფრო მეტს ითვლიან, მაგრამ ეს არ ნიშნავს იმას, რომ ისინი უბრალოდ დაიწყებდნენ დათვლას. ამის ნაცვლად, მკვლევარებმა უნდა იკითხო: რა ღირს დათვლა? ეს ჩანდეს სრულიად სუბიექტური საკითხი, მაგრამ არსებობს ზოგადი ნიმუში.
ხშირად მოსწავლეები თვლიან, რომ მათი დათვლის კვლევამ თქვა: მე ვაპირებ რაღაცის დათვლას, რომელიც ადრე არავის არასოდეს ყოფილა დათვლილი. მაგალითად, სტუდენტი შეიძლება ითქვას, რომ ბევრმა ადამიანმა შეისწავლა მიგრანტები და ბევრი ადამიანი სწავლობდა ტყუპებს, მაგრამ მიგრანტ ტყუპებს არავინ სწავლობდა. ჩემი გამოცდილება, ეს სტრატეგია, რომელსაც მე ვუწოდებ მოტივაციის არარსებობით , ჩვეულებრივ არ იწვევს კარგ კვლევას. არარსებობის მოტივაცია არის ისეთი, როგორიც არის, რომ იქ არის ხვრელი და მე ძალიან ვმუშაობ, რომ შეავსო იგი. მაგრამ ყველა ხვრელი არ უნდა იყოს სავსე.
იმის ნაცვლად, რომ არ იყოს მოტივირებული, მე ვფიქრობ, რომ უკეთესი სტრატეგიაა გამოიძიოს კვლევის კითხვები, რომლებიც მნიშვნელოვანია ან საინტერესოა (ან იდეალურად ორივე). ორივე ამ თვალსაზრისით ძნელია განისაზღვროს, მაგრამ მნიშვნელოვანია, რომ მნიშვნელოვანი კვლევაზე ფიქრი ისაა, რომ მას აქვს გარკვეული გაზომვადი ზემოქმედება ან პოტენციალი პოლიტიკოსების მიერ მნიშვნელოვანი გადაწყვეტილების მიღებისას. მაგალითად, უმუშევრობის მაჩვენებლის გაზომვა მნიშვნელოვანია იმიტომ, რომ ეს არის ეკონომიკის მაჩვენებელი, რომელიც პოლიტიკის გადაწყვეტილებებს მართავს. ზოგადად, მე ვფიქრობ, რომ მკვლევარებს აქვთ საკმაოდ კარგი გრძნობა, თუ რა არის მნიშვნელოვანი. ასე რომ, დანარჩენი ამ სექციაში, მე ვაპირებ ორ მაგალითს, სადაც ვფიქრობ, რომ დათვლა საინტერესოა. ყოველ შემთხვევაში, მკვლევარებმა არ ჩაითვალათ შეუძლებელი; უფრო სწორად, ისინი ითვლიან ძალიან კონკრეტულ პარამეტრებში, რომლებიც გამოვლინდნენ ზოგადი იდეების შესახებ, თუ როგორ მუშაობს სოციალური სისტემები. სხვა სიტყვებით რომ ვთქვათ, ბევრი რამ ხდის ამ კონკრეტულ დათვლის წვრთნებს საინტერესო არ არის მონაცემები, ეს უფრო ზოგადი იდეებია.
ერთი მაგალითი უბრალო ძალა დათვლის მოდის ჰენრი Farber- ს (2015) შესწავლა ქცევის New York City ტაქსის მძღოლები. მიუხედავად იმისა, რომ ამ ჯგუფს არ შეუძლია გასაკვირი არ არის, ეს სტრატეგიული კვლევითი საიტია შრომითი ეკონომიკის ორი კონკურენციის თეორიის შესამოწმებლად. ფარბერის კვლევის მიზნებისათვის ტაქსის მძღოლების სამუშაო გარემოს შესახებ ორი მნიშვნელოვანი მახასიათებელია: (1) მათი საათობრივი ხელფასი ყოველდღიურად იცვლება, როგორც ამინდის, ასევე (2) საათების რაოდენობა, სამუშაოს შეუძლია ყოველდღიურად მერყეობა მათი გადაწყვეტილების საფუძველზე. ეს თვისებები გამოიწვიოს საინტერესო კითხვას შორის ურთიერთობა საათობრივი ხელფასი და საათი მუშაობდა. ნეოკლასიკური მოდელები ეკონომიკაში პროგნოზირებენ, რომ ტაქსის მძღოლები იმუშავებენ უფრო მეტ დღეებში, სადაც მათ აქვთ მაღალი საათობრივი ხელფასი. გარდა ამისა, ქცევითი ეკონომიკის მოდელები ზუსტად საპირისპიროა. თუ მძღოლები კონკრეტულ შემოსავალს განსაზღვრავენ - ამბობენ, რომ დღეღამეში 100 დოლარი და სამუშაო შესრულდება, სანამ ეს სამიზნე არ დასრულდება, მძღოლები დღეში უფრო ნაკლები საათის განმავლობაში მუშაობენ, რომ ისინი უფრო მეტს იშურებენ. მაგალითად, თუ სამიზნე შემოსავალი იყო, თქვენ შეიძლება დასრულდეს 4 საათიანი სამუშაო დღის განმავლობაში ($ 25 საათში) და 5 საათი ცუდი დღე ($ 20 საათში). ასე რომ, მძღოლები უფრო მეტ საათს იცვლიან დღე-ღამის გაღრმავებით (ნეოკლასიკური მოდელების წინასწარმეტყველება) ან მეტი საათის განმავლობაში ქვედა საათობრივი ხელფასით (როგორც ქცევითი ეკონომიკური მოდელების მიხედვით)?
ამ კითხვაზე პასუხის გასაცემად, ფარბერმა მოიპოვა მონაცემები ნიუ-იორკის სატვირთო მანქანების მიერ 2009 წლიდან 2013 წლამდე მიღებული ყველა ტაქსზე, რაც ახლა საჯაროდ ხელმისაწვდომია. ეს მონაცემები, რომლებიც აგროვებდა ელექტრონული მრიცხველების მიერ, რომ ქალაქს მოითხოვს ტაქსების გამოყენება, მოიცავს ინფორმაციას თითოეული მგზავრობის შესახებ: დაწყების დრო, დაიწყე ადგილი, დასრულების დრო, ბოლო მდებარეობა, მგზავრობის და წვერი (თუ წვერი გადაიხადა საკრედიტო ბარათებით) . ამ ტაქსონის მეტრის მონაცემებით, Farber- მა აღმოაჩინა, რომ მძღოლების უმრავლესობა უფრო მეტ დროს მუშაობს, როდესაც ხელფასები მაღალია, ნეოკლასიკური თეორიის შეესაბამება.
ამ ძირითად დასკვნასთან ერთად, ფარბერს შეეძლო მონაცემთა ზომა გამოეყენებინა ჰეტეროგენურობისა და დინამიკის უკეთ გაცნობა. მან აღმოაჩინა, რომ დროთა განმავლობაში, ახალი მძღოლები თანდათანობით სწავლობენ მეტი საათის განმავლობაში მაღალანაზღაურებადი დღეებში (მაგალითად, ისინი ისწავლიან მოიქეცი როგორც ნეოკლასიკური მოდელი პროგნოზით). და ახალი მძღოლები, რომლებიც იქცევიან უფრო მეტ მომენტში არიან, უფრო სავარაუდოა, რომ დატოვონ ტაქსის მძღოლები. ორივე ეს უფრო დახვეწილი დასკვნები, რომლებიც ხელს უწყობენ ამჟამინდელი დრაივერების დაკვირვების ქცევას, შესაძლებელი იყო მხოლოდ მონაცემთა გადაცემის ზომის გამო. შეუძლებელი იყო ადრეული გამოკვლევების ჩატარება, რომლებიც იყენებდნენ მცირე ზომის ტაქსის მძღოლებისგან მოკლე დროში (Camerer et al. 1997) .
Farber- ის შესწავლა ახლოს იყო ყველაზე დიდი სცენარის კვლევით, რომელიც იყენებს დიდ მონაცემთა წყაროს, რადგან მონაცემები, რომლებიც ქალაქის მიერ შეგროვებულები იყვნენ, ახლოს იყვნენ მონაცემები, რომლებიც ფარბერს შეაგროვებდნენ (ერთი განსხვავება ისაა, რომ ფარბერს სულ სურდა ხელფასები - fares პლუს რჩევები, მაგრამ ქალაქის მონაცემები მხოლოდ შედის რჩევები გადახდილი საკრედიტო ბარათი). თუმცა, მონაცემები არ იყო საკმარისი. Farber- ის კვლევის გასაღები იყო საინტერესო კითხვა მონაცემების, კითხვა, რომელიც უფრო დიდი გავლენების მიღმა მხოლოდ ამ კონკრეტულ გარემოში.
დათვლის ნიმუშების მეორე მაგალითია გარი კინგი, ჯენიფერ პან და მოლი რობერტსი (2013) კვლევა ჩინეთის მთავრობის მიერ ონლაინ ცენზურაზე. ამ შემთხვევაში, მკვლევარებმა უნდა მოაგროვეს საკუთარი დიდი მონაცემები და მათ უნდა შეეტანათ ის ფაქტი, რომ მათი მონაცემები არასრული იყო.
მეფე და კოლეგები მოტივირებული იყო იმით, რომ ჩინეთში სოციალური მედიის პოსტი ცენზურას უზარმაზარი სახელმწიფო აპარატით, რომელიც ფიქრობს ათობით ათასი ადამიანისთვის. თუმცა მკვლევარებმა და მოქალაქეებმა ნაკლებად იციან, თუ როგორ იწყებენ ამ ცენზორს, რა შინაარსის წაშლა უნდა. ჩინეთის მკვლევარებს რეალურად აქვთ განსხვავებული მოსაზრებები იმის შესახებ, თუ რომელი სახის შეტყობინება უფრო სავარაუდოა, რომ წაიშალოს. ზოგიერთი ფიქრობს, რომ ცენზორები ყურადღებას ამახვილებენ პოსტებზე, რომლებიც კრიტიკულად არიან განწყობილნი, ზოგი კი მიიჩნევს, რომ ფოკუსირდება კოლექტიურ ქცევებზე, როგორიცაა საპროტესტო აქციები. ამ მოლოდინების სწორად გასაგებად ჩანს, თუ როგორ მკვლევარებს ესმით ჩინეთი და სხვა ავტორიტარული მთავრობები, რომლებიც ცენზურაში ჩადიან. აქედან გამომდინარე, მეფე და კოლეგები უნდოდათ შედარებული პოსტების გამოქვეყნება და შემდგომში წაიშალა პოსტი, რომელიც გამოქვეყნდა და არასოდეს წაიშალა.
შეგროვება ამ ფორუმზე ჩართული საოცარი საინჟინრო feat მცოცავი 1000-ზე მეტი ჩინური სოციალური მედია საიტებზე თითოეული სხვადასხვა გვერდი ფორმატისთვის დამდგენი შესაბამისი შეტყობინება და შემდეგ გადახედვას ამ ფორუმზე ვხედავ რომლებიც შემდგომში იშლება. გარდა ამისა, ნორმალური საინჟინრო დაკავშირებული პრობლემების მასშტაბური ვებ-crawling, ამ პროექტს დამატებითი გამოწვევა, რომ ეს საჭირო იქნება ძალიან სწრაფად, რადგან ბევრი ცენზურა პოსტი ჩამოიყვანეს ნაკლებ 24 საათის განმავლობაში. სხვა სიტყვებით, ნელი crawler მენატრება უამრავი შეტყობინება, რომ ცენზურა იყო დაწესებული. გარდა ამისა, შემოდიან უნდა გაეკეთებინათ ყველა ამ მონაცემთა შეგროვების ხოლო გვერდის ავლით გამოვლენის ნუუკუე სოციალური მედია საიტებზე დაბლოკოს ხელმისაწვდომობის ან სხვაგვარად შეცვალოს მათი პოლიტიკის საპასუხოდ შესწავლა.
იმ დროისათვის, რომ ეს მასიური საინჟინრო ამოცანა დასრულდა, მეფე და კოლეგები მოიპოვეს დაახლოებით 11 მილიონი პოსტი 85 სხვადასხვა prespecified თემებზე, თითოეული სავარაუდო დონის მგრძნობელობა. მაგალითად, მაღალი მგრძნობელობის თემა არის დისიდენტი მხატვრის აი ვეივეი; შუა მგრძნობელობის თემას წარმოადგენს ჩინური ვალუტის მადლიერება და დევალვაცია, ხოლო დაბალი მგრძნობელობის თემაა მსოფლიო თასი. ამ 11 მილიონი შეტყობინებადან, დაახლოებით 2 მილიონი იყო ცენზურა. გარკვეულწილად გასაკვირი, მეფე და კოლეგებმა აღმოაჩინეს, რომ უაღრესად მგრძნობიარე თემებზე განთავსებული პოსტი მხოლოდ ოდნავ უფრო ხშირად აღინიშნა, ვიდრე საშუალო და დაბალი მგრძნობელობის თემებზე. სხვა სიტყვებით რომ ვთქვათ, ჩინელი ცენზორები იმდენად სავარაუდოდ განიხილავენ, რომ Ai Weiwei- ს პოსტი, რომელიც მსოფლიო ჩემპიონატზე საუბრობს. ეს დასკვნები მხარს არ უჭერს იდეას, რომ მთავრობა სენსიტიური თემების ყველა პოსტს იკავებს.
თუმცა ცენზურის ეს მარტივი გაანგარიშება თემის მეშვეობით შეიძლება შეცდომაში შეიყვანოს. მაგალითად, მთავრობამ შეიძლება შეაჩეროს Ai Weiwei- ის მხარდამჭერი პოსტი, მაგრამ დატოვონ შეტყობინება, რომლებიც მას კრიტიკულად აფასებენ. იმისათვის, რომ უფრო მკაფიოდ გამოვყოთ შეტყობინება, მკვლევარებმა საჭიროა თითოეული პოსტის განწყობის გაზომვა. სამწუხაროდ, მიუხედავად იმისა, რომ ბევრი მუშაობა, სენსიტიური გამოვლენის სრულად ავტომატიზირებული მეთოდები ადრე არსებული ლექსიკონების გამოყენებით, ჯერ კიდევ არ არის ძალიან კარგი, ბევრ სიტუაციაში (ფიქრობთ იმ პრობლემებზე, რომლებიც ქმნიან 2001 წლის 11 სექტემბრის ემოციურ ვადას, რომელიც აღწერილია სექციაში 2.3.9). ამიტომ, მეფესა და კოლეგებს საშუალება მიეცათ 11 მილიონი სოციალური მედიის ჩანაწერების წარდგენა, თუ რამდენად იყო სახელმწიფო (1) სახელმწიფოს კრიტიკული, (2) სახელმწიფოს მხარდაჭერა, ან (3) მოვლენების შესახებ შეუსაბამო ან ფაქტობრივი რეპორტაჟები. ეს ჟღერს მასიური სამუშაოს, მაგრამ ისინი წყვეტდნენ ის მძლავრი შეასხით, რაც მონაცემთა მეცნიერების საერთოა, მაგრამ შედარებით იშვიათია სოციალურ მეცნიერებაში: ზედამხედველობითი სწავლება ; იხ. ფიგურა 2.5.
პირველ რიგში, ნაბიჯი ჩვეულებრივ მოუწოდა preprocessing, მკვლევართა მოაქცია სოციალური მედიის ფორუმზე დოკუმენტი გრძელვადიანი matrix, სადაც არ იყო ერთი რიგის თითოეული დოკუმენტი და ერთი სვეტი, რომ ჩაწერა თუ პოსტი შეიცავს კონკრეტული სიტყვა (მაგალითად, პროტესტი და მოძრაობის) . შემდეგ, მკვლევართა ჯგუფის მკვლევართა ჯგუფმა ხელი მოაწერეს პოსტების ნიმუშის განწყობას. ამის შემდეგ ისინი იყენებდნენ ამ ხელსაყრელ მონაცემებს მანქანათმცოდნეობის მოდელი, რომელიც შეეძლო გამოეჩინა პოსტის განწყობა მისი მახასიათებლების საფუძველზე. საბოლოო ჯამში, ისინი ამ მოდელს იყენებდნენ 11 მილიონ პოსტიანი განწყობის განცდას.
ამრიგად, 11 მილიონი პოსტი, რომელიც თვითნებურად შეუძლებელი იქნებოდა, მეტყველებს და არა მარტო ხელბორკილებს - მეფე და კოლეგები ხელით უშვებენ მცირე რაოდენობის პოსტებს და შემდეგ ზედამხედველობას სწავლობენ ყველა პოსტის განწყობის შეფასების მიზნით. ამ ანალიზის დასრულების შემდეგ მათ შეეძლოთ დავასკვნათ, რომ გარკვეულწილად გასაკვირი არ არის, რომ პოსტის წაშლის ალბათობა არ უკავშირდება თუ არა სახელმწიფოს კრიტიკას ან სახელმწიფოს მხარდაჭერას.
საბოლოო ჯამში, მეფე და კოლეგებმა აღმოაჩინეს, რომ რეგულარულად შეინიშნებოდა მხოლოდ სამი სახის შეტყობინება: პორნოგრაფია, ცენზურის კრიტიკა და კოლექტიური მოქმედების პოტენციალი (ანუ ფართომასშტაბიანი საპროტესტო გამოსვლების შესაძლებლობა). დაკვირვების დიდი რაოდენობის შეტყობინება, რომელიც წაშლილი და პოსტი, რომელიც არ წაშლილია, მეფე და კოლეგები შეძლეს ისწავლონ, თუ როგორ ცენზურა მუშაობს მხოლოდ თვალს და დათვლა. ამასთან, ამ წიგნის მასშტაბით მოხდება ისეთი თემა, რომელიც მოხდება ზედამხედველობითი სწავლების მიდგომის შესახებ, რომლითაც ისინი იყენებდნენ გარკვეულ შედეგებს და შემდეგ შეიმუშავებენ მანქანათმცოდნეობის მოდელს დანარჩენი გამონაკლისს, რომელიც სოციალურ კვლევაში ციფრულ ასაკში . სურათებს იხილავთ 2.5-ე თავებში 3 (კითხვის დასმა) და 5 (მასობრივი თანამშრომლობის შექმნა); ეს არის ერთ-ერთი იმ რამდენიმე იდეა, რომელიც სხვადასხვა თავებშია ჩნდება.
ეს მაგალითები - ნიუ-იორკის ტაქსის მძღოლების მუშაობის ქცევა და ჩინეთის მთავრობის სოციალური მედიის ცენზურის ქცევა - აჩვენებს, რომ შედარებით მარტივი მონაცემების დიდი რაოდენობა შეიძლება გარკვეულ შემთხვევებში გამოიწვიოს საინტერესო და მნიშვნელოვან კვლევებზე. თუმცა, ორივე შემთხვევაში, მკვლევარებს უნდა ჰქონოდათ საინტერესო კითხვები დიდი მონაცემთა წყაროდან; მონაცემები არ იყო საკმარისი.