არაპროფესიონალური მონაცემები არასწორია გამონაკლისი განზოგადებისათვის, მაგრამ შეიძლება საკმაოდ სასარგებლო იყოს შიგნით ნიმუშების შედარებით.
ზოგიერთი სოციალური მეცნიერი მიჩვეულია იმ მონაცემებთან მუშაობისას, რომლებიც წარმოიშვება ალბათობით გამოკვეთილი მოსახლეობის ალბათობით შემთხვევითი ნიმუშისაგან, მაგალითად, კონკრეტული ქვეყნის ყველა მოზარდი. ამგვარი მონაცემები ეწოდება წარმომადგენლობითი მონაცემების გამო, რადგან ნიმუში "წარმოადგენს" უფრო დიდ მოსახლეობას. ბევრი მკვლევარების საპრიზო წარმომადგენლის მონაცემები და ზოგიერთი წარმომადგენელი მონაცემები სინონიმი მკაცრი მეცნიერებით, ხოლო არაპროფესიონალური მონაცემები სინონიმი sloppiness. ყველაზე ექსტრემალურ ნაწილში ზოგი სკეპტიკოსი მიიჩნევს, რომ არაფრისაგან განსხვავებული მონაცემები ვერ იგებს. მართალია, ეს უფრო მწვავედ ზღუდავს იმას, თუ რა შეიძლება ითქვას დიდი მონაცემთა წყაროებიდან, რადგან ბევრი მათგანი არაპროპორციულია. საბედნიეროდ, ეს სკეპტიკოსები მხოლოდ ნაწილობრივ არიან. არსებობს გარკვეული კვლევითი მიზნები, რომელთათვისაც არაპროფესიონალური მონაცემები აშკარად არ არის შესაფერისი, მაგრამ არსებობს სხვებიც, რომლითაც შეიძლება საკმაოდ სასარგებლო იყოს.
ამ განსხვავების გასაგებად, განვიხილოთ სამეცნიერო კლასიკური: ლონდონის 1853-54 ქოლერის გამოვლენის შესახებ ჯონ თოვლის შესწავლა. იმ დროს, ბევრი ექიმი მიიჩნევდა, რომ ქოლერის გამოწვეული იყო "ცუდი ჰაერი", მაგრამ თოვლი სჯეროდა, რომ ეს იყო ინფექციური დაავადება, რომელიც შესაძლოა გავრცელებულიყო კანალიზაციის წყლით. ამ იდეის შესამოწმებლად, თოვლი ისარგებლა იმაზე, რაც ჩვენ შეგვიძლია მოვუწოდებთ ბუნებრივ ექსპერიმენტს. მან შეადარა ორი სხვადასხვა წყლის კომპანიების ქოლერის განაკვეთები: Lambeth და Southwark & Vauxhall. ეს კომპანიები ემსახურებოდნენ მსგავსი ოჯახებს, მაგრამ ერთმანეთისგან განსხვავდებოდნენ: 1849 წელს - ეპიდემიის დაწყებამდე რამდენიმე წლით ადრე - ლამბეტმა ლონდონის ძირითადი საკანალიზაციო ჩამდინარე წყლების გადაადგილება დაიწყო, ხოლო სამხრეთი და ვაუქსი კანალიზაციის გამონადენი. როდესაც თოვლი შედარებით გარდაცვალების განაკვეთები ქოლერის ოჯახი ორ კომპანიას ემსახურება, მან აღმოაჩინა, რომ მომხმარებელს Southwark & Vauxhall- ის კომპანიას, რომელიც მომხმარებელს უტარდებოდა საკანალიზაციო- tainted წყალი იყო 10 ჯერ უფრო სავარაუდოა იღუპება ქოლერის. ეს შედეგი გვაძლევს ძლიერ სამეცნიერო მტკიცებულებას თოვლის არგუმენტს ქოლერის მიზეზით, მიუხედავად იმისა, რომ ის ლონდონში მცხოვრები ადამიანების წარმომადგენელთა შერჩევას არ ემყარება.
თუმცა, ამ ორი კომპანიის მონაცემებს არ ექვემდებარება იდეალური პასუხების გასაკეთებლად: რა იყო ლონდონში ქოლერას გავრცელების დროს? მეორე კითხვაზე, რაც ასევე მნიშვნელოვანია, ბევრად უკეთესი იქნებოდა ლონდონის წარმომადგენლების წარმომადგენლის შერჩევა.
თოვლი მუშაობისას გვიჩვენებს, რომ არსებობს გარკვეული სამეცნიერო კითხვები, რომლისთვისაც არაპროფესიონალური მონაცემები საკმაოდ ეფექტურია და არსებობს სხვები, რომელთათვისაც კარგად არ არის შესაფერისი. ამ ორი ტიპის შეკითხვის განმსაზღვრელი ერთი ნდობაა ის, რომ ზოგი კითხვაა ნიმუშების შედარებაზე და ზოგიერთი მათგანის შესახებ. ეს განსხვავება შეიძლება კიდევ უფრო ილუსტრირებული ეპიდემიოლოგიის კიდევ ერთი კლასიკური შესწავლით: ბრიტანეთის ექიმების კვლევა, რომელიც მნიშვნელოვან როლს ასრულებდა იმის გამოვლენისას, რომ მოწევა კიბოს იწვევს. ამ კვლევაში, რიჩარდ თოჯელი და ა. ბრედფორდ ჰილი მოჰყვა დაახლოებით 25,000 ექიმს რამოდენიმე წლის განმავლობაში და შედარებით სიკვდილიანობის მაჩვენებლებზე დაყრდნობით იმ თანხის საფუძველზე, რომლებიც სწავლობდნენ სწავლის დაწყებამდე. თოჯინა და ჰილი (1954) იპოვეს ძლიერი ექსპოზიციის საპასუხოდ: უფრო მეტად ადამიანი შებოლილი, უფრო სავარაუდოა, რომ ისინი ფილტვის კიბოსგან იღუპებიან. რა თქმა უნდა, უგუნური იქნებოდა ფილტვის კიბოს გავრცელების შეფასება ყველა ბრიტანელ ხალხში, რომელიც ეფუძნება მამრობითი ექიმების ჯგუფს, მაგრამ შიგნით შედარებითი შედარებით კვლავ მტკიცებულებაა, რომ მოწევა ფილტვის კიბოს იწვევს.
ახლა, როდესაც მე გამოვყოფდი განსხვავება შიგა-ნიმუში შედარებებისა და შუალედური განზოგადების მიხედვით, ორი წესრიგია. პირველი, ბუნებრივად არის კითხვები იმის შესახებ, თუ რა დამოკიდებულება აქვს მამაკაცის, ბრიტანელი ექიმების ნიმუშს, ბრიტანეთის ექიმების ან ბრიტანელი საწარმოების ან ქალბატონების გერმანელი ქარხნის მუშაკებს ან სხვა გერმანულ მეწარმეებს. ეს კითხვები საინტერესო და მნიშვნელოვანია, მაგრამ ისინი განსხვავდებიან იმის შესახებ, თუ რამდენად შეგვიძლია განვიხილოთ მოსახლეობის ნიმუში. მაგალითად, გაითვალისწინეთ, რომ თქვენ ალბათ ეჭვობს, რომ მოზარდისა და კიბოს შორის ურთიერთობა, რომელიც ბრიტანელი ექიმების მიერ აღმოჩენილია, ალბათ მსგავსია ამ სხვა ჯგუფებში. ეს ექსტრაპოლაციის გაკეთების უნარი არ მოდის იმ ფაქტიდან, რომ მამრობითი ბრიტანელი ექიმები ნებისმიერი მოსახლეობისგან ალბათობის შემთხვევითი ნიმუშია; უფრო სწორად, ის გულისხმობს მექანიზმის გაგებას, რომელიც უკავშირდება მოწევას და კიბოს. აქედან გამომდინარე, მოსახლეობისთვის შერჩეული ნიმუშის განზოგადება, ძირითადად, სტატისტიკურ საკითხს წარმოადგენს, მაგრამ ერთ ჯგუფში სხვა ჯგუფში აღმოჩენილი ნიმუშების ტრანსპორტირებაზე მეტწილად არატრადიციული საკითხია (Pearl and Bareinboim 2014; Pearl 2015) .
ამ ეტაპზე სკეპტიკურად შეიძლება აღინიშნოს, რომ სოციალური ქსელების უმრავლესობა, ალბათ, ნაკლებად ტრანსპორტირებად ჯგუფებს შორის, ვიდრე მოწევა და კიბოს შორის ურთიერთობა. და მე ვეთანხმები. იმდენად, რამდენადაც ჩვენ უნდა ველოდოთ ნიმუშებს ტრანსპორტირება საბოლოოა სამეცნიერო კითხვა, რომელიც უნდა გადაწყვიტოს თეორიისა და მტკიცებულებების საფუძველზე. ავტომატურად არ უნდა იქნეს მიჩნეული, რომ ნიმუშები ტრანსპორტირებადი იქნება, მაგრამ არ უნდა იქნეს მიჩნეული, რომ ისინი არ იქნება ტრანსპორტირება. ეს გარკვეულწილად აბსტრაქტული კითხვები (Sears 1986, [@henrich_most_2010] ) თუ დებატებს მოჰყვება, თუ რამდენად მკვლევარებს სწავლობენ ბაკალავრიატის მოსწავლეებს (Sears 1986, [@henrich_most_2010] ) . მიუხედავად იმისა, რომ ეს დებატები იყო, გაუმართლებელი იქნებოდა იმის თქმა, რომ მკვლევარებს ვერ სწავლობენ ბაკალავრიატის მოსწავლეებს.
მეორე მწვავე ის არის, რომ არაპროფესიონალური მონაცემების უმრავლეს მკვლევარები არ არიან ფრთხილად, როგორც თოვლი ან თოჯინა და ჰილი. ასე რომ, იმის დასადგენად, თუ რა შეიძლება იყოს არასწორი, მკვლევარებმა ცდილობენ არაპროფესიონალური მონაცემების გარეთ გამონაკლისი განზოგადებას, მინდა გითხრათ ანდრიკ ტუსაშანისა და კოლეგების 2009 წლის საპარლამენტო არჩევნების შესწავლაზე (2010) . 100 000-ზე მეტი ტვიტის ანალიზისას მათ აღმოაჩინეს, რომ პოლიტიკურ პარტიასთან მომხდარი ტევტების პროპორციამ შეადგინა საპარლამენტო არჩევნებში მონაწილე პარტიების რაოდენობა (ფიგურა 2.3). სხვა სიტყვებით რომ ვთქვათ, აღმოჩნდა, რომ Twitter მონაცემები, რომელიც არსებითად თავისუფალია, შეეძლო შეცვალოს ტრადიციული საზოგადოებრივი აზრის კვლევები, რაც ძვირია, რადგან მათი წარმომადგენლების მონაცემების გათვალისწინებით.
იმის გათვალისწინებით, რაც სავარაუდოდ უკვე იცით Twitter- ის შესახებ, მაშინ დაუყოვნებლივ უნდა იყოს სკეპტიკურად ამ შედეგი. გერმანელები 2009 წელს Twitter- ზე არ იყვნენ გერმანიის ამომრჩეველთა ალბათობის შემთხვევითი შერჩევა და ზოგიერთ მხარის მხარდამჭერებს შესაძლოა უფრო ხშირად შეეხონ პოლიტიკას სხვა პარტიების მხარდამჭერებზე. ამდენად, გასაკვირია, რომ ყველა შესაძლო მიკერძოება, რომელიც შეიძლება წარმოიდგენდა, იქნებოდა გაუქმებული, რომ ეს მონაცემები პირდაპირ აისახება გერმანელი ამომრჩევლებისგან. ფაქტობრივად, შედეგები Tumasjan et al. (2010) აღმოჩნდა ძალიან კარგი სიმართლე. ანდრეას იუნგჰერერის, პასკალ იურგენსის და ჰარალდ შონენის (2012) მიერ შემუშავებული ქაღალდი გვიჩვენებს, რომ ორიგინალური ანალიზით გამოირიცხებოდა პოლიტიკური პარტია, რომელიც რეალურად მიიღო Twitter- ზე ყველაზე მეტად: Pirate Party, პატარა პარტია, რომელიც ებრძვის მთავრობის რეგულაციას ინტერნეტში. როდესაც Pirate Party შეტანილი იქნა ანალიზში, Twitter აღნიშნავს არჩევნების შედეგების საშინელ პროგნოზს (ფიგურა 2.3). როგორც ეს მაგალითი გვიჩვენებს, არაპროფესიონალურად მსხვილ მონაცემთა წყაროების გამოყენებით, გამონაკლისი განზოგადების გასაკეთებლად ძალიან არასწორია. ასევე, უნდა შეამჩნიოთ, რომ ის ფაქტი, რომ 100 000 ტავი იყო, ძირითადად არ იყო საკმარისი: არაპროფესიონალური მონაცემები ჯერ კიდევ არ არის წარმომადგენელი, თემა რომ დავუბრუნდე მე -3 თავში, როდესაც ვკითხულობ კვლევებს.
დაასკვნა, რომ ბევრი დიდი მონაცემთა წყარო არ არის წარმომადგენლობითი ნიმუშები ზოგიერთი კარგად განსაზღვრული მოსახლეობისგან. იმ კითხვებზე, რომლებიც საჭიროებენ შერჩევის შედეგების გენერალიზებას იმ მოსახლეობისგან, რომელთაგან შედგებოდა ეს, ეს სერიოზული პრობლემაა. მაგრამ კითხვარის შიგნით შედარებითი მაჩვენებლების შესახებ კითხვების დასმა შეიძლება იყოს ძლიერი, რადგან მკვლევარებმა ცხადი გახადონ თავიანთი ნიმუშის მახასიათებლებისა და თეორიული ან ემპირიული მტკიცებულებების მქონე ტრანსპორტირების შესახებ პრეტენზიები. სინამდვილეში, ჩემი იმედი ისაა, რომ დიდი მონაცემთა წყაროები საშუალებას მისცემს მკვლევარებს საშუალება მიეცონ უფრო მეტად არაპროფესიონალური ჯგუფების შედარებით შუალედურ შედარებას, და ჩემი ვარაუდებია, რომ სხვადასხვა ჯგუფების შეფასებები უფრო მეტს შეასრულებს სოციალურ კვლევას, ვიდრე ერთი ალბათობა ალბათობა ნიმუში.