აკავშირებს გამოკითხვა ციფრული კვალი შეიძლება იყოს, როგორიცაა გეკითხებით ყველას თქვენს შეკითხვებს ნებისმიერ დროს.
კითხვის ზოგადად მოდის ორ ძირითად კატეგორიად: ნიმუში კვლევები და აღწერების. Sample კვლევები, სადაც თქვენ შედიხართ მცირე რაოდენობის ადამიანი, შეიძლება იყოს მოქნილი, დროული და შედარებით იაფი. თუმცა, ნიმუში კვლევები, იმიტომ, რომ ისინი ეფუძნება ნიმუში, ხშირად შეზღუდული მათი მოგვარების; ნიმუში კვლევა, ხშირად იმისთვის, რომ შეფასებები კონკრეტული გეოგრაფიული რეგიონების და კონკრეტული დემოგრაფიული ჯგუფები. აღწერის, მეორეს მხრივ, ცდილობენ გასაუბრებას ყველას მოსახლეობაში. მათ აქვთ დიდი გაფართოება, მაგრამ ისინი ზოგადად ძვირი, ვიწრო აქცენტი (მათ მხოლოდ მცირე რაოდენობის კითხვები), და არა დროული (მოხდება გრაფიკით, როგორიცაა 10 წლის) (Kish 1979) . ახლა წარმოიდგინეთ, თუ მკვლევარები ვერ გაერთიანდება საუკეთესო მახასიათებლები ნიმუში კვლევები და აღწერების; წარმოიდგინეთ, თუ მკვლევარები ვერ ვთხოვთ ყველა კითხვას რომ ყველას ყოველდღე.
ცხადია, ეს მუდმივი, ubiquitous, ყოველთვის კვლევის არის ერთგვარი სოციალურ მეცნიერებათა ფანტაზია. მაგრამ, როგორც ჩანს, ჩვენ დავიწყებთ მიახლოებით აერთიანებს გამოკითხვა მცირე რაოდენობის ადამიანების ციფრული კვალი ბევრი ადამიანი. მოვუწოდებ ამ ტიპის კომბინაცია გაძლიერდეს ითხოვს. თუ კეთდება კარგად, ის შეიძლება დაგვეხმაროს უზრუნველყოფს შეფასებით, რომ უფრო მეტი ადგილობრივი (მცირე გეოგრაფიულ ადგილებში), უფრო მარცვლოვანი (კონკრეტული დემოგრაფიული ჯგუფების), და უფრო დროული.
ერთ-ერთი მაგალითია გაძლიერდეს ეკითხება გააჩნია მუშაობის Joshua Blumenstock, ვისაც სურდა, მონაცემების შეგროვება, რომელიც დაეხმარება სახელმძღვანელო განვითარების ღარიბ ქვეყნებში. უფრო კონკრეტულად, Blumenstock მინდოდა, რომ შეიქმნას სისტემა გავზომოთ სიმდიდრე და კეთილდღეობა, რომელიც შერწყმულია სისრულის აღწერის მოქნილობა და სიხშირე კვლევის (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . სინამდვილეში, მე უკვე აღწერილი Blumenstock მუშაობა მოკლედ თავი 1.
უნდა დაიწყოს, Blumenstock პარტნიორი უდიდესი მობილური ტელეფონი მიმწოდებელი რუანდაში. კომპანიამ მას ანონიმური გარიგების ჩანაწერი დაახლოებით 1.5 მილიონ მომხმარებელს, რომელიც მოიცავს ქცევის 2005 და 2009 ჟურნალი შეიცავს ინფორმაციას ყოველი ზარის და ტექსტის გაგზავნა, როგორიცაა დაწყების დრო, ხანგრძლივობა და სავარაუდო გეოგრაფიული მდებარეობა აბონენტის და მიმღები. სანამ ჩვენ ვიწყებთ საუბარს სტატისტიკური საკითხებზე, ეს არის იმის აღნიშვნაც, რომ ეს პირველი ნაბიჯი შეიძლება იყოს ერთი უმძიმესი. როგორც ეს აღწერილია თავი 2, საუკეთესო ციფრული კვალი მონაცემების მიუწვდომელი მკვლევარები. და, ბევრი კომპანია სამართლიანად იკავებენ გააცნონ თავიანთი მონაცემები რადგან ეს არის კერძო; რომ მათი კლიენტების ალბათ არ ველოდი, რომ მათი ჩანაწერების იქნება გაზიარებული-ნაყარი-მკვლევარები. ამ შემთხვევაში, მკვლევართა აიღო ფრთხილად ნაბიჯები ანონიმური მონაცემები და მათი მუშაობის ზედამხედველობას უწევს მესამე მხარის (ანუ, მათი IRB). მაგრამ, მიუხედავად ამ მცდელობისა, ეს მონაცემები ალბათ მაინც ამოცნობას და ისინი სავარაუდოდ შეიცავდეს სენსიტიურ ინფორმაციას (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . მე დაბრუნებას ამ ეთიკური კითხვა თავი 6.
შეგახსენებთ, რომ Blumenstock იყო დაინტერესებული საზომი სიმდიდრე და კეთილდღეობა. მაგრამ, ეს თვისებები არ არის პირდაპირ ზარის ჩანაწერი. სხვა სიტყვებით, ეს ზარის ჩანაწერების არასრული ამ კვლევის, საერთო თვისება ციფრული კვალი, რომელიც დეტალურად იქნა განხილული თავი 2. მაგრამ, როგორც ჩანს, სავარაუდოა, რომ ზარის ჩანაწერი ალბათ რაღაც ინფორმაცია აქვს, სიმდიდრე და კეთილდღეობა. ასე რომ, ერთი გზა ითხოვს Blumenstock კითხვაზე შეიძლება იყოს: შესაძლებელია, რომ პროგნოზირება, თუ როგორ ვინმე რეაგირება კვლევის საფუძველზე მათი ციფრული კვალი მონაცემები? თუ ასეა, მაშინ სვამს რამდენიმე ადამიანი შეგვიძლია გამოიცნოს პასუხი ყველას.
შეაფასოს ამ ემპირიულად, Blumenstock და კვლევის თანაშემწეები ეხლა Kigali ინსტიტუტის მეცნიერებისა და ტექნოლოგიების მოუწოდა ნიმუში დაახლოებით ათასი მობილურ ტელეფონში მომხმარებელს. მკვლევარები განმარტა პროექტის მიზანია მონაწილეებს სთხოვა მათი თანხმობის უკავშირებენ კვლევის რეაგირება ზარის ჩანაწერი, და შემდეგ ჰკითხა მათ რიგი კითხვები გავზომოთ მათი სიმდიდრე და კეთილდღეობა, როგორიცაა "ნუ თქვენ ფლობდეს რადიო? "და" თქვენ ფლობდეს კატავი? "(სურ 3.11 ნაწილობრივი სია). ყველა მონაწილე გამოკითხვაში კომპენსაცია ფინანსურად.
შემდეგი, Blumenstock გამოიყენება ორი ნაბიჯი პროცედურა საერთო მონაცემები მეცნიერების: მხატვრული საინჟინრო მოჰყვა ზედამხედველობით სწავლება. პირველი, ფუნქცია საინჟინრო ნაბიჯი, ყველას, რომ იქნა გამოკითხული, Blumenstock მოაქცია ზარის ჩანაწერი შევიდა კომპლექტი მახასიათებლები შესახებ თითოეულ ადამიანს; მონაცემები მეცნიერები შეიძლება მოვუწოდებთ ამ თვისებების "თვისებები" და სოციალური მეცნიერები მოვუწოდებთ მათ "ცვლადები." მაგალითად, თითოეული ადამიანი, Blumenstock გათვლილი სულ დღეთა რიცხვი საქმიანობას, რიგი მკაფიო ადამიანი პირი უკვე კონტაქტში, თანხის ფული დაიხარჯა დრო, და ასე შემდეგ. მნიშვნელოვანია, კარგი თვისება საინჟინრო მოითხოვს ცოდნა კვლევის გარემოში. მაგალითად, თუ ეს მნიშვნელოვანია, რომ განასხვავოს შიდა და საერთაშორისო ზარები (ჩვენ შეიძლება ველოდოთ ადამიანები, რომლებიც მოვუწოდებთ საერთაშორისო იყოს შეძლებული), მაშინ ეს უნდა გაკეთდეს ფუნქცია საინჟინრო ნაბიჯი. მკვლევარი პატარა გაგება Rwanda შეიძლება არ მოიცავს ამ ფუნქციის, და შემდეგ კარნახის შესრულება მოდელი იქნება განიცდიან.
შემდეგი, ზედამხედველობით სასწავლო ნაბიჯი, Blumenstock აშენდა სტატისტიკური მოდელი პროგნოზირება კვლევის პასუხი თითოეულ ადამიანს მათი თვისებები. ამ შემთხვევაში, Blumenstock გამოიყენება ლოგისტიკური რეგრესია 10-ჯერ ჯვარი დადასტურება, მაგრამ მას არ შეეძლო არ გამოიყენება სხვადასხვა სტატისტიკური და მანქანა სწავლის მიდგომები.
ასე რომ, თუ რამდენად კარგად მუშაობს იგი? იყო Blumenstock შეუძლია პროგნოზირება პასუხი კვლევის კითხვები, როგორიცაა "თქვენ ფლობდეს რადიო?" და "ნუ თქვენ ფლობდეს კატავი?" გამოყენებით თვისებები მიღებული ზარის ჩანაწერი? ერთგვარი. სიზუსტეს პროგნოზები მაღალი იყო გარკვეული თვისებების (ნახაზი 3.11). მაგრამ, ის ყოველთვის მნიშვნელოვანია შედარების კომპლექსური პროგნოზი მეთოდი წინააღმდეგ მარტივი ალტერნატივა. ამ შემთხვევაში, მარტივი ალტერნატივა არის პროგნოზირება, რომ ყველას მისცემს ყველაზე გავრცელებული პასუხი. მაგალითად, 97.3% ცნობით ფლობს რადიო ასე რომ, თუ Blumenstock იწინასწარმეტყველა, რომ ყველას ანგარიშს ფლობს რადიო მას ექნებოდა სიზუსტე 97.3%, რომელიც საკმაოდ მსგავსი შესრულება მისი უფრო რთული პროცედურა (97.6% სიზუსტით). სხვა სიტყვებით, ყველა ლამაზი მონაცემები და მოდელირება გაიზარდა სიზუსტეს პროგნოზის 97.3% -დან 97.6%. თუმცა, სხვა კითხვებს, როგორიცაა "თქვენ ფლობდეს კატავი?", პროგნოზები გაუმჯობესდა 54.4% -დან 67.6%. უფრო ზოგადად, ფიგურა 3.12 გვიჩვენებს გარკვეული თვისებების Blumenstock არ გააუმჯობესებს ბევრად სცილდება უბრალოდ მიღების მარტივი საბაზისო პროგნოზი, მაგრამ სხვა თვისებების იყო გარკვეული გაუმჯობესება.
ამ ეტაპზე თქვენ შეიძლება ფიქრი, რომ შედეგები ცოტა გულდასაწყვეტია, მაგრამ ერთი წლის შემდეგ, Blumenstock და ორი კოლეგა-Gabriel Cadamuro და რობერტ On-გამოქვეყნდა მეცნიერების არსებითად უკეთესი შედეგების (Blumenstock, Cadamuro, and On 2015) . არსებობს ორი ძირითადი ტექნიკური მიზეზების გამო გაუმჯობესების: 1) ისინი გამოიყენება უფრო დახვეწილი მეთოდები (ანუ, ახალი მიდგომა გამორჩეულთა საინჟინრო და უფრო დახვეწილი მანქანა სწავლის მოდელი) და 2) იმის ნაცვლად, რომ დასკვნის რეაგირება ინდივიდუალური გამოკითხვა (მაგალითად, "ნუ თქვენ ფლობდეს რადიო?"), ისინი შეეცადნენ დასკვნის კომპოზიტური სიმდიდრე ინდექსი.
Blumenstock და კოლეგებს აჩვენა შესრულება მათი მიდგომა ორი გზა. პირველ რიგში, მათ აღმოაჩინეს, რომ იმ ადამიანებს, მათი ნიმუში, მათ ამის გაკეთება საკმაოდ კარგი სამუშაო წინასწარმეტყველებდნენ მათი სიმდიდრე ზარის ჩანაწერები (დიაგრამა 3.14). მეორე, და უფრო მნიშვნელოვანია, Blumenstock და კოლეგებს აჩვენა, რომ მათი პროცედურა შეიძლება აწარმოოს მაღალი ხარისხის შეფასებით, გეოგრაფიული განაწილება სიმდიდრე რუანდაში. უფრო კონკრეტულად, მათ იყენებდა მანქანა სწავლის მოდელი, რომელიც იყო მომზადებული მათი ნიმუში დაახლოებით 1000 ადამიანი, პროგნოზირება სიმდიდრე ყველა 1,5 მილიონი ადამიანი ზარის ჩანაწერი. გარდა ამისა, ერთად გეოსივრცითი მონაცემების ჩართული ზარის მონაცემები (გავიხსენოთ, რომ ზარი მონაცემები მოიცავს მდებარეობა უახლოეს საკანში კოშკი თითოეული ზარი), მკვლევარებმა შეძლეს, რათა დადგინდეს სავარაუდო საცხოვრებელი ადგილის თითოეულ ადამიანს. აყენებს ამ ორ შეფასებით ერთად, კვლევის წარმოებული ხარჯთაღრიცხვა გეოგრაფიული განაწილების აბონენტის სიმდიდრე დროს უკიდურესად ჯარიმა სივრცის დეტალიზაციით. მაგალითად, ისინი ვერ შეაფასებს საშუალო სიმდიდრე თითოეულ რუანდაში 2148 უჯრედები (პატარა ადმინისტრაციული ერთეულის ქვეყანაში). მოსალოდნელი სიმდიდრე ღირებულებები იყო ასე მარცვლოვანი ისინი რთული შეამოწმოს. ასე რომ, მკვლევართა ერთიანი მათი შედეგების წარმოების შეფასებით საშუალო სიმდიდრე რუანდის 30 საარჩევნო ოლქში. ეს რაიონულ შეფასებით მკაცრად დაკავშირებული შეფასებით ოქროს სტანდარტის ტრადიციული გამოკითხვის შედეგად, რუანდის დემოგრაფიული და ჯანმრთელობის კვლევა (ნახაზი 3.14). მიუხედავად იმისა, რომ შეფასებები ორი წყარო მსგავსია, შეფასებით Blumenstock და კოლეგები იყვნენ დაახლოებით 50-ჯერ იაფია და 10 ჯერ უფრო სწრაფად (როდესაც ღირებულება იზომება თვალსაზრისით ცვლადი ხარჯები). ეს დრამატული შემცირება ღირებულება ნიშნავს, რომ ვიდრე აწარმოებს ყოველ რამდენიმე წლის განმავლობაში, როგორც სტანდარტი დემოგრაფიული და ჯანდაცვის კვლევების-ჰიბრიდული მცირე კვლევის ერთად დიდი ციფრული კვალი მონაცემების შეიძლება აწარმოებს ყოველთვიურად.
დასასრულს, Blumenstock ის გაძლიერდეს ითხოვს მიდგომა კომბინირებული კვლევის მონაცემების ციფრული კვალი მონაცემების წარმოების შეფასებით ჩამოუვარდება ოქროს სტანდარტი კვლევის შეფასებით. ამ კონკრეტულ მაგალითს, ასევე განმარტავს, ზოგიერთი სავაჭრო ღ შორის გაძლიერდეს ეკითხება და ტრადიციული კვლევის მეთოდები. პირველი, გაძლიერდეს ითხოვს შეფასებები უფრო დროული, საგრძნობლად იაფია, და სხვა მარცვლოვანი. მაგრამ, მეორეს მხრივ, ამ დროს, არ არის ძლიერი თეორიული საფუძველი ამ სახის გაძლიერდეს ითხოვს. რომ არის, ამ ერთი მაგალითი არ ჩანს, როცა ის იმუშავებს და როდესაც ეს არ. გარდა ამისა, გაძლიერდეს ეკითხება მიდგომა ჯერ კიდევ არ აქვს კარგი გზა რაოდენობრივად გაურკვევლობის გარშემო მისი შეფასებით. თუმცა, გაძლიერდეს ეკითხება ღრმა კავშირების სამი დიდი ტერიტორიები სტატისტიკის მოდელი დაფუძნებული პოსტ-სტრატიფიკაციის (Little 1993) , imputation (Rubin 2004) , და მცირე ტერიტორიაზე შეფასებით (Rao and Molina 2015) და, ამიტომ ვიმედოვნებ, რომ, რომ პროგრესი იქნება ძალიან სწრაფი.
გაძლიერდეს ეკითხება შემდეგნაირად ძირითადი რეცეპტი, რომელიც შეიძლება მორგებული თქვენი კონკრეტული სიტუაცია. არსებობს ორი ინგრედიენტები და ორი ნაბიჯი. ორი ინგრედიენტები: 1) ციფრული კვალი ნაკრებს რომ არის ფართო, მაგრამ თხელი (რომ არის, მას აქვს ბევრი ადამიანი, მაგრამ არა ინფორმაცია, რომ თქვენ უნდა, თითოეულ პირი) და 2) კვლევა, რომელიც არის ვიწრო, მაგრამ სქელი (რომ არის, მას აქვს მხოლოდ რამდენიმე ადამიანი, მაგრამ მას აქვს ინფორმაცია, რომ თქვენ უნდა დაახლოებით იმ ხალხს). ამის შემდეგ, არსებობს ორი ნაბიჯი. პირველ რიგში, იმ ადამიანებს, ორივე მონაცემები, ავაშენოთ მანქანა სწავლის მოდელი, რომელიც იყენებს ციფრული კვალი მონაცემების პროგნოზირება კვლევის პასუხი. შემდეგი, გამოიყენოს, რომ მანქანა სწავლის მოდელი მივაწეროთ კვლევის პასუხი ყველას ციფრული კვალი მონაცემები. აქედან გამომდინარე, თუ არსებობს საკითხი, რომ თქვენ მინდა ვკითხო, რომ უამრავი ადამიანი, ვეძებოთ ციფრული კვალი მონაცემების იმ ხალხს, რომელიც შეიძლება გამოყენებული პროგნოზირება მათი პასუხი.
შედარება Blumenstock პირველი და მეორე მცდელობა პრობლემა ასევე ასახავს მნიშვნელოვან გაკვეთილს გადასვლას მეორე ეპოქაში მესამე ეპოქის მიდგომების კვლევა: დასაწყისში არ არის ბოლომდე. რომ არის, ბევრჯერ, პირველი მიდგომა არ იქნება საუკეთესო, მაგრამ თუ მკვლევარები გრძელდება სამუშაო, რამ შეიძლება უკეთ. საერთოდ, როდესაც შეფასების ახალი მიდგომების სოციალურ კვლევითი ციფრული ასაკი, ეს მნიშვნელოვანია, რათა ორი განსხვავებული შეფასებები: 1) რამდენად კარგად აკეთებს ამას მუშაობა ახლა და 2) რამდენად კარგად ვფიქრობ, რომ ეს, შესაძლოა, მუშაობა მომავალშიც მონაცემები ლანდშაფტის ცვლილებები და, როგორც მკვლევარები მეტი ყურადღება დაუთმოს პრობლემა. მიუხედავად იმისა, რომ მკვლევარები მომზადებული, რათა პირველი სახის შეფასების (რამდენად კარგი არის ამ კონკრეტულ ნაჭერი კვლევა), მეორე ხშირად უფრო მნიშვნელოვანია.