د وړاندیز شوي ماډل څخه کار اخیستل د څو خلکو څخه د سروې ډاټا سره یوځای کولو لپاره د ډیری خلکو څخه د لوی معلوماتو سرچینې سره.
د ګډ سروې او لوی ارقامو سرچینو لپاره یو بل الره دا یوه پروسه ده چې زه به یې د تعقیب غوښتنه کول غواړم. په تعقیبي پوښتنو کې، یو څیړونکی د اټکل وړ ماډل کاروي چې د سروې یوه کوچنۍ ارقام سره یو لوی ډیټا سرچینې سره یوځای کړي تر څو اټکلونه په پیمانه یا وړتیا پورې اړه ولري چې د معلوماتو سرچینې سره په انفرادي توګه ممکنه نه وي. د تعقیبي پوښتنو یوه مهمه بیلګه د جوشوا بلومیناک د کار څخه راځي، کوم چې د معلوماتو راټولول غواړي چې په غریب هیوادونو کې د پرمختیا الرښود کېدای شي. په تیرو وختونو کې، د دې ډول معلوماتو راټولولو څیړونکي عموما باید د دوو کړنلارو څخه وټاکل شي: د نمونې سروې یا ساینسونه. نمونې سروې، چېرته چې څیړونکي د لږ شمېر خلکو سره مرکه کوي، کیدی شي د انعطاف وړ، وخت، او نسبتا ارزانه وي. په هرصورت، دا سروې، ځکه چې دوی په نمونه باندې والړ دي، ډیری وختونه په خپل حل کې محدود دي. د نمونې سروې سره، دا ډیری وختونه د ځانګړو جغرافيائی سیمو یا د ځانګړو ډیموکراتیکو ډلو لپاره اټکلونه ستونزمن دي. له بلې خوا، د هرڅوک سره مرکه کولو هڅه کوي، او له دې امله دوی د وړو جغرافيائی سیمو یا ډیموکراسي ډلو لپاره اټکلونه تولیدولو لپاره کارول کیدی شي. مګر سینسونه عموما خورا ګران دي، په تمرکز کې محدود دي (دوی یوازې یوازې لږ شمیر پوښتنې لري)، او په وخت سره نه (دوی په یوه ثابت مهال ویش کې واقع کیږي، لکه د هر لسو کلونو) (Kish 1979) . د نمونې سروې یا سنسونو سره د ټکولو پر ځای، تصور وکړئ چې که څیړونکي دواړه دواړه د غوره غوره ځانګړتیاوو سره یوځای شي. تصور وکړئ که څیړونکي هرې پوښتنې هره ورځ هرې ورځې ته وغواړي. په څرګنده توګه، دا هر اړخیز، تل سروې یو ډول ټولنیز ساینس تصور دی. مګر داسې ښکاري چې موږ کولی شو د دې لپاره اټکل پیل کړو چې د سروې پوښتنو سره یوځای د ډېرو خلکو څخه ډیری خلکو سره ډیجیټل ټیکونه سره سروې کول.
د بلومینسټاک څیړنه هغه وخت پیل شوه کله چې هغه په رونډا کې ترټولو لوی تلیفوني تلیفون سره ملګرتیا درلوده، او شرکت له 2005 څخه تر 2009 پورې نږدې 1.5 میلیون پیرودونکو لخوا نامناسب لیږد ریکارډ چمتو کړ. دا ریکارډونه د هر کال او متن پیغام په اړه معلومات ثبتول لکه د پیل وخت، دوره ، او د غوښتونکي او رسیدونکي اټکل جغرافيائی موقعیت. مخکې له دې چې زه د احصایوي مسلو په اړه خبرې وکړم، دا د یادونې وړ ده چې دا لومړی ګام کېدای شي د ډیرو څیړونکو لپاره تر ټولو سخت وي. لکه څنګه چې ما په دویم څپرکی کې تشریح کړی، د لویو ارقامو سرچینې د څیړونکو لپاره د لاسرسۍ وړ ندي . د تلیفون میٹا - ډاټا، په ځانګړې توګه د لاسرسی وړ دی ځکه چې دا په اصل کې نامناسب نه دی او دا په حقیقت کې نږدې معلومات لري چې ګډون کوونکي به حساسیت ولري (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . په دې ځانګړی قضیه کې، څیړونکي محتاط وو چې د معلوماتو ساتنه وکړي او د دوی کار د دریم اړخ لخوا څارل شوی) یعنې د هغوی IRB (. زه به دا اخلاقی مسلو ته په تفصیل سره په شپږم څپرکی کې راستون شم.
بلومنسټ د شتمني او خوړو د اندازه کولو په لټه کې و. مګر دا نښې په مستقیم ډول د کال ریکارډونو کې ندي. په بل عبارت، د دې پلټنې ریکارډونو لپاره نامناسب ندي - د لوی معلوماتو سرچینو یو عمومي خصوصیت چې په 2 فصل کې په تفصیل سره بحث شوی. مګر، داسې ښکاري چې د تلیفون ریکارډونه شاید ځینې معلومات ولري چې غیر مستقیم د شتمنیو او معلوماتو په اړه معلومات چمتو کولی شي. ښه والی. د دې احتمال په پام کې نیولو سره، بلومینسټاک پوښتنه وکړه ایا دا ممکنه وه چې د ماشین زده کړې نمونې وروزل شي چې وړاندیز وکړي چې څنګه به د سروې ریکارډونو پر اساس سروې ته څوک ځواب ورکړي. که دا ممکنه وه، نو بلومینسټ کولی شي دا ماډل وکاروي چې د ټولو 1.5 میلیون پیرودونکو سروې ځوابونه وړاندې کړي.
د داسې یوه ماډل جوړولو او روزنې لپاره، بلومینسټ او د ساینس او ټیکنالوژۍ د کیګالي انسټیټیوټونو شاوخوا شاوخوا 1000 پیرودونکو ته د بی ترتیبه نمونې نوم ورکړ. څیړونکو د پروژې اهدافو ګډونوالو ته تشریح کړه، د غوښتنې ریکارډونو ته د سروې د ځوابونو سره د اړیکو په اړه د دوی رضايت غوښتنه وکړه، او بیا یې د دوی د شتمنیو او هوساینې اندازه کولو لپاره یو لړ پوښتنو څخه وغوښتل، لکه "تاسو راډیو؟ "او" ایا تاسو بايسکل لري؟ "(د جزوی لیست لپاره 3.14 وګورئ). د سروې ټول ګډون کوونکي په مالي ډول تادیه شوي.
بلې بلومسټاک د ماشین زده کړه کې دوه دوه مرحله کړنالره کارولې: د انجینیرۍ ځانګړتیا وروسته د نظارت شوي زده کړې لخوا. لومړی، د فیچر انجینري ګام کې، د هر چا لپاره چې مرکې ورسره شوې وې، بلومینسټاک د ریکارډونو ریکارډونه د هر شخص په اړه یو ځانګړتیاوو ته بدل کړل؛ ډاټا ساینس پوهان ښايي دا ځانګړتیاوې "ځانګړتیاوې" او ټولنیز ساینس پوهان دوی ته "متغیرات" وایي، د بیلګې په توګه، د هر شخص لپاره، بلومینسټاک د فعالیت سره ټوله ورځ شمیرل کیږي، د مختلفو خلکو شمیر چې یو شخص ورسره اړیکې لري، په هوايي ډګر کې لګول شوي پیسې او داسې نور. په کلکه توګه، ښه فیصله انجنیري د څیړنې د ترتیباتو پوهې ته اړتیا لري. د مثال په توګه، که دا مهمه وي چې د کورني او نړیوالو اړیکو ترمنځ توپیر وکړي (موږ ممکن هغه خلک وټاکو چې نړیواله کچه یې شتمني وي)، نو بیا باید دا انجنیري مرحلې کې ترسره شي. یو څیړونکی چې د رونډا لږ لږ پوهه لري ممکن ممکن دا خصوصیت ونلري، او بیا د ماډل وړاندیز کونکی فعالیت به ورسره مخامخ شي.
بل، د نظارت شوي زده کړې ګام کې، بلومینسټاک د هر ځانګړی شخص لپاره د سروې ځواب وړاندیز کولو لپاره یوه نمونه جوړه کړه. په دې حالت کې، بلومینټل د لوژستیک تاکید کارولو، مګر هغه د نورو احصایوي یا ماشین زده کړې تګالرو څخه کار اخیستی و.
نو دا څنګه کار وکړ؟ آیا د بلوڅینټ کول کولی شي د سروې پوښتنو ځوابونه وړاندې کړي لکه "تاسو د رادیو څښتن لري؟" او "د بايسکل خاوند یاست؟" د تلیفون ریکارډونو څخه اخیستل شوي بڼو څخه کارول؟ د دې د وړاندیز کولو ماډل د فعالیت ارزولو لپاره، بلومینسټاک د کره توقیف څخه کار اخیستی، یو تخنیک چې عموما د ډیټا ساینس کې کارول کیده مګر لږترلږه په ټولنیز ساینس کې. د تایید کولو موخه داده چې د ماډل اټکل شوي فعالیت د منصفانه ارزونه چمتو کړئ د روزنې په واسطه او د معلوماتو مختلفو فرعي سیسټمونو آزموینه. په ځانګړې توګه، بلومینټل خپل معلومات په 100 ډلو کې د 100 کسانو لپاره تقسیم کړل. وروسته، هغه د خپل ماډل روزلو لپاره د نانګ 9 نښې کارولې، او د روزل شوی ماډل وړاندیز شوی فعالیت په پاتې برخه کې ارزول شوی و. هغه دا کړنالره 10 ځله تکرار کړه - د هرې برخې سره د اعتبار ثابته ډاټا د یو بدلیدلو سره - او د پایلو په نظر کې نیولو سره.
د اټکل وړتیا د ځینو ځانګړیو لپاره لوړه وه (3.14 شمیره)؛ د بیلګې په توګه، بلومینسټ کولی شي 97.6٪ دقیقیت سره اټکل وکړي که څوک یو راډیو لري. دا کیدی شي اغیزمن وي، مګر دا تل د اهم بدیل لپاره د پیرود پیچلي میتود پرتله کول مهم دي. په دې حالت کې، یو ساده بدیل دا دی چې اټکل وکړي چې هر څوک به تر ټولو عام ځواب ورکړي. د بیلګې په توګه، 97.3٪ ځواب ويونکو د رادیو مدیریت راپور ورکړ، که چیرې بلومینسټ داسې وړاندیز کړی و چې هر څوک به د راډیو ګومارلو راپور ورکړي چې د 97.3٪ دقیقیت ولري، کوم چې د حیرانتیا سره د هغه د پیچلو کړنالرو فعالیت) ورته 97.6٪ . په بل عبارت، ټول فانسسي ډاټا او ماډلونه د وړاندیز دقیقیت د 97.3٪ څخه 97.6٪ ته لوړ کړي. په هرصورت، د نورو پوښتنو لپاره، لکه "تاسو بايسکل لري؟"، وړاندیزونه له 54.4٪ څخه 67.6٪ ته لوړ شوي. په عمومي توګه، 3.15 شمیره ښیي چې د ځینو ځانګړنو لپاره بلومینسټاک د ساده اساساتو وړاندوینې څخه وروسته ډیر پرمختګ نه ؤ کړی، مګر دا د نورو ځانګړتیاو لپاره یو څه پرمختګ وه. که څه هم په دې پایلو کې وګورئ، سره له دې، تاسو شاید فکر ونکړو چې دا تګلاره په ځانګړې توګه ژمنې دي.
په هرصورت، یوازې یو کال وروسته، بلومینسټ او دوه همکاران-ګیریلډ کادامورو او رابرټ اون- په سیسټم کې د پام وړ غوره پایلو سره خپاره شوي چاپ (Blumenstock, Cadamuro, and On 2015) . د دې پرمختګ لپاره دوه اصلي تخنیکي دلیلونه شتون لري:) 1 (دوی نور خورا پیچلي میتودونه) لکه د انجنیري ټیکنالوژۍ لپاره یوه نوي کړنالره او د ځانګړنو څخه د ځوابونو وړاندیز کولو لپاره یو خورا خورا مثالی ماډل (او (2) د انفرادي ځوابونو د ځنډولو پر ځای کارول د سروې پوښتنې) د مثال په توګه، "ایا تاسو د رادیو خاوند یاست؟"، دوی هڅه کړې چې د شتمنې شتمنۍ شاخص وپیژني. دا تخنيکي پرمختګ دا معنی لري چې د دوی د نمونې په توګه د خلکو لپاره د شتمنیو وړاندیز لپاره د تلی ریکارډونو کارولو مناسب کار کولی شي.
په نمونه کې د خلکو شتمني اټکل کوي، مګر، د څیړنې وروستۍ موخه نه وه. په یاد ولرئ چې وروستۍ موخه د پرمختللو هیوادونو کې د بې وزلۍ د سم، لوړ لوړ قرارداد اټکل کولو لپاره د نمونې سروې او سنسونو ځینې غوره بڼې شاملول دي. د دې هدف د ترلاسه کولو لپاره د دوی وړتیا ارزولو لپاره، بلومینسټاک او همکارانو خپل نمونه او د دوی ډاټا کارولو لپاره د ټولو ریکارډونو کې د 1.5 میلیونو خلکو شتمنۍ وړاندیز وکړ. او دوی د جغرافیائی معلوماتو معلومات چې د کال ریکارډونو کې شامل شوي وکارول (یادونه وکړه چې په ارقامو کې د هر کال لپاره د نږدې حجرو برج موقعیت درلود) د هر شخص د استوګنې نږدې اټکل اټکل کړئ (3.17 شمیره). د دغو دوو اټکلونو سره یوځای کول، بلومینسټ او همکارانو د ګروپي شتمني جغرافیوي ویش په ډیره ښه ساحه کې په پراخه کچه تولید کړې. د بیلګې په توګه، دوی کولی شي د رونډا په 2،148 حجرو کې اوسط شتمني اټکل کړي) په هیواد کې تر ټولو کوچني اداري واحد (.
دغه اټکلونه په دغو سیمو کې د ریښتینې کچې د کچې کچې سره سمون خوري؟ مخکې له دې چې زه د دې پوښتنې ځواب ووایم، زه غواړم پدې حقیقت ټینګار وکړم چې شکونه شتون لري. د بېلګې په توګه، په شخصي کچه د پیشنګا جوړولو وړتیا ډیره ښکلې وه (انځور 3.17). او ښایي ډیر مهم وي، د ګرځنده تلیفونونو خلک ممکن د ګرځنده تلیفون پرته د سیسټم سیستماتیک توپیر ولري. په دې توګه، بلومینټل او همکاران د پوښښ د تیروتنو ډولونو څخه رنځیږي چې د 1936 د ادبي ډیریسټ سروې سره مخ شوی چې ما مخکې بیان کړی.
د دوی د اټکلونو کیفیت احساس کولو لپاره، بلومینسټ او همکاران اړین دي چې دوی د یو بل سره پرتله کړي. په خوشبختۍ سره، د دوی څیړنې په څیر د ورته وخت په ترڅ کې، د څیړونکو یو بل ګروپ په روانډا کې ډیر دودیز ټولنیز سروې کوله. دا بله سروې چې د ډیموکراتیک او روغتیا سروې په پراخه کچه د درناوی برخه وه - لویه بودجه درلوده او د لوړ کیفیت، دودیز ميتود کارول. نو له دې امله، د ډیموکراتیک او روغتیايي سروې اټکلونه د معياري معیار اټکلونو په معقول توګه په پام کې نیول کیدی شي. کله چې دوه اټکلونه پرتله شوي، دوی ورته ورته وو) 3.17 شمیره (. په بل عبارت، د راډ ریکارډونو سره د لږو سروې ډاټاونو سره یوځای کولو، بلومینسټ او همکارانو وکولای شول د سرو زرو معیاري کړنو څخه د پرتله کولو اټکل وکړي.
یو شکمن کیدای شي دا پایلې د مایوسي په توګه وګوري. له بلې خوا، د دوی لیدلو لپاره دا یو دا دی چې د لوی معلوماتو او ماشین زده کړې کارولو له الرې، بلومینسټ او همکاران د دې توان درلود چې اټکلونه تولید کړي چې د شته موجودو میتودونو لخوا خورا باوري کړي. مګر زه فکر نه کوم چې دا د دوو دلیلونو لپاره د دې څیړنې په اړه فکر کولو یوه ښه لار ده. لومړی، د بلومینسټاک او همکارانو اټکلونه نږدې 10 ځلې تیز او 50 ځلې ارزانه وه) کله چې مصرف د متغیر لګښتونو په شرایطو کې اندازه کیږي (. لکه څنګه چې ما په دې فصل کې مخکې مخکې خبرې وکړې، څیړونکي د دوی په خطر کې لګښت ناڅاپي کوي. په دې حالت کې، د بیلګې په توګه، په لګښت کې د ډراماتيک کمښت معنی دا ده چې هر څو کاله چلوي - لکه څنګه چې د ډیموکراتیک او روغتیا سروې لپاره معیاري وي- دا ډول سروې کولی شي هره میاشت پرمخ وړي، کوم چې د څیړونکو او پالیسیو لپاره ډیری ګټو چمتو کوي جوړونکي. دویم دلیل چې د شکمن نظر ندی اخیستل دا دی چې دا څیړنه یو اساسي لارښود چمتو کوي چې د ډیری مختلف څیړنو حالتونو سره سمون کیدی شي. دا ترکیب یوازې دوه اجزاوې او دوه مرحلې لري. عناصر دي (1) د معلوماتو ډیټا یوه لویه سرچینه ده چې خورا پراخه ده (یعنې دا ډیر شمیر خلک لري مګر هغه معلومات چې تاسو یې د هر چا په اړه اړتیا لرئ) او (2) یوه سروې چې محدود مګر موټره ده (یعنې دا یوازې ځینې خلک، مګر دا هغه معلومات لري چې تاسو یې د خلکو په اړه اړتیا لرئ). دا اجزاین په دوه مرحلو کې ګډ شوي دي. لومړی، د ارقامو په سرچینو کې د خلکو لپاره، د ماینسي زده کړې ماډل جوړول چې د سروې د ځوابونو وړاندیز لپاره د سترو معلوماتو سرچینې کاروي. بله، د دې لوی ماډل څخه د لوی معلوماتو سرچینې کې د هر چا د سروې ځوابونو ته کمولو لپاره کار واخلئ. په دې توګه، که داسې پوښتنه شتون ولري چې تاسو ډیری خلک وغواړئ، د هغو خلکو څخه چې د دوی د ځواب اټکل کولو لپاره کارول کیږي، د معلوماتو ډیټا سرچینه وګورئ، حتی که تاسو د لوی معلوماتو سرچینې پروا نه کوئ . دا دی، بلومینسټ او همکارانو په مباحثه توګه د تلیفون ریکارډونو پروا نه درلوده؛ دوی یوازې د تلیفون ریکارډونو په اړه پاملرنه کوي ځکه چې دوی د سروې ځوابونو وړاندیز کولو لپاره کارول کیدی شي چې دوی یې فکر کاوه. دا خصوصیت - یواځې د لوی معلوماتو سرچینې کې غیر مستقیم دلچسپي لري - د امیډ شوي پوښتنو څخه بیلابیل پوښتل کیږي، کوم چې ما مخکې بیان کړي.
په پای کې، د بلومینسټاک غوښتنې د سروې ډاټا معلوماتو سره د لوی ډیټابیس سرچینې سره د سرو زرو سروې څخه د اټکلونو تولید لپاره د سرو زرو معلوماتو سروې غوښتنه کوي. دا ځانګړی بیلګه د تعقیبي پوښتنو او دودیز سروې میتودونو ترمنځ د سوداګرۍ ځینې برخې روښانه کوي. د اټکل شوي اټکل شوي اټکلونه ډیر وخت، خورا ډیر ارزانه او ډیر زاویه دي. مګر، له دې ډول تعقیبو پوښتنو لپاره لا تر اوسه قوي نظرياتی بنسټ شتون نلري. دا یوه بیلګه دا نه ښیې چې دا طریقه به څه کار وکړي او کله چې دا نه وي، او څېړونکي د دې تګلارې کارولو ته اړتیا لري په ځانګړې توګه د ممکنه اړخونو په اړه اندیښنه وي چې څوک پکې شامل وي او کوم څوک چې پکې شامل نه وي - د دوی د ډیټابیس سرچینې کې. برسېره پردې، د پوښتنو تعقیب تګلاره د خپلو اټکلونو په شاوخوا کې د ناڅاپي یقیني کولو لپاره ښه الره نلري. په خوشبختۍ سره، تعقیب شوي پوښتني په ارقامو کې درې لویو برخو ته ژورې اړیکې لري - د سیمه ایز اټکل اټکل (Rao and Molina 2015) ، شهرت (Rubin 2004) ، او د ماډل پر بنسټ د پوستکۍ پر بنسټ (چې پخپله یې د ښاغلی پی. هغه میتود چې ما په دې فصل کې مخکې بیان کړل (Little 1993) . د دغو ژورو اړیکو له امله، زه تمه کوم چې د تعقیبو پوښتنو ډیری میتودولوژیک بنسټونه به ډیر زر ښه شي.
په پاى کې، د بلومینکاک لومړنی او دویمې هڅې د ډیجیټل عمر ټولنیزې څیړنې په اړه یو مهم سبق هم څرګندوي: پیل د پای پای نه دی. دا، څو ځله، لومړی تګلاره به ښه نه وي، مګر که محققین کار وکړي، شیان به ښه شي. په عمومي توګه، کله چې په ډیجیټل عمر کې د ټولنیزو څیړنو ارزونه کول، دا مهمه ده چې دوه مشخص ارزونه ترسره کړئ:) 1 (دا کار اوس څومره ښه دی؟ او) 2 (په راتلونکي کې دا کار به څنګه په ډاګه شي چې د معلوماتو منظره بدله شوې او لکه څنګه چې څیړونکو ستونزه دې ته ډیره پاملرنه وکړه؟ که څه هم څیړونکي روزل شوي چې د لومړي ډول ارزونې ارزونه وکړي، دویمه برخه ډیره مهمه ده.