ڈیجیٹل نشانات کے لئے آپ کے سروے کے ربط کو ہر وقت ہر کوئی آپ کے سوالات پوچھ طرح ہو سکتا ہے.
سروے اور مردم شماری: پوچھ عام طور پر دو اہم اقسام میں آتا ہے. نمونہ سروے، آپ لوگوں کی ایک چھوٹی سی تعداد تک رسائی ہے جہاں،، لچکدار بروقت، اور نسبتا سستی ہو سکتا ہے. تاہم، سروے، وہ ایک نمونہ کی بنیاد پر کر رہے ہیں کیونکہ، اکثر ان کی قرارداد میں محدود کر رہے ہیں؛ ایک نمونہ سروے کے ساتھ، یہ مخصوص جغرافیائی علاقوں کے بارے میں یا مخصوص آبادیاتی گروہوں کے لئے تخمینوں بنانے کے لئے اکثر مشکل ہے. مردم شماری، دوسرے پر، آبادی میں ہر کسی کا انٹرویو کرنے کی کوشش. وہ عظیم قرارداد ہے، لیکن وہ عام طور پر، مہنگی توجہ میں تنگ ہیں (وہ صرف سوالات کی ایک چھوٹی سی تعداد میں شامل ہیں)، اور نہ بروقت (وہ اس طرح کے طور پر ہر 10 سال میں ایک مقررہ وقت پر ہو،) (Kish 1979) . محققین کا نمونہ سروے اور مردم شماری کی سب سے بہترین خصوصیات کو اکٹھا کر سکتا ہے تو اب تصور؛ محققین ہر دن ہر کسی کو ہر سوال پوچھ سکتا ہے اگر تصور.
ظاہر ہے، یہ مسلسل، ہر جگہ، ہمیشہ پر سروے سماجی سائنس کلپنا کی ایک قسم ہے. لیکن، یہ ہم نے بہت سے لوگوں کی طرف سے ڈیجیٹل نشانات کے ساتھ لوگوں کی ایک چھوٹی سی تعداد سے سروے کے سوالات کو ملا کر اس کا اندازا شروع کر سکتے ہیں کہ ظاہر ہوتا ہے. I مجموعہ کے اس قسم سے پوچھے سے amplified فون کریں. اچھا کیا، تو یہ ہم سے زیادہ دانے دار (مخصوص آبادیاتی گروہوں کے لئے) (چھوٹے جغرافیائی علاقوں کے لئے) زیادہ مقامی ہیں کہ تخمینہ،، اور زیادہ بروقت فراہم کی مدد کر سکتا.
amplified کیا پوچھ کی ایک مثال یشوع Blumenstock، جو اعداد و شمار کے غریب ممالک میں گائیڈ کی ترقی میں مدد کرے گا کہ جمع کرنے کے لئے چاہتا تھا کے کام سے آتا ہے. مزید خاص طور پر، Blumenstock مال و بہبود کے ایک سروے کی لچک اور تعدد کے ساتھ ایک کی مردم شماری کے مکمل مل کر کہ پیمائش کرنے کے ایک نظام پیدا کرنا چاہتے تھے (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . سچ تو یہ ہے، میں نے پہلے ہی Blumenstock کے کام میں مختصر طور پر 1 باب میں بیان کر دیا ہے.
شروع کرنے کے لئے، Blumenstock روانڈا میں سب سے بڑی موبائل فون فراہم کنندہ کے ساتھ شراکت داری کی. کمپنی اس طرح وقت آغاز، مدت، اور کال کرنے والے اور وصول کرنے کے تقریبا جغرافیائی محل وقوع 2005 اور 2009. نوشتہ ہر کال اور ٹیکسٹ پیغام کے بارے میں معلومات پر مشتمل ہے سے رویے کو ڈھکنے کے بارے میں 1.5 ملین صارفین کی طرف سے گمنام لین دین کے ریکارڈ فراہم کی. ہمارے پاس شماریاتی مسائل کے بارے میں بات کر شروع کرنے سے پہلے، یہ باہر کی طرف اشارہ کر اس سلسلے میں پہلے قدم کے سب سے مشکل سے ایک ہو سکتا ہے کے قابل ہے. 2 باب میں بیان، سب سے زیادہ ڈیجیٹل ٹریس ڈیٹا کے محققین کے ناقابل رسائی ہے. اور، بہت سی کمپنیاں یہ نجی ہے، کیونکہ ان کے ڈیٹا کا اشتراک بجا تذبذب کا شکار ہیں. کہ ان کے گاہکوں کو شاید کہ ان کے ریکارڈ محققین کے-ساتھ بلک اشتراک کردہ میں کیا جائے گا امید نہیں تھی ہے. اس صورت میں، محققین ڈیٹا کو گمنام لئے محتاط اقدامات کئے اور ان کے کام کو ایک تیسری پارٹی (یعنی ان IRB) کی طرف سے نگرانی کی گئی تھی. لیکن، ان کوششوں کے باوجود، ان اعداد و شمار شاید اب بھی قابل شناخت ہیں اور وہ امکان حساس معلومات پر مشتمل ہے (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . میں نے 6 باب میں ان اخلاقی سوال کے واپس آ جائیں گے.
کو یاد ہوگا Blumenstock مال و بہبود کی پیمائش میں دلچسپی رکھتے تھے کہ. لیکن، ان علامات کال ریکارڈز میں براہ راست نہیں ہیں. دوسرے الفاظ میں، ان کال ریکارڈز اس تحقیق، باب 2. میں تفصیل سے بحث کی گئی ہے کہ ڈیجیٹل نشانات کی ایک مشترکہ خصوصیت کے لئے نامکمل ہیں لیکن، یہ کال ریکارڈز شاید مال و بہبود کے بارے میں کچھ معلومات ہے کہ امکان لگتا ہے. لہذا، Blumenstock کے سوال ہو سکتا ہے کہنے کا ایک طریقہ: پیشن گوئی کرنے کی کسی کو ان کے ڈیجیٹل ٹریس ڈیٹا کی بنیاد پر ایک سروے کا جواب دے گا کہ یہ کس طرح ممکن ہے؟ اگر ایسا ہے تو، پھر چند لوگوں سے پوچھ کر ہم ہر کسی کے جوابات اندازہ لگا سکتے ہیں.
کو empirically اس کی تشخیص کے لیے، سائنس کیگالی ادارے اور ٹیکنالوجی سے Blumenstock اور تحقیق کے معاونین کے بارے میں ایک ہزار موبائل فون صارفین میں سے ایک نمونہ بلایا. محققین، شرکاء کو منصوبے کے اہداف کی وضاحت کی کال ریکارڈ کرنے کے سروے کے ردعمل سے منسلک کرنے کی ان کی رضامندی کے لئے کہا، اور پھر ان کے جیسا کہ "آپ کو ایک مالک ہیں، ان کی دولت اور بہبود کی پیمائش کرنے کے سوالات کا ایک سلسلہ پوچھا ریڈیو؟ "اور" آپ کو ایک سائیکل کے مالک ہیں؟ "(3.11 اعداد و شمار ایک جزوی فہرست کے لئے ملاحظہ کریں). سروے میں تمام شرکاء کو مالی معاوضہ دیا گیا تھا.
خصوصیت انجینئرنگ زیر نگرانی سیکھنے کے بعد کیا: اگلا، Blumenstock ایک دو قدم طریقہ کار اعداد و شمار کو سائنس میں عام استعمال کیا جاتا. سب سے پہلے، خصوصیت انجینئرنگ قدم میں، ہر کسی کو انٹرویو کیا گیا تھا اس کے لئے، Blumenstock کال ریکارڈز ہر ایک شخص کے بارے میں خصوصیات میں سے ایک سیٹ میں تبدیل؛ ڈیٹا سائنسدانوں ہر شخص کے لئے، ان کی خصوصیات "خصوصیات" فون کر سکتے ہیں اور سماجی سائنسدانوں نے ان کو فون کریں گے "متغیر." مثلا، Blumenstock سرگرمی کے ساتھ دن کی کل تعداد کا حساب لگایا، الگ افراد کی تعداد ایک شخص کے ساتھ رابطے میں رہا ہے، رقم پیسے کی اسی نشریاتی وقت پر خرچ، اور. شدید، اچھی خصوصیت انجینئرنگ تحقیق کی ترتیب کے بارے میں علم کی ضرورت ہوتی ہے. مثال کے طور پر، یہ (ہم بین الاقوامی سطح پر فون جو لوگ امیر ہو جائے کرنے کی توقع کر سکتے) ملکی اور بین الاقوامی کالز کے درمیان تمیز کرنے کے لئے ضروری ہے تو پھر اس کو نمایاں انجینئرنگ قدم پر کیا جانا چاہئے. روانڈا کا چھوٹا سا تفہیم کے ساتھ ایک محقق اس خصوصیت کو شامل نہیں ہو سکتا، اور پھر ماڈل کے امکانات کی کارکردگی متاثر ہو گی.
اگلا، زیر نگرانی سیکھنے قدم میں، Blumenstock ایک شماریاتی ماڈل ان کی خصوصیات کی بنیاد پر ہر شخص کے لئے سروے کے جواب کی پیشن گوئی کرنے کے لئے تعمیر. اس صورت میں، Blumenstock 10 گنا کراس توثیق کے ساتھ لاجسٹک رجعت استعمال کیا، لیکن وہ دوسرے شماریاتی یا مشین لرننگ نقطہ نظر کی ایک قسم کا استعمال کیا جا سکتا تھا.
تو یہ کس طرح اچھی طرح کام کیا؟ Blumenstock کال ریکارڈز سے حاصل کردہ خصوصیات کا استعمال جیسے سوالات کا سروے کے جوابات کی پیشن گوئی کرنے کے قابل تھا "آپ کو ایک ریڈیو کے مالک ہیں؟" اور "آپ کو ایک سائیکل کے مالک ہیں؟"؟ ایک طرح سے. پیشین گوئیوں کی صداقت کچھ علامتیں (چترا 3.11) کے لئے اعلی تھے. لیکن، یہ ایک سادہ متبادل کے خلاف ایک پیچیدہ طریقہ کار کی پیشن گوئی کا موازنہ کرنے کے ہمیشہ اہم ہے. اس صورت میں، ایک سادہ متبادل کی پیشن گوئی کرنا ہے کہ سب سے زیادہ عام جواب دے گا ہے. مثال کے طور پر، 97.3٪ ایک ریڈیو اگر ہاں Blumenstock پیشن گوئی کی تھی کہ ہر کوئی ایک ریڈیو انہوں نے 97.3٪، ان کی زیادہ پیچیدہ طریقہ کار (97.6٪ درستگی) کی کارکردگی حیرت کی طرح ہے جس کی درستگی تھا مالک رپورٹ کریں گے مالک نے رپورٹ کیا. دوسرے الفاظ میں، تمام پسند کے اعداد و شمار اور ماڈلنگ 97.6 فیصد کرنے 97.3 فیصد سے پیشن گوئی کی درستگی میں اضافہ ہوا. تاہم، جیسے دیگر سوالات، کے لئے "آپ کو ایک سائیکل کے مالک ہیں؟"، قیاسات 54،4 فیصد سے 67،6٪ تک بہتری آئی. مزید عام طور پر، پیکر 3.12 شوز کچھ علامات کے لئے Blumenstock صرف سادہ بنیادی پیشن گوئی بنانے سے آگے زیادہ سے زیادہ بہتر نہیں تھا، لیکن اس کے دیگر علامات کے لئے کچھ بہتری نظر آئی.
اس مرحلے پر آپ ان نتائج کے تھوڑا سا مایوس کن ہیں کہ، لیکن صرف ایک سال بعد، Blumenstock اور دو ساتھیوں-جبرائیل Cadamuro اور رابرٹ پر شائع کافی حد تک بہتر نتائج کے ساتھ سائنس میں ایک کاغذ سوچ سکتا ہے (Blumenstock, Cadamuro, and On 2015) . 2) کی بجائے (انفرادی سروے کے سوالات کے جوابات کا استنباط کرنے کی کوشش کر مثال کے طور پر زیادہ 1) وہ زیادہ بہتر طریقوں کا استعمال کیا (یعنی، انجینئرنگ اور ایک زیادہ بہتر مشین لرننگ ماڈل کی خاصیت کے لئے ایک نیا نقطہ نظر) اور،: دو بہتری کے لئے اہم تکنیکی وجوہات تھیں "اگر آپ کو ایک ریڈیو کے مالک ہیں؟")، وہ ایک جامع دولت انڈیکس استنباط کرنے کی کوشش کی.
Blumenstock اور ان کے ساتھیوں کو دو طریقوں سے ان کے نقطہ نظر کی کارکردگی کا مظاہرہ کیا. سب سے پہلے، وہ ان کے نمونے میں لوگوں کے لئے، وہ کال ریکارڈز (چترا 3.14) سے ان کے مال کی پیشن گوئی کا ایک بہت اچھا کام کر سکتا تھا کہ پایا. دوئم، اور کبھی زیادہ اہم بات، Blumenstock اور ان کے ساتھیوں کو ان کے طریقہ کار روانڈا میں دولت کی جغرافیائی تقسیم کے اعلی معیار کے تخمینے پیدا کر سکتا ہے کا مظاہرہ کیا. مزید خاص طور پر، وہ کال ریکارڈز میں تمام 1.5 ملین لوگوں کے مال کی پیشن گوئی کرنے کے لئے ان کی مشین لرننگ ماڈل، کے بارے میں 1،000 لوگوں کے ان کے نمونے پر تربیت دی گئی ہے جس میں، استعمال کیا جاتا ہے. اس کے علاوہ، کال کے کوائف میں سرایت geospatial ڈیٹا کے ساتھ (کو یاد کال کے کوائف ہر کال کے لیے قریب ترین سیل ٹاور کی جگہ کو بھی شامل ہے کہ)، محققین ہر شخص کی رہائش گاہ کے تقریبا جگہ کا اندازہ کرنے کے قابل تھے. ایک دوسرے کے ساتھ ان دو اندازوں ڈال، تحقیق انتہائی ٹھیک مقامی گرینولیریٹی میں صارفین کی دولت کی جغرافیائی تقسیم کا تخمینہ تیار کیا. مثال کے طور پر، انہوں نے روانڈا کی 2148 خلیات (ملک میں سب سے چھوٹے انتظامی یونٹ) میں سے ہر ایک میں اوسط دولت کا اندازہ لگانے کے کر سکتے تھے. یہ پیش گوئی کی دولت اقدار وہ جانچ کرنا مشکل تھے تاکہ دانے دار تھے. لہذا، محققین روانڈا کے 30 اضلاع کی اوسط دولت کے تخمینے پیدا کرنے کے لئے ان کے نتائج جمع. یہ ضلعی سطح اندازوں پختہ ایک سونے کا معیار روایتی سروے سے اندازوں سے متعلق تھے، روانڈا کے ڈیموگرافک اینڈ ہیلتھ سروے (چترا 3.14). دو ذرائع سے اندازوں اسی طرح کے تھے، اگرچہ، Blumenstock اور ان کے ساتھیوں کی جانب سے تخمینوں کے بارے میں 50 گنا سستا اور 10 گنا تیزی (قیمت میں متغیر اخراجات کے لحاظ سے ماپا جب) تھے. لاگت میں اس ڈرامائی کمی کی بجائے ہر چند سال کے طور پر چلایا جا رہا ڈیموگرافک اینڈ ہیلتھ سروے کے لئے معیاری ہے بڑی ڈیجیٹل ٹریس اعداد و شمار کے ساتھ مل کر چھوٹے سروے کے ہائبرڈ ہر ماہ چلایا جا سکتا ہے کا مطلب ہے.
آخر میں، Blumenstock کی amplified کیا سونے معیاری سروے کے اندازوں کے ساتھ موازنہ اندازوں پیدا کرنے کے لئے ڈیجیٹل ٹریس ڈیٹا کے ساتھ نقطہ نظر مشترکہ سروے کے اعداد و شمار سے پوچھ. اس خاص مثال بھی amplified پوچھنا اور روایتی سروے کے طریقوں کے درمیان تجارت آف کے کچھ واضح. سب سے پہلے، سے amplified سے پوچھ اندازوں زیادہ، بروقت معقول حد تک سستی، اور زیادہ دانے دار تھے. لیکن، دوسری طرف، اس وقت، وہاں نہیں amplified کیا پوچھ کے اس قسم کے لئے ایک مضبوط نظریاتی بنیاد ہے. یہی وجہ ہے کہ، جب یہ نہیں کریں گے کہ یہ کام کرے گا اور جب یہ ایک مثال کو ظاہر نہیں کرتا رہا ہے. اس کے علاوہ، سے amplified پوچھ اپروچ ابھی تک اس کے اندازوں کے ارد گرد غیر یقینی صورتحال quantify کرنے کے اچھے طریقوں کی ضرورت نہیں ہے. تاہم، سے amplified پوچھ شماریات ماڈل کی بنیاد پر پوسٹ ستریکرن میں تین بڑے علاقوں پر گہری کنکشن ہے (Little 1993) ، بہتان (Rubin 2004) ، اور چھوٹے علاقے تخمینہ (Rao and Molina 2015) ہیں.اور تو میں ترقی کرے گا کہ توقع تیز رفتار ہو جائے.
amplified کیا پوچھ اپنے خاص صورت حال کے مطابق کیا جا سکتا ہے کہ ایک بنیادی ہدایت کی پیروی کرتا. دو اجزاء اور دو مراحل ہیں. دو اجزاء 1) وسیع ہے لیکن پتلی (یہ ہے کہ ہے کہ ایک ڈیجیٹل ٹریس ڈیٹا سیٹ ہو، یہ بہت سے لوگوں لیکن نہیں میں معلومات آپ کو ہر افراد کے بارے میں کی ضرورت ہے کہ) اور 2) تنگ لیکن موٹی (یہ ہے کہ ہے کہ ایک سروے ہے، یہ ہے صرف چند لوگ، لیکن یہ آپ کو ان لوگوں کے بارے میں کی ضرورت ہے کہ معلومات) ہے. اس کے بعد، دو مراحل ہیں. سب سے پہلے، دونوں کے اعداد و شمار کے ذرائع میں لوگوں کے لئے، سروے کے جوابات کی پیشن گوئی کرنے کے لئے ڈیجیٹل ٹریس ڈیٹا کا استعمال کرتا ہے کہ ایک مشین لرننگ ماڈل کی تعمیر. اگلا، ڈیجیٹل ٹریس اعداد و شمار میں ہر کسی کے سروے کے جوابات پر الزام لگانا کہ مشین لرننگ ماڈل استعمال. اس طرح، کچھ سوال آپ، لوگوں کے بہت سے پر پوچھ ان کا جواب کی پیشن گوئی کرنے کے لئے استعمال کیا جا سکتا ہے کہ ان لوگوں کی طرف سے ڈیجیٹل ٹریس اعداد و شمار کے لئے نظر کرنا چاہتے ہیں کہ اگر وہاں.
مسئلہ Blumenstock کی پہلی اور دوسری کوشش موازنہ بھی تحقیق سروے دوسرے دور سے تیسرے دور کے نقطہ نظر پر منتقلی کے بارے میں ایک اہم سبق کی وضاحت کرتا ہے: آغاز آخر نہیں ہے. یہی وجہ ہے کہ، کئی بار، پہلا نقطہ نظر سب سے بہتر نہیں ہو گا، لیکن محققین ورکنگ جاری رکھے ہوئے ہے تو، چیزوں کو بہتر حاصل کر سکتے ہیں. مزید عام طور پر، ڈیجیٹل دور میں سماجی تحقیق کے نئے نقطہ نظر کا جائزہ لیتے وقت، یہ ضروری دو الگ اندازہ کرنے کے لئے ہے: 1) اب کتنی اچھی طرح یہ کام کرتا ہے اور 2) کس طرح آپ اس ڈیٹا کو زمین کی تزئین کی کے طور پر مستقبل میں کام ہو سکتا ہے لگتا ہے تبدیلی اور محققین کے مسئلے پر زیادہ توجہ دیتے. ، محققین تشخیص کی پہلی قسم (کتنے اچھے تحقیق کے اس مخصوص ٹکڑا ہے) بنانے کے لئے تربیت دی جاتی ہے، اگرچہ، دوسرے اکثر زیادہ اہم ہے.