ডিজিটাল ট্রেস আপনার জরিপ সংযোগস্থাপন সব সময়ে সবাই আপনার প্রশ্ন জিজ্ঞাসা মত হতে পারে.
নমুনা জরিপ ও শুমারি: জিজ্ঞাসা সাধারণত দুই প্রধান ক্যাটাগরিতে আসে. নমুনা জরিপ, যেখানে আপনি মানুষের একটি ছোট সংখ্যা অ্যাক্সেস, নমনীয় সময়োপযোগী, এবং তুলনামূলকভাবে সস্তা হতে পারে. যাইহোক, নমুনা জরিপ, কারণ তারা একটি নমুনার উপর ভিত্তি করে করা হয়, প্রায়ই তাদের রেজোলিউশনের সীমাবদ্ধ; একটি নমুনা জরিপ সঙ্গে, এটা প্রায়ই নির্দিষ্ট ভৌগলিক অঞ্চলে সম্পর্কে বা নির্দিষ্ট ডেমোগ্রাফিক দলের জন্য অনুমান করা কঠিন নয়. শুমারি, অন্যদিকে জনসংখ্যার মধ্যে সবাই সাক্ষাৎকার করার প্রচেষ্টা. তারা মহান রেজল্যুশন আছে, কিন্তু তারা সাধারণত, ব্যয়বহুল ফোকাস সংকীর্ণ হয় (তারা কেবল প্রশ্নের একটি ছোট সংখ্যা অন্তর্ভুক্ত), এবং না সময়মত (তারা যেমন প্রতি 10 বছর, একটি নির্দিষ্ট সময়সূচী উপর ঘটতে) (Kish 1979) . এখন কল্পনা করুন যদি গবেষকরা নমুনা জরিপ ও শুমারি শ্রেষ্ঠ বৈশিষ্ট্য একত্রিত করতে পারে; কল্পনা করে গবেষকরা প্রতিদিন সবার প্রতি প্রশ্ন জিজ্ঞাসা করতে পারে.
একথাও ঠিক যে, এই ক্রমাগত, সর্বব্যাপী, সর্বদা চলমান জরিপ সামাজিক বিজ্ঞান কল্পনা এক ধরনের. কিন্তু, এটা মনে হচ্ছে যে আমরা অনেক মানুষের কাছ থেকে ডিজিটাল ট্রেস সঙ্গে মানুষের একটি ছোট সংখ্যা থেকে জরিপ প্রশ্ন মিশ্রন দ্বারা এই আনুমানিক করা শুরু করতে পারবেন. আমি সমন্বয় এই ধরনের জিজ্ঞাসা বিবর্ধিত কল. যদি ভাল কাজ করেছেন, এটা সাহায্য করতে পারে আমাদের হিসাব অনুযায়ী (ছোট ভৌগলিক এলাকার জন্য) আরো স্থানীয়, আরো ঝুরা (নির্দিষ্ট ডেমোগ্রাফিক দলের জন্য), এবং আরও সময়োপযোগী উপলব্ধ.
বিবর্ধিত থাকাতে একটা উদাহরণ যিহোশূয় Blumenstock, যারা তথ্য যে দরিদ্র দেশগুলোর নির্দেশিকা উন্নয়ন সাহায্য করবে সংগ্রহ করতে চেয়েছিলেন কাজ থেকে আসে. আরো নির্দিষ্টভাবে, Blumenstock একটি সিস্টেম সম্পদ এবং মঙ্গল যে নমনীয়তা এবং একটি সমীক্ষার ফ্রিকোয়েন্সি সঙ্গে একটি সেন্সাস সম্পূর্ণতার মিলিত পরিমাপ করতে তৈরি করতে চেয়েছিলেন (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . আসলে, আমি ইতিমধ্যে Blumenstock কাজ সংক্ষেপে অধ্যায় 1-এ বর্ণনা করেছি.
আরম্ভ করার জন্য, Blumenstock রুয়ান্ডা বৃহত্তম মোবাইল ফোন প্রদানকারী সঙ্গে যৌথভাবে কাজ. কোম্পানি তাকে যেমন শুরুর সময়, সময়কাল, এবং কলার এবং রিসিভারের আনুমানিক ভৌগলিক অবস্থান হিসাবে 2005 এবং 2009 লগ প্রতিটি কলের এবং টেক্সট বার্তা সম্পর্কে তথ্য ধারণ করে থেকে প্রায় 1.5 মিলিয়ন আচরণ আচ্ছাদন গ্রাহকদের কাছ থেকে অনামী লেনদেনের রেকর্ড প্রদান. আগে আমরা পরিসংখ্যানগত বিষয় সম্পর্কে কথা বলা শুরু, এটা ইশারা এই প্রথম ধাপ কঠিন এক হতে পারে যে মূল্য. অধ্যায় 2 বর্ণনা অনুযায়ী, অধিকাংশ ডিজিটাল ট্রেস তথ্য গবেষকরা অ্যাক্সেসযোগ্য নয়. আর, অনেক কোম্পানি যথার্থই তাদের তথ্য শেয়ার করার জন্য কারণ এটি ব্যক্তিগত দ্বিধাগ্রস্ত হয়; যে তাদের গ্রাহকদের সম্ভবত আশা করতেন না যে তাদের রেকর্ডের ভাগ-ইন করা হবে গবেষকদের বাল্ক-সঙ্গে হয়. এই ক্ষেত্রে, গবেষকরা তথ্য বেনামে সতর্কতা অবলম্বন পদক্ষেপ গ্রহণ এবং তাদের কাজ একটি তৃতীয় পক্ষের (অর্থাৎ, তাদের IRB) দ্বারা overseen হয়. কিন্তু, এই প্রচেষ্টা সত্ত্বেও, এই তথ্য সম্ভবত এখনও শনাক্ত করা যায় এবং তারা সম্ভবত সংবেদনশীল তথ্য ধারণ (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . আমি 6 অধ্যায়ে এই নৈতিক প্রশ্নের ফিরে আসবেন.
পুনরাহ্বান যে Blumenstock ধন-সম্পদ ও মঙ্গল পরিমাপ আগ্রহী ছিলেন. কিন্তু, এই বৈশিষ্ট্যগুলো কল রেকর্ড সরাসরি নয়. অন্য কথায়, এই কল রেকর্ড এই গবেষণা, ডিজিটাল ট্রেস একটি সাধারণ বৈশিষ্ট্য যে অধ্যায় 2. বিস্তারিতভাবে আলোচনা করা হয়েছে জন্য অসম্পূর্ণ কিন্তু সম্ভবত, তাঁর মনে যে কল রেকর্ড সম্ভবত সম্পদ এবং মঙ্গল সম্পর্কে কিছু তথ্য আছে. সুতরাং, Blumenstock প্রশ্ন হতে পারে জিজ্ঞাসা এক উপায়: এটা ভবিষ্যদ্বাণী কিভাবে কেউ তাদের ডিজিটাল ট্রেস তথ্য উপর ভিত্তি করে একটি জরিপ সাড়া দেখতে পারে? যদি তাই হয়, তারপর কয়েক মানুষ জিজ্ঞাসা করল আমরা বাকিদের উত্তর অনুমান করতে পারেন.
এই প্রায়োগিক মূল্যায়ণ করতে সায়েন্স কিগালি ইনস্টিটিউট ও প্রযুক্তি থেকে Blumenstock এবং গবেষণা সহকারী মোবাইল ফোন গ্রাহকদের প্রায় এক হাজার একটি নমুনা বলা. গবেষক, অংশগ্রহণকারীদের প্রকল্পটির লক্ষ্যগুলি ব্যাখ্যা কল রেকর্ড জরিপ প্রতিক্রিয়া লিঙ্ক করতে তাদের সম্মতি জন্য জিজ্ঞাসা, এবং তারপর তাদের, প্রশ্নগুলির একটি সিরিজ জিজ্ঞাসা তাদের ধন-সম্পদ ও মঙ্গল পরিমাপ করতে যেমন "আপনি একটি মালিক না রেডিও? "এবং" (একটি আংশিক তালিকা জন্য চিত্র 3.11 দেখুন) আপনি একটি সাইকেল মালিক? ". জরিপে সমস্ত অংশগ্রহণকারীদের আর্থিকভাবে ক্ষতিপূরণ হয়.
বৈশিষ্ট্য ইঞ্জিনিয়ারিং পরিদর্শিত শেখার দ্বারা অনুসৃত: পরবর্তী, Blumenstock দুই ধাপ পদ্ধতি তথ্য বিজ্ঞানে সাধারণ ব্যবহৃত. প্রথমত, বৈশিষ্ট্য ইঞ্জিনিয়ারিং ধাপে, সবাই যে সাক্ষাত্কার ছিল জন্য, Blumenstock কল রেকর্ড প্রতিটি ব্যক্তি সম্পর্কে বৈশিষ্ট্য একটি সেট রূপান্তরিত; তথ্য বিজ্ঞানীদের প্রতিটি ব্যক্তির জন্য এই বৈশিষ্ট্য "বৈশিষ্ট্য" কল পারে এবং সমাজ বিজ্ঞানীদের তাদের কল করবে "ভেরিয়েবল." উদাহরণস্বরূপ, Blumenstock হিসাব কার্যকলাপ সঙ্গে দিন মোট সংখ্যা, স্বতন্ত্র মানুষের সংখ্যা একজন ব্যক্তির সঙ্গে যোগাযোগ করা হয়েছে, পরিমাণ টাকার এয়ারটাইম ব্যয়, এবং তাই. গুরুতর, ভাল বৈশিষ্ট্য প্রকৌশল গবেষণা সেটিং জ্ঞান প্রয়োজন. উদাহরণস্বরূপ, যদি এটা (আমরা যারা আন্তর্জাতিকভাবে কল ধনী হতে আশা করতে পারে) দেশীয় এবং আন্তর্জাতিক কল মধ্যে পার্থক্য করা জরুরী, তাহলে এই বৈশিষ্ট্যটি ইঞ্জিনিয়ারিং ধাপ সম্পন্ন করা আবশ্যক. রুয়ান্ডা এর সামান্য বোঝার সঙ্গে একজন গবেষক এই বৈশিষ্ট্য অন্তর্ভুক্ত নাও হতে পারে, এবং তারপর মডেল ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা ক্ষতিগ্রস্ত হবে.
পরবর্তী, পরিদর্শিত লার্নিং ধাপে, Blumenstock একটি পরিসংখ্যানগত মডেল তাদের বৈশিষ্ট্যের উপর ভিত্তি করে প্রতিটি ব্যক্তির জন্য জরিপ প্রতিক্রিয়া ভবিষ্যদ্বাণী করা নির্মিত. এই ক্ষেত্রে, Blumenstock 10 ধা ক্রস বৈধতা সঙ্গে লজিস্টিক নির্ভরণ ব্যবহৃত, কিন্তু তিনি অন্যান্য পরিসংখ্যানগত বা মেশিন লার্নিং পন্থা বিভিন্ন ব্যবহার করতে পারতেন.
সুতরাং এটা কিভাবে ভাল কাজ করেছেন? Blumenstock কল রেকর্ড থেকে প্রাপ্ত বৈশিষ্ট্য ব্যবহার করতে ভালো লাগে প্রশ্ন জরিপ উত্তর ভবিষ্যদ্বাণী করতে সক্ষম ছিল "আপনি যদি একটি রেডিও মালিক না?" এবং "আপনি একটি সাইকেল মালিক না?"? প্রকার, রকম. ভবিষ্যৎবাণী সঠিকতা কিছু বৈশিষ্ট (চিত্র 3.11) জন্য উচ্চ ছিল. কিন্তু, এটা সবসময় একটি সহজ বিকল্প বিরুদ্ধে একটি জটিল ভবিষ্যদ্বাণী পদ্ধতি তুলনা করা জরুরী. এই ক্ষেত্রে, একটি সহজ বিকল্প ভবিষ্যদ্বাণী করা যে সবাই সবচেয়ে সাধারণ জবাব দেব. ' উদাহরণস্বরূপ, 97,3% একটি রেডিও তাই যদি Blumenstock ফোরকাস্ট করেছিলেন সবাই একটি রেডিও তিনি 97,3%, যা আশ্চর্যজনকভাবে তার আরো জটিল পদ্ধতি (97.6% সঠিকতা) কর্মক্ষমতা অনুরূপ একটি সঠিকতা হতো owning রিপোর্ট হবে owning রিপোর্ট. অন্য কথায়, সব অভিনব তথ্য এবং মডেলিং 97,6% থেকে 97,3% থেকে ভবিষ্যদ্বাণী সঠিকতা বৃদ্ধি. তবে, যেমন অন্যান্য প্রশ্ন জন্য "আপনি একটি সাইকেল মালিক?", ভবিষ্যৎবাণী 54,4% থেকে 67,6% উন্নত করা. আরো সাধারণভাবে, চিত্র 3,12 অনুষ্ঠানগুলি কিছু বৈশিষ্ট্যের Blumenstock অনেক মাত্র সহজ বেসলাইন ভবিষ্যদ্বাণী তৈরীর পরলোক উন্নতি হয়নি, কিন্তু যে অন্যান্য বৈশিষ্ট্য জন্য কিছু উন্নতি ছিল.
এই মুহুর্তে আপনি চিন্তা করা যেতে পারে যে এই ফলাফল একটি বিট হতাশাদায়ক হয়, কিন্তু মাত্র এক বছর পরে, Blumenstock এবং দুই সহকর্মী-গ্যাব্রিয়েল Cadamuro এবং রবার্ট অন প্রকাশিত যথেষ্ট ভাল ফল পাওয়ার সঙ্গে বিজ্ঞানে একটি কাগজ (Blumenstock, Cadamuro, and On 2015) . দুটি প্রধান প্রযুক্তিগত উন্নতির জন্য কারণগুলোর মধ্যে রয়েছে: এবং 2) বরং (যেমন পৃথক জরিপের প্রশ্ন প্রতিক্রিয়া অনুমান করার প্রচেষ্টার চেয়ে 1) তারা আরো পরিশীলিত পদ্ধতি ব্যবহার (অর্থাৎ, একটি নতুন পদ্ধতির ইঞ্জিনিয়ারিং এবং একটি আরো পরিশীলিত মেশিন লার্নিং মডেল বৈশিষ্ট্য) "আপনি যদি একটি রেডিও মালিক না?"), তারা একটি যৌগিক সম্পদ সূচক অনুমান করার চেষ্টা করে.
Blumenstock এবং সহকর্মীদের দুভাবে তাদের পদ্ধতির কার্যকারিতা প্রদর্শিত. প্রথমত, তারা পাওয়া তাদের নমুনা মানুষের জন্য, তারা কল রেকর্ড (চিত্র 3.14) থেকে তাদের ধন-সম্পদ পূর্বাভাসের একটি প্রশংসনীয় ভাল কাজ করতে পারে যে. দ্বিতীয়ত, এবং আগের চেয়ে আরও বেশি গুরুত্বপূর্ণ হল, Blumenstock এবং সহকর্মীদের দেখিয়েছেন যে তাদের পদ্ধতি রুয়ান্ডা সম্পদের ভৌগলিক বিতরণের উচ্চ মানের অনুমান উত্পাদন করতে পারে. আরো নির্দিষ্টভাবে, তারা তাদের মেশিন লার্নিং মডেল, যা প্রায় 1000 মানুষ তাদের নমুনা উপর প্রশিক্ষণ দেয়া হয়, ব্যবহৃত কল রেকর্ডে সব 1.5 মিলিয়ন মানুষের সম্পদ ভবিষ্যদ্বাণী করা. উপরন্তু, কল ডাটা এমবেড ভূস্থানিক ডেটা সঙ্গে (পুনরাহ্বান যে কল ডাটা প্রতিটি কলের জন্য নিকটতম সেল টাওয়ারের অবস্থান অন্তর্ভুক্ত), গবেষকরা প্রতিটি ব্যক্তির বসবাসের আনুমানিক জায়গা অনুমান করতে পেরেছি. এই দুটি অনুমান একসঙ্গে নির্বাণ, গবেষণা অত্যন্ত সূক্ষ্ম স্থানিক গ্র্যানুল্যারিটি এ গ্রাহক সম্পদের ভৌগলিক বিতরণ একটি অনুমান উত্পাদিত. উদাহরণস্বরূপ, তারা রুয়ান্ডার 2148 কোষ (দেশের ক্ষুদ্রতম প্রশাসনিক ইউনিট) প্রতিটি গড় সম্পদ অনুমান পারে. এই পূর্বাভাস সম্পদ মান ঝুরা তারা চেক করা কঠিন ছিল. তাই গবেষকরা তাদের ফলাফলে সমষ্টিগত রুয়ান্ডা 30 জেলার গড় সম্পদের হিসাব উত্পাদন. এই জেলা পর্যায়ের অনুমান জোরালোভাবে একটি স্বর্ণমান ঐতিহ্যগত জরিপ থেকে অনুমান সম্পর্কিত হয়, রুয়ান্ডার ডেমোগ্রাফিক অ্যান্ড হেলথ সার্ভে (চিত্র 3.14). যদিও দুটি উত্স থেকে অনুমান অনুরূপ ছিল, Blumenstock এবং সহকর্মীদের থেকে অনুমান প্রায় 50 গুণ সস্তা এবং 10 গুণ দ্রুত (যখন খরচ পরিবর্তনশীল খরচ পরিপ্রেক্ষিতে মাপা) ছিল. খরচ এই নাটকীয় হ্রাস বরং প্রতি কয়েক বছর হিসেবে চালানো হচ্ছে ডেমোগ্রাফিক অ্যান্ড হেলথ জন্য মান সার্ভের-বড় ডিজিটাল ট্রেস ডেটা সঙ্গে মিলিত ছোট জরিপের সংকর প্রতি মাসে চালানো যেতে পারে মানে.
উপসংহার ইন, Blumenstock এর অ্যামপ্লিফাইড ডিজিটাল ট্রেস ডেটা সঙ্গে পদ্ধতির মিলিত জরিপ তথ্য জিজ্ঞাসা সোনার মান জরিপ অনুমান সঙ্গে তুলনীয় অনুমান উত্পাদন. এই বিশেষ উদাহরণ এছাড়াও ছড়িয়ে জিজ্ঞাসা এবং ঐতিহ্যগত জরিপ পদ্ধতির মধ্যে বিনিময় প্রথা কিছু সুস্পষ্ট. প্রথমত, বিবর্ধিত জিজ্ঞাসা অনুমান, আরো সময়োপযোগী যথেষ্ট সস্তা, এবং আরো ঝুরা ছিল. কিন্তু অন্যদিকে, এই সময়ে, সেখানে না বিবর্ধিত থাকাতে এই ধরনের জন্য একটি শক্তিশালী তাত্ত্বিক ভিত্তি নেই. যে, এই একটি উদাহরণ প্রদর্শন করা হয় না হয় যখন তা হবে না যখন এটা কাজ করবে. উপরন্তু, বিবর্ধিত জিজ্ঞাসা পদ্ধতির এখনো তার অনুমান প্রায় অনিশ্চয়তা সংখ্যায় ভাল উপায় নেই. যাইহোক, বিবর্ধিত জিজ্ঞাসা তিনটি বৃহৎ পরিসংখ্যান-মডেল-ভিত্তিক পোস্ট স্তরবিন্যাস অঞ্চলের গভীর সংযোগ আছে (Little 1993) , আরোপণ (Rubin 2004) , এবং ছোট-এলাকায় প্রাক্কলন (Rao and Molina 2015) -আর তাই আমি আশা করি, উন্নতি হবে দ্রুত হতে.
বিবর্ধিত জিজ্ঞাসা একটি মৌলিক রেসিপি যে আপনার বিশেষ পরিস্থিতির মতন যাবে অনুসরণ করে. দুটি উপাদানের এবং দুই ধাপ আছে. দুটি উপাদান 1) ডিজিটাল ট্রেস ডেটা সেটটি যে চওড়া কিন্তু পাতলা (যে হয় হয়, এটা অনেক মানুষ কিন্তু না তথ্য যে আপনি প্রতিটি ব্যক্তি সম্পর্কে প্রয়োজন) এবং 2) একটি জরিপ যে সংকীর্ণ কিন্তু পুরু (যে হয়, এটা হয়েছে মাত্র কয়েক মানুষ, কিন্তু এটা তথ্য যে আপনি ঐ সমস্ত লোকদের সম্পর্কে প্রয়োজন) রয়েছে. তারপর, সেখানে দুই ধাপ আছে. প্রথমত, উভয় তথ্য সূত্র মানুষের জন্য, একটি মেশিন লার্নিং মডেল ডিজিটাল ট্রেস ডেটা ব্যবহার করে জরিপ উত্তর ভবিষ্যদ্বাণী তৈরী. এর পরে, যে মেশিন লার্নিং মডেল ব্যবহার ডিজিটাল ট্রেস তথ্য সবার জরিপ উত্তর আরোপ. সুতরাং, যদি কিছু প্রশ্ন যে আপনি, মানুষের প্রচুর জিজ্ঞাসা যাদের তাদের উত্তর ভবিষ্যদ্বাণী করার জন্য ব্যবহৃত হতে পারে থেকে ডিজিটাল ট্রেস ডেটা জন্য সন্ধান করতে চান হয়.
তুলনা Blumenstock সমস্যা প্রথম এবং দ্বিতীয় প্রয়াস এছাড়াও জরিপ গবেষণা তৃতীয় যুগ পন্থা দ্বিতীয় যুগ থেকে রূপান্তরটি সম্পর্কে একটি গুরুত্বপূর্ণ পাঠ illustrates: শুরুতে শেষ নয়. যে, অনেক বার, প্রথম পদ্ধতির না করাই ভাল হবে, কিন্তু যদি গবেষকদের কাজ অব্যাহত, কিছু ভাল পেতে পারেন. আরো সাধারণভাবে, যখন ডিজিটাল যুগে সামাজিক গবেষণা নতুন পন্থা মূল্যায়ন, এটা গুরুত্বপূর্ণ দুটি স্বতন্ত্র নিরীক্ষণ করা হয়: 1) কত ভাল এখন এই কাজ করে এবং 2) কিভাবে ভাল আপনি কি মনে করেন এই তথ্য আড়াআড়ি ভবিষ্যতে কাজ করতে পারে না পরিবর্তন ও গবেষক হিসাবে সমস্যা আরো মনোযোগ চাই. যদিও গবেষকরা (কিভাবে ভাল গবেষণার এই নির্দিষ্ট টুকরা) মূল্যায়ন প্রথম ধরনের করতে প্রশিক্ষণ দেওয়া হয়, দ্বিতীয় প্রায়ই আরো গুরুত্বপূর্ণ.