এই বিভাগে বদলে একটি আখ্যান হিসেবে পড়ার জন্য একটি রেফারেন্স হিসাবে ব্যবহার করার জন্য ডিজাইন করা হয়.
এই অধ্যায়ে থিম অনেকেই যেমন পাবলিক মতামত গবেষণা আমেরিকান এসোসিয়েশন (AAPOR) সাম্প্রতিক প্রেসিডেন্সিয়াল ঠিকানাগুলি, প্রতিধ্বনিত হয়েছে Dillman (2002) , Newport (2011) , Santos (2014) , এবং Link (2015) .
জরিপ গবেষণার উন্নয়নের সম্পর্কে আরো ঐতিহাসিক পটভূমির জন্য, দেখুন Smith (1976) এবং Converse (1987) . জরিপ গবেষণার তিন যুগের ধারণা সম্পর্কে আরো জানার জন্য, দেখুন Groves (2011) এবং Dillman, Smyth, and Christian (2008) (যা সামান্য ভিন্নভাবে তিন যুগের ভঙ্গ).
জরিপ গবেষণা দ্বিতীয় যুগের প্রথম থেকে রূপান্তরটি ভিতরে একটা শৃঙ্গ Groves and Kahn (1979) , যার মধ্যে একটি বিস্তারিত মাথা টু মাথা তুলনা একজন সামনা-সামনি এবং টেলিফোন জরিপ. Brick and Tucker (2007) র্যান্ডম অঙ্ক ডায়াল স্যাম্পলিং পদ্ধতি ঐতিহাসিক উন্নয়ন ফিরে দেখায়.
আরো কিভাবে জরিপ গবেষণা সমাজে পরিবর্তন প্রতিক্রিয়ায় গত পরিবর্তিত হয়েছে জন্য দেখুন Tourangeau (2004) , Mitofsky (1989) , এবং Couper (2011) .
প্রশ্ন জিজ্ঞাসা করে অভ্যন্তরীণ রাজ্যের সম্পর্কে শেখা সমস্যা হতে পারে, কারণ কখনও কখনও উত্তরদাতা নিজেদের অভ্যন্তরীণ রাজ্যের সচেতন নয়. উদাহরণস্বরূপ, Nisbett and Wilson (1977) "বেশী আমরা জানবো কহন:. মানসিক প্রক্রিয়া মৌখিকের প্রতিবেদন 'গবেষণাপত্রে লেখক উপসংহার:" প্রজাদের মাঝে মাঝে এর (ক) অবিদিত শিল্পানুগ শিরোনাম দিয়ে একটি বিস্ময়কর কাগজ আছে একটি উদ্দীপক যে গুরুত্বপূর্ণভাবে একটি প্রতিক্রিয়া প্রভাবিত অস্তিত্ব, (খ) প্রতিক্রিয়া অস্তিত্ব, এবং (গ) অজ্ঞাত যে উদ্দীপক প্রতিক্রিয়া প্রভাবিত করেছে অবিদিত. "
পাল্টা যুক্তি হল যে গবেষকরা রিপোর্ট আচরণ বা মনোভাব পরিলক্ষিত আচরণ করা উচিৎ জন্য দেখুন Baumeister, Vohs, and Funder (2007) (মনোবিজ্ঞান) এবং Jerolmack and Khan (2014) এবং প্রতিক্রিয়া (Maynard 2014; Cerulo 2014; Vaisey 2014; Jerolmack and Khan 2014) (সমাজবিজ্ঞান). জিজ্ঞাসা এবং নিরীক্ষক পার্থক্য অর্থনীতি, যেখানে গবেষকরা বলেন এবং উদ্ভূত পছন্দগুলি সম্পর্কে কথা বলতে দেখা দেয় দুটো কারণে. উদাহরণস্বরূপ, একটি গবেষক উত্তরদাতা কিনা তারা আইসক্রীম খাওয়া বা (বিবৃত পছন্দগুলি) জিমে যাওয়া পছন্দ করে জিজ্ঞেস করতে পারি বা গবেষণা পড়া সম্ভব হতে পারে কিভাবে প্রায়ই মানুষ আইসক্রীম খাওয়া এবং জিম (প্রকাশ পছন্দগুলি) যান. সেখানে নির্দিষ্ট অর্থনীতি বিবৃত অভিরুচি ডেটা ধরনের গভীর সংশয় হয় (Hausman 2012) .
এই বিতর্ক থেকে একটি প্রধান থিম যে রিপোর্ট আচরণ সবসময় সঠিক নয়. কিন্তু, স্বয়ংক্রিয়ভাবে রেকর্ড আচরণ, সঠিক নাও হতে পারে সুদের একটি নমুনা সংগ্রহ করা সম্ভব হবে না, এবং গবেষক অ্যাক্সেসযোগ্য নাও হতে পারে. সুতরাং, কিছু পরিস্থিতিতে, আমি মনে করি যে রিপোর্ট আচরণ উপযোগী হতে পারে. উপরন্তু, এই বিতর্ক থেকে একটি দ্বিতীয় প্রধান থিম যে আবেগ, জ্ঞান, প্রত্যাশা, এবং মতামত সম্পর্কে রিপোর্ট সবসময় সঠিক হয় না. কিন্তু, যদি এই অভ্যন্তরীণ রাজ্যের সম্পর্কে তথ্য দ্বারা প্রয়োজন হয় গবেষক-পারেন সাহায্য করার জন্য কিছু আচরণের ব্যাখ্যা বা যেমন জিনিস ব্যাখ্যা-তারপর হবে জিজ্ঞাসা উপযুক্ত হতে পারে.
মোট জরিপ ত্রুটিতে বই দৈর্ঘ্য চিকিত্সার জন্য দেখুন Groves et al. (2009) বা Weisberg (2005) . মোট জরিপ ত্রুটির উন্নয়নের ইতিহাস সম্পর্কে জানার জন্য, দেখুন Groves and Lyberg (2010) .
একটি গবেষণা এজেন্ডা: উপস্থাপনা নিরিখে, অ প্রতিক্রিয়া এবং অ প্রতিক্রিয়া পক্ষপাত সমস্যা একটি বড় ভূমিকা সামাজিক বিজ্ঞান সার্ভে nonresponse উপর ন্যাশনাল রিসার্চ কাউন্সিল রিপোর্ট (2013) . আরেকটি দরকারী ওভারভিউ দ্বারা উপলব্ধ করা হয় (Groves 2006) . এছাড়াও, অফিসিয়াল পরিসংখ্যান জার্নাল, পাবলিক ওপিনিয়ন ত্রৈমাসিক, এবং রাজনৈতিক ও সামাজিক বিজ্ঞান আমেরিকান অ্যাকাডেমি অফ কাহিনী সমগ্র বিশেষ বিষয় অ প্রতিক্রিয়া বিষয়ে প্রকাশিত হয়েছে. অবশেষে, প্রতিক্রিয়া হার গণনার আসলে অনেক বিভিন্ন উপায় আছে; এই পন্থা পাবলিক ওপিনিয়ন গবেষকরা আমেরিকান এসোসিয়েশন (AAPOR) দ্বারা একটি প্রতিবেদনে বিস্তারিতভাবে বর্ণনা করা হয় (Public Opinion Researchers} 2015) .
1936 লিটারারি ডাইজেস্ট জরিপে বিস্তারিত গবেষণা করা হয়েছে (Bryson 1976; Squire 1988; Cahalan 1989; Lusinchi 2012) . এটি একটি দৃষ্টান্ত এলোমেলো তথ্য সংগ্রহ বিরুদ্ধে সতর্ক হিসেবে ব্যবহার করা হয়েছে (Gayo-Avello 2011) . 1936 সালে জর্জ গ্যালাপ স্যাম্পলিং একটি আরো পরিশীলিত রূপ ব্যবহার, এবং অনেক ছোট নমুনা সঙ্গে আরো সঠিক অনুমান উত্পাদন করতে সক্ষম ছিল. লিটারারি ডাইজেস্ট ধরে গ্যালাপ সাফল্যের একটি মাইলফলক জরিপ গবেষণার উন্নয়নের ছিল (Converse 1987, Ch 3; Ohmer 2006, Ch 4; Igo 2008, Ch 3) .
পরিমাপের নিরিখে, নকশা প্রশ্নাবলীর জন্য একটি মহান প্রথম সম্পদ Bradburn, Sudman, and Wansink (2004) . মনোভাব প্রশ্নে বিশেষভাবে নিবদ্ধ একটি আরো উন্নত চিকিৎসার জন্য, দেখুন Schuman and Presser (1996) . প্রাক-পরীক্ষার প্রশ্ন উপর আরো পাওয়া যায় Presser and Blair (1994) , Presser et al. (2004) , এবং 8 অধ্যায়ে Groves et al. (2009) .
জরিপ খরচ ও জরিপ ত্রুটি মধ্যে ট্রেড বন্ধ ক্লাসিক, বই দৈর্ঘ্যের চিকিত্সা Groves (2004) .
মান সম্ভাব্যতা স্যাম্পলিং এবং প্রাক্কলনের ক্লাসিক বই দৈর্ঘ্যের চিকিত্সা হয় Lohr (2009) (আরো পরিচায়ক) এবং Särndal, Swensson, and Wretman (2003) (আরো উন্নত). পোস্ট স্তরবিন্যাস এবং সংশ্লিষ্ট পদ্ধতির একটি ক্লাসিক বই দৈর্ঘ্যের চিকিত্সা Särndal and Lundström (2005) . কিছু ডিজিটাল বয়স সেটিংস গবেষকরা অ উত্তরদাতা, যা না প্রায়ই অতীতে সত্য ছিল সম্পর্কে বেশ কিছুটা জানি. অ প্রতিক্রিয়া সমন্বয় বিভিন্ন ফর্ম সম্ভব হয় গবেষকরা অ উত্তরদাতাদের সম্পর্কে তথ্য আছে (Kalton and Flores-Cervantes 2003; Smith 2011) .
এর এক্সবক্স অধ্যয়ন Wang et al. (2015) একটি কৌশল বহুস্তরীয় নির্ভরণ এবং post- স্তরবিন্যাস বলা (এমআরপি, মাঝে মাঝে "মশাই পি" বলা হয়) যে গবেষকরা অনুমান করার জন্য সেল মানে এমনকি যখন অনেক, অনেক কোষ হয় পারবেন ব্যবহার. যদিও এই কৌশল থেকে অনুমান মান সম্পর্কে কিছু বিতর্ক আছে, এটি একটি সম্ভাবনাময় এলাকা ঘুরে মত মনে হয়. কৌশল প্রথম ব্যবহৃত হয় Park, Gelman, and Bafumi (2004) , এবং পরবর্তী ব্যবহারের এবং বিতর্ক হয়েছে (Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) . পৃথক ওজন এবং সেল ভিত্তিক ওজন মধ্যে সংযোগ সম্পর্কে আরো জানার জন্য দেখুন Gelman (2007) .
তৌল ওয়েব সার্ভের অন্যান্য পন্থা জন্য দেখুন Schonlau et al. (2009) , Valliant and Dever (2011) , এবং Bethlehem (2010) .
নমুনা ম্যাচিং দ্বারা প্রস্তাবিত হয় Rivers (2007) . Bethlehem (2015) যুক্তি দেন যে নমুনা ম্যাচিং কর্মক্ষমতা আসলে অন্যান্য স্যাম্পলিং পন্থা (যেমন, স্তরীভূত স্যাম্পলিং) এবং অন্যান্য সমন্বয় পন্থা (যেমন, পোস্ট স্তরবিন্যাস) অনুরূপ হতে হবে. অনলাইন প্যানেল সম্পর্কে আরো জানার জন্য, দেখুন Callegaro et al. (2014) .
জীবনানন্দ গবেষক পাওয়া যায় যে সম্ভাব্যতা নমুনা এবং অ সম্ভাব্যতা নমুনা অনুরূপ মান অনুমান উত্পাদ (Ansolabehere and Schaffner 2014) , কিন্তু অন্য তুলনা পাওয়া যায় যে অ সম্ভাব্যতা নমুনা পাপাচরণে প্রবৃত্ত (Malhotra and Krosnick 2007; Yeager et al. 2011) . এই পার্থক্যের জন্য একটি সম্ভাব্য কারণ যে অ সম্ভাব্যতা নমুনা সময়ের উন্নত হয়েছে. অ সম্ভাব্যতা স্যাম্পলিং পদ্ধতি আরো হতাশাপূর্ণ দৃশ্য দেখুন অ সম্ভাব্যতা স্যাম্পলিং উপর AAPOR টাস্ক ফোর্স (Baker et al. 2013) , এবং আমি এও ভাষ্য যে সংক্ষিপ্ত রিপোর্ট অনুসরণ পড়া সুপারিশ.
তৌল অ সম্ভাব্যতা স্যাম্পেল পক্ষপাত কমাতে প্রভাব একটি মেটা-বিশ্লেষণের জন্য, সারণি 2.4 দেখতে Tourangeau, Conrad, and Couper (2013) , যা লেখক বাড়ে "এই উপসংহারে আসা সমন্বয় দরকারী কিন্তু ভ্রমপ্রবণ সংশোধন হবে বলে মনে হচ্ছে. . . "
Conrad and Schober (2008) ভবিষ্যতের সার্ভে সাক্ষাৎকার Envisioning শীর্ষক একটা সম্পাদিত ভলিউম প্রদান করে, এবং এটি এই বিভাগে থিম অনেক ঠিকানাগুলি. Couper (2011) অনুরূপ থিম ঠিকানাগুলি, এবং Schober et al. (2015) কিভাবে তথ্য সংগ্রহ পদ্ধতি যে একটি নতুন সেটিং মতন হয় উচ্চ মানের তথ্য হতে পারে এর একটি চমৎকার উদাহরণ.
সামাজিক বিজ্ঞান সার্ভে জন্য ফেসবুক অ্যাপ্লিকেশন ব্যবহার করার আরেকটি আকর্ষণীয় উদাহরণ জন্য, দেখুন Bail (2015) .
সার্ভে অংশগ্রহণকারীদের জন্য একটি উপভোগ্য এবং মূল্যবান অভিজ্ঞতা তৈরীর উপর আরো পরামর্শ জন্য, উপযোগী ডিজাইন পদ্ধতি উপর কাজ দেখতে (Dillman, Smyth, and Christian 2014) .
Stone et al. (2007) পরিবেশগত ক্ষণস্থায়ী মূল্যায়ন এবং সংশ্লিষ্ট পদ্ধতির একটি বই দৈর্ঘ্য চিকিত্সার উপলব্ধ করা হয়.
Judson (2007) যেমন সার্ভে এবং প্রশাসনিক ডাটা মিশ্রন প্রক্রিয়া বর্ণনা "তথ্য ইন্টিগ্রেশন," এই পদ্ধতির কিছু সুফল আলোচনা করা হয়েছে এবং কিছু উদাহরণ উপলব্ধ করা হয়.
আরেকটি উপায় হল যে গবেষকরা ডিজিটাল ট্রেস এবং প্রশাসনিক ডাটা ব্যবহার করতে পারেন নির্দিষ্ট বৈশিষ্ট্য ব্যক্তিদের জন্য একটি নমুনা ফ্রেম হয়. যাইহোক, অ্যাক্সেস এই রেকর্ড গোপনীয়তা এর সাথে সম্পর্কিত প্রশ্ন তৈরি করতে পারেন একটি নমুনা ফ্রেম ব্যবহার করা হবে (Beskow, Sandler, and Weinberger 2006) .
বিবর্ধিত জিজ্ঞাসা সংক্রান্ত, এই পদ্ধতির হিসাবে এটা কিভাবে আমি এটা বর্ণনা করেছি থেকে প্রদর্শিত হতে পারে যেমন নতুন কিছু নয়. এই পদ্ধতির তিনটি বৃহৎ পরিসংখ্যান-মডেল-ভিত্তিক পোস্ট স্তরবিন্যাস অঞ্চলের গভীর সংযোগ আছে (Little 1993) , আরোপণ (Rubin 2004) , এবং ছোট এলাকায় প্রাক্কলন (Rao and Molina 2015) . এছাড়া চিকিৎসা গবেষণায় সারোগেট ভেরিয়েবল ব্যবহারের সঙ্গে সম্পর্কযুক্ত (Pepe 1992) .
ডিজিটাল ট্রেস ডেটা অ্যাক্সেস সংক্রান্ত নৈতিক বিষয় ছাড়াও, বিবর্ধিত জিজ্ঞাসা আরো সংবেদনশীল বৈশিষ্ট্যগুলো যে মানুষ একটি জরিপ প্রকাশ করতে পছন্দ করে না পারে অনুমান করতে ব্যবহার করা যেতে পারে (Kosinski, Stillwell, and Graepel 2013) .
খরচ এবং সময় অনুমান Blumenstock, Cadamuro, and On (2015) যেমন খরচ এবং পরিষ্কার কল ডেটা প্রসেস হিসেবে পরিবর্তনশীল খরচ এক অতিরিক্ত জরিপ-ও সংশোধন করা হয়েছে অন্তর্ভুক্ত করবেন না খরচ খরচ আরও পড়ুন. সাধারণভাবে, বিবর্ধিত জিজ্ঞাসা সম্ভবত উচ্চ নির্দিষ্ট খরচ এবং কম পরিবর্তনশীল ডিজিটাল পরীক্ষায় (অধ্যায় 4 দেখুন) অনুরূপ খরচ হবে. ব্যবহৃত ডাটা আরো বিস্তারিত Blumenstock, Cadamuro, and On (2015) কাগজে আছে Blumenstock and Eagle (2010) এবং Blumenstock and Eagle (2012) . একাধিক imputuation থেকে পন্থা (Rubin 2004) বিবর্ধিত জিজ্ঞাসা থেকে অনুমান ক্যাপচার অনিশ্চয়তা সাহায্য করতে পারে. গবেষকরা শুধুমাত্র জিজ্ঞাসা সমষ্টিগত গন্য, বরং পৃথক স্তরের বৈশিষ্ট্যগুলো যত্নশীল বিবর্ধিত করছেন, তাহলে এ পন্থা King and Lu (2008) এবং Hopkins and King (2010) ব্যবহার করা যাবে. মধ্যে মেশিন লার্নিং পন্থা সম্পর্কে আরো জানার জন্য Blumenstock, Cadamuro, and On (2015) , দেখুন James et al. (2013) (আরো পরিচায়ক) অথবা Hastie, Tibshirani, and Friedman (2009) (আরো উন্নত). আরেকটি জনপ্রিয় মেশিন লার্নিং পাঠ্যপুস্তক নয় Murphy (2012) .
সমৃদ্ধ জিজ্ঞাসা সংক্রান্ত, Ansolabehere এবং Hersh ফলাফল (2012) দুই কী সিঁড়িতে কবজা: 1) এর জরিপ তথ্য সঠিক মাস্টার datafile উত্পাদন অনেক অসম তথ্য সূত্র একত্রিত এবং 2) Catalist ক্ষমতা লিঙ্ক করতে Catalist ক্ষমতা তার মনিব datafile. অতএব, Ansolabehere এবং Hersh ধাপগুলি প্রতিটি সাবধানে চেক.
মাস্টার datafile তৈরি করতে হলে, Catalist সম্মিলন এবং সহ বিভিন্ন উৎস থেকে তথ্য সমন্বয় করে: অন্যান্য অনির্দিষ্ট বাণিজ্যিক প্রদানকারীর থেকে প্রতিটি রাষ্ট্র থেকে একাধিক ভোট রেকর্ড স্ন্যাপশট, পোস্ট অফিস এর ঠিকানা রেজিস্ট্রির ন্যাশনাল পরিবর্তন থেকে তথ্য এবং তথ্য. কিভাবে এই সব পরিষ্কার এবং মার্জ ঘটবে সম্পর্কে রক্তাক্ত বিবরণ এই বইয়ের সাধ্যাতীত হয়, কিন্তু এই প্রক্রিয়া, কোন ব্যাপার কিভাবে সাবধান, মূল তথ্য সূত্র ত্রুটি সঞ্চারিত হবে এবং ত্রুটি পরিচয় করিয়ে দিতে হবে. যদিও Catalist তার ডাটা প্রসেসিং আলোচনা এবং তার কাঁচা কিছু ডেটা প্রদান করতে ইচ্ছুক ছিলেন, এটা কেবল অসম্ভব ছিল গবেষকরা সমগ্র Catalist তথ্য পাইপলাইন পুনর্বিচারের জন্য. বরং, গবেষকরা একটি অবস্থা যেখানে Catalist ডেটা ফাইল কিছু অজানা, এবং সম্ভবত অজ্ঞেয়, ত্রুটির পরিমাণ ছিল ছিল. এটি একটি গুরুতর উদ্বেগ কারণ একটি সমালোচক ফটকা পারে যে CCES জরিপ রিপোর্ট এবং Catalist মাস্টার ডেটা ফাইল আচরণ মধ্যে বড় পার্থক্য মাস্টার ডেটা ফাইলে ত্রুটি দ্বারা ঘটিত হয়, উত্তরদাতারা দ্বারা misreporting দ্বারা নয়.
Ansolabehere এবং Hersh ডেটা মানের উদ্বেগ অ্যাড্রেসিং দুটি ভিন্ন পন্থা নেয়. প্রথমত, Catalist মাস্টার ফাইল ভোট স্ব-রিপোর্ট ভোটিং তুলনা ছাড়াও, গবেষকরা তুলনায় স্ব-রিপোর্ট দল, জাতি, ভোটার রেজিষ্ট্রেশন অবস্থা (যেমন, নিবন্ধিত হউক বা না নিবন্ধিত) এবং ভোটিং পদ্ধতি (যেমন, ব্যক্তি, অনুপস্থিত ব্যালট-পরিচ্ছদ ইত্যাদি) ঐ মান Catalist ডাটাবেস পাওয়া. এই চারটি ডেমোগ্রাফিক ভেরিয়েবল গবেষণায় ভোট চেয়ে Catalist মাস্টার ফাইলে সমীক্ষা প্রতিবেদন এবং ডেটা মধ্যে চুক্তির অনেক উচ্চ মাত্রার পাওয়া. এভাবে Catalist মাস্টার ডেটা ফাইল পরামর্শ এটি দরিদ্র সামগ্রিক মান নয় ভোট চেয়ে অন্যান্য বৈশিষ্ট্যগুলো জন্য উচ্চ মানের তথ্য আছে বলে মনে হচ্ছে. দ্বিতীয়ত, Catalist থেকে তথ্য ব্যবহার করে, আংশিকভাবে, Ansolabehere এবং Hersh কাউন্টি ভোট রেকর্ডের মানের তিনটি ভিন্ন ব্যবস্থা উন্নত, এবং তারা দেখা যায় যে ভোটের উপর প্রতিবেদনের প্রাক্কলিত হার মূলত ডাটা মানের ব্যবস্থা কোনো সম্পর্কহীন ছিল, একটি গবেষনার যে যে সুপারিশ ওভার প্রতিবেদনের উচ্চহারে অসাধারণভাবে কম ডেটা মানের সঙ্গে কাউন্টিকে দ্বারা চালিত করা হচ্ছে না.
এই মাস্টার ভোটিং ফাইল নির্মাণের দেওয়া, সম্ভাব্য ত্রুটি দ্বিতীয় উৎস এটি জরিপ রেকর্ড লিঙ্ক করা হয়. উদাহরণস্বরূপ, যদি এই দুটো ঘটনার ভুল সম্পন্ন করা হয় তা রিপোর্ট এবং বৈধ ভোট আচরণের মধ্যে পার্থক্য একটি ওভার অনুমান হতে পারে (Neter, Maynes, and Ramanathan 1965) . তাহলে যে ব্যক্তি একটি স্থিতিশীল, অনন্য শনাক্তকারী যে উভয় ডাটা উৎস ছিল, তারপর লিংকেজ তুচ্ছ হবে. মার্কিন এবং অন্যান্য দেশের মধ্যে যাইহোক, সেখানে কোন সার্বজনীন আইডেন্টিফায়ার. উপরন্তু, এমনকি যদি এই ধরনের ছিল একটি আইডেন্টিফায়ার মানুষ সম্ভবত জরিপ গবেষকরা এটা প্রদান দ্বিধাগ্রস্ত হবে! নাম, লিঙ্গ, জন্মের বছর, এবং বাড়ির ঠিকানা: এভাবে Catalist অপূর্ণ শনাক্তকারী প্রতিটি উত্তরদাতা সম্পর্কে তথ্য চার টুকরা ব্যবহার করে, এই ক্ষেত্রে লিংকেজ কি ছিল. উদাহরণস্বরূপ, Catalist সিদ্ধান্ত নিতে যদি CCES মধ্যে Homie জে সিম্পসন তাদের মাস্টার ডেটা ফাইলে হোমার জে সিম্পসন হিসাবে একই ব্যক্তি ছিল. বাস্তবে, ম্যাচিং একটি কঠিন এবং নোংরা প্রক্রিয়া, এবং, বিষয়ে গবেষকদের জন্য আরো খারাপ করতে, Catalist তার ম্যাচিং কৌশল বিবেচিত মালিকানা হতে.
যাতে মেলানোর আলগোরিদিম বৈধতা যাচাই করার জন্য তারা দুটি চ্যালেঞ্জ উপর নির্ভরশীল. MITRE কর্পোরেশন: প্রথমত, Catalist একটি মেলা প্রতিযোগিতার যে একটি স্বাধীন, তৃতীয় পক্ষের দ্বারা পরিচালিত হতো অংশগ্রহণ করেন. MITRE সমস্ত অংশগ্রহণকারীদের দুই সশব্দ ডাটা ফাইল উপলব্ধ মিলেছে করা হবে, এবং বিভিন্ন দল MITRE সেরা ম্যাচিং ফিরে যাওয়ার প্রতিযোগিতা. কারণ MITRE নিজেই সঠিক ম্যাচিং জানত তারা দলই সক্ষম ছিল. 40 কোম্পানি যে প্রতিযোগিতা মধ্যে Catalist দ্বিতীয় স্থানে এসেছে. স্বাধীন, তৃতীয় পক্ষের মালিকানা প্রযুক্তি মূল্যায়ন এই ধরনের বেশ বিরল এবং অবিশ্বাস্যভাবে মূল্যবান; এটা আমাদের আস্থা যে Catalist এর ম্যাচিং পদ্ধতি রাষ্ট্র-এর-শিল্প মূলত হয় দিতে হবে. কিন্তু রাষ্ট্র-এর-শিল্প যথেষ্ট ভাল? এই মেলা প্রতিযোগিতা ছাড়াও, Ansolabehere এবং Hersh Catalist জন্য তাদের নিজের ম্যাচিং চ্যালেঞ্জ সৃষ্টি. আগের প্রকল্প থেকে, Ansolabehere এবং Hersh ফ্লোরিডা থেকে ভোটার রেকর্ড সংগ্রহ করেছিলেন. তারা তাদের ক্ষেত্র Catalist করতে রেডঅ্যাক্টেড এবং তারপর তাদের প্রকৃত মান এইসব ক্ষেত্র Catalist প্রতিবেদন তুলনায় কিছু সঙ্গে এই রেকর্ড কিছু প্রদান. সৌভাগ্যবসত, Catalist প্রতিবেদন কর্তিত মান ঘনিষ্ঠ ছিলেন, যা নির্দেশ করে Catalist তাদের মাস্টার ডেটা ফাইল সম্মুখের আংশিক ভোটার রেকর্ড মেলে পারে. এই দুটি চ্যালেঞ্জ, একটি তৃতীয় পক্ষের দ্বারা এক এবং এক Ansolabehere এবং Hersh দ্বারা, আমাদের আমরা তাদের সঠিক বাস্তবায়ন নিজেদেরকে পর্যালোচনা করতে পারবেন না, যদিও Catalist ম্যাচিং আলগোরিদিম আরও আত্মবিশ্বাস যোগাবে.
সেখানে ভোট যাচাই করতে অনেক পূর্ববর্তী উদ্যোগ নেয়া হয়েছে. যে সাহিত্য একটি ওভারভিউ জন্য, দেখুন Belli et al. (1999) , Berent, Krosnick, and Lupia (2011) , Ansolabehere and Hersh (2012) , এবং Hanmer, Banks, and White (2014) .
এটা মনে রাখতে হবে যে, যদিও এই ক্ষেত্রে গবেষকরা Catalist থেকে ডাটা মান দ্বারা উৎসাহিত করা হয়েছিল, বাণিজ্যিক বিক্রেতারা অন্যান্য মূল্যায়ন কম উত্সাহী হয়েছে গুরুত্বপূর্ণ. গবেষকরা দরিদ্র মানের পাওয়া যায় যখন মার্কেটিং সিস্টেম গ্রুপ থেকে একটি ভোক্তা-ফাইল একটি জরিপ থেকে তথ্য (যা নিজেই তিন প্রদানকারীর থেকে একসঙ্গে তথ্য একত্রিত করা হয়েছে: তথ্য যোগ, Experian, এবং InfoUSA) (Pasek et al. 2014) . অর্থাৎ ডাটা ফাইল জরিপ প্রতিক্রিয়া গবেষকরা সঠিক হতে হবে বলে আশা করা মেলেনি, datafile ছিল নিখোঁজ তথ্য প্যাটার্ন প্রশ্ন সংখ্যক, এবং জন্য তথ্য রিপোর্ট জরিপ মান (পরম্পর ছিল অন্য কথায় অনুপস্থিত তথ্য নিয়মানুগ ছিল র্যান্ডম না).
সার্ভে এবং প্রশাসনিক ডাটা মধ্যে রেকর্ড দুটো ঘটনার সম্পর্কে আরো জানার জন্য, দেখুন Sakshaug and Kreuter (2012) এবং Schnell (2013) . সাধারণভাবে রেকর্ড দুটো ঘটনার সম্পর্কে আরো জানার জন্য, দেখুন Dunn (1946) এবং Fellegi and Sunter (1969) (ঐতিহাসিক) এবং Larsen and Winkler (2014) (আধুনিক). একই পন্থা যেমন ডাটা ডিডুপ্লিকেশান উদাহরণস্বরূপ সনাক্তকরণ, নাম ম্যাচিং, ডুপ্লিকেট সনাক্তকরণ হিসাবে নামের অধীন কম্পিউটার বিজ্ঞান মধ্যে উন্নত করা হয়েছে, এবং রেকর্ড ডিটেকশন ডুপ্লিকেট (Elmagarmid, Ipeirotis, and Verykios 2007) . এছাড়া গোপনীয়তা লিংকেজ যা ব্যক্তিগতভাবে তথ্য চিহ্নিতকরণের সংক্রমণ প্রয়োজন হয় না রেকর্ড করতে পন্থা সংরক্ষণের হয় (Schnell 2013) . ফেসবুক এ গবেষকরা probabilisticsly ভোটিং আচরণ তাদের রেকর্ডের লিঙ্ক করতে একটি পদ্ধতি উন্নত (Jones et al. 2013) ; এই দুটো ঘটনার মধ্যে একটা পরীক্ষা যে আমি আপনি অধ্যায় 4 সম্পর্কে বলব মূল্যায়ন করা হয়েছিল (Bond et al. 2012) .
সরকার প্রশাসনিক রেকর্ড করার জন্য একটি বড় মাপের সামাজিক জরিপ লিঙ্ক আরেকটি উদাহরণ স্বাস্থ্য ও অবসর সার্ভে এবং সামাজিক নিরাপত্তা প্রশাসন থেকে আসে. যে গবেষণা সম্পর্কে আরো জানার জন্য, সম্মতি পদ্ধতি সম্পর্কে তথ্য সহ, দেখতে Olson (1996) এবং Olson (1999) .
একটি মাস্টার datafile-প্রক্রিয়ার যে Catalist কিছু জাতীয় সরকারগুলোর পরিসংখ্যানগত অফিসে সাধারণ কর্মচারী-is মধ্যে প্রশাসনিক রেকর্ডের অনেক উৎস মিশ্রন প্রক্রিয়া. পরিসংখ্যান সুইডেন থেকে দুই গবেষক বিষয়ে একটি বিস্তারিত বই লিখেছি (Wallgren and Wallgren 2007) . (অলমস্টেড কাউন্টি, মিনেসোটা; মায়ো ক্লিনিকের বাড়িতে) দেশ: মার্কিন যুক্তরাষ্ট্র একটি একক কাউন্টিতে এই পদ্ধতির একটি উদাহরণ জন্য, দেখুন Sauver et al. (2011) . ত্রুটি প্রশাসনিক রেকর্ডে প্রদর্শিত করতে পারেন সম্পর্কে আরো জানার জন্য, দেখুন Groen (2012) .