3.3.1表示

这种翻译是由一个计算机创建。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.3.1表示

表示是有关从受访者进行推论到你的目标人群。

为了体会那种从受访者对人口较多的推断时可能发生的错误，让我们考虑试图预测1936年美国总统大选结果的文艺文摘民意测验。虽然超过75年前，这个失误仍然有今天的教科研人员的重要一课。

文学文摘是一个受欢迎的一般兴趣的杂志，并于1920年开始，他们开始运行稻草民调预测总统选举的结果。为了使这些预测他们会派选票，很多人，然后简单地总结出被退回的选票; 文艺文摘自豪地报告说，他们收到的选票既不是“加权调整，也没有解释。”这个程序正确预测赢家在1920年，1924年，1928年和1932年。1936年的选举中，在大萧条之中， 文艺文摘发出选票10万人，他们的名字从电话号码簿和汽车登记记录主要是来了。下面是他们如何描述他们的方法：

“摘要与三十多年的经验迅速精确平稳运行的机器移动，以减少猜测到确凿的事实。。。一周。这500笔划伤了超过一百万的地址的四分之一一天。每一天，在一个大房间高高在上电机丝带第四大街，纽约，400名工人麻利地滑动万件印刷品，足以铺平道路40个街区，被寻址的信封（原文如此）。每隔一小时，在DIGEST自己的邮局变电站，三抖动邮资计费机密封并加盖白色的长方形;熟练的邮政员工翻转它们变成鼓鼓mailsacks;车队DIGEST卡车呼啸他们表达邮件的列车。。。下周，这些一千万首答案将开始显着选票的来潮，是三重检查，核实，五次交叉分类和汇总。当最后一个数字已评选出并检查，如果过去的经验是一个标准，该国将知道的1％的4000万[选民]的实际民众投票的一小部分之内。“（1936年8月22日）

大小的摘要的拜物教是立即识别的“大数据”研究员今天。的10万张选票分散，一个惊人的240万张选票被退回，这是大致比现代政治民意调查大1000倍。从这些240万受访者的判决是明确的： 文艺文摘预言挑战者阿尔夫·兰登是要打败现任富兰克林·罗斯福。但是，实际上，正好相反发生了。罗斯福以压倒性击败兰登。 文学文摘怎么可能去错了如此多的数据？我们采样的现代理解，使文学精华的错误，明确并帮助我们避免今后做出类似错误。

有关抽样清晰思考要求我们要考虑人的四个不同的群体（图3.1）。的人的第一组是目标人群 ;这是研究的定义为感兴趣的人口的组。在文学文摘的情况下，目标人群在1936年总统选举的选民。决定一个目标人群后，研究者下需要发展的，可用于对采样人的列表。该列表被称为采样帧和采样框架上的人口被称为帧的人口 。在文学文摘的情况下，框架人口为10万人，其名称来自电话目录和汽车登记记录来为主。理想的是，目标人群和框架人口将是完全一样的，但在实践中，这是常常并非如此。目标人群和帧人群之间的差异被称为覆盖误差 。覆盖误差不，本身保障的问题。但是，如果在帧人口人都是从人的不同系统中没有框架的人口将有覆盖偏差 。覆盖误差是第一个与文学文摘民意调查的主要缺陷。他们想了解的选民，这是他们的目标人群，但过度代表富裕，他们从电话目录和汽车登记，来源主要是构建了一个抽样框美国人谁更倾向于支持阿尔夫·兰登（回忆一下，这两种技术，这是常见的今天，是相对较新的时间和美国在大萧条之中）。

图3.1：表示错误。

定义帧人口后，下一步为研究者选择样本群 ;这些都是研究人员将试图采访的人。如果样品具有比框架人口不同的特点，那么，我们可以引入抽样误差 。这是错误的保证金，通常伴随量化估计的那种错误。在文学文摘惨败的情况下，实际上是没有样品;他们试图联系每个人都在框架的人口。即使没有抽样误差，但显然还是错误。这阐明了通常与预测报告，从调查的错误的边缘通常是误导较小;它们不包含错误的所有来源。

最后，研究人员尝试在样本人群进行采访的每一个人。那些成功访问了这些人被称为受访者 。理想地，样品人口和受访者将是完全一样的，但在实践中有不答复。也就是说，谁是样本中选择的人拒绝参加。如果谁做出反应的人都是那些谁不响应不同，那么就可以不答复偏差 。不答复偏差与文学文摘民意调查第二个主要问题。只有24％谁收到了选票的人回应，并且事实证明，谁支持兰登的人更容易应对。

除了摆明介绍代表性的观点为例， 文学文摘民意调查是一个经常重复的比喻，告诫约随意抽样的危险的研究人员。不幸的是，我认为，很多人从这个故事得出的教训是错误的。这个故事最常见的寓意是研究人员还不能（没有严格的基于概率的规则，即样本选择参加）借鉴非概率样本东西。但是，正如我将在本章后面表明，这是不完全正确。相反，我认为这里实际有道德这个故事;道德因为它们是在1936年首先是作为真正的今天，大量随意收集的数据将不能保证良好的估计。其次，研究人员需要考虑到他们的数据是如何时，他们能从中能收集到的估计。换句话说，因为在文学文摘民意调查数据采集过程中对一些受访者进行了系统的倾斜，研究人员需要使用更复杂的评估过程，重一些受访者比其他人。在本章的后面，我会告诉你一个这样的加权方法，事后分层，可以使您能够用非概率样本更好的估计。