表現は、あなたの標的集団にあなたの回答から推論を行うことについてです。
より大きな集団への回答から推測する場合に発生するエラーの種類を理解するために、のは、1936年米国大統領選挙の結果を予測しようとした文学ダイジェストわらの世論調査を検討してみましょう。それは75年以上前のことでしたが、この騒動はまだ今日の研究者を教えるための重要な教訓を持っています。
文学ダイジェストは、人気の一般的な金利の雑誌で、1920年に開始し、彼らは大統領選挙の結果を予測するためにわらポーリングを実行して開始しました。彼らはたくさんの人に投票用紙を送付してから、単に返された投票用紙を集計であろうこれらの予測を行うには、 文学ダイジェストは誇らしげに 、彼らが受け取った投票用紙はどちらも"。、加重調整し、また解釈"この手順が正しく勝者を予測しなかったことを報告しました1936年1920年、1924年、1928年と1932年の選挙で、大恐慌の真っ只中に、 文学ダイジェストは 、名前、主に電話帳や自動車登録レコードから来た1000万人に投票用紙を送りました。ここでは、彼らは彼らの方法論を説明した方法は次のとおりです。
「DIGESTの滑らかな動作しているマシンは、ハードな事実に当て推量を減らすために30年の経験の迅速な精度で移動します。 。 。 .This週500ペンは百万のアドレス日の4分の1以上を傷。毎日、モータリボンを第4道上の高い大きな部屋で、ニューヨークで、400労働者が手際よく対処にブロック-40都市舗装する印刷物-十分の万個をスライドさせ[原文]包みます。毎時、DIGEST自身の郵便局変電所では、3チャタリング郵便料金メーター機を密封し、白の長円形を刻印しました。熟練郵便従業員はmailsacksを膨らみにそれらを裏返し。艦隊DIGESTトラックは、メール列車を表現するために、それらを高速化。 。 。来週、これら千万からの最初の答えは、三重にチェックする、検証、5倍クロス分類と集計、マークされた投票用紙の上げ潮を開始します。最後の数字はtottedとチェックされた場合には、過去の経験が基準である場合、国は1パーセントの何分の内に4000万[有権者]の実際の人気投票を知っています。」(1936年8月22日)を
サイズのダイジェストのfetishizationは、任意の「ビッグデータ」は、研究者に今日はすぐに認識可能です。分散型千万投票用紙のうち、驚くべき240万の投票用紙が返さ-それがされた現代の政治的世論調査よりもおよそ1,000倍も大きいのです。これらの240万の回答者からの評決は明らかだった: 文学ダイジェストは挑戦者アルフレッド・ランドンは、現職のフランクリン・ルーズベルトの敗北するつもりだったと予測しました。しかし、実際には、正確な反対が起こりました。ルーズベルトは地滑りでランドンを破りました。どのように文学ダイジェストはあまりデータと間違って行くことができますか?サンプリングの現代理解は文学ダイジェストの誤差が明確になり、私たちは将来的に同様のエラーを避けることができます。
サンプリングについて明確に考えることは、人々(図3.1)の4つの異なる基を考慮することが私たちを必要とします。人の第一群は、 標的集団です。これは、研究が対象の集団として定義するグループです。 文学ダイジェストの場合、標的集団は、1936年大統領選挙で有権者ました。標的集団を決定した後、研究者は、次のサンプリングのために使用することができる人々のリストを作成する必要があります。このリストは、サンプリングフレームと呼ばれ、サンプリングフレーム上の人口は、 フレームの人口と呼ばれています。 文学ダイジェストの場合、フレームの人口は名前が電話帳や自動車登録レコードから主に来た1000万人でした。理想的には、標的集団とフレーム人口はまったく同じになりますが、実際には、これはよくあるケースではありません。標的集団とフレーム人口間の相違は、 カバレッジ・エラーと呼ばれています。カバレッジエラーは、それ自体で問題を保証するものではありません。しかし、 フレーム人口の人々は人々から体系的に異なっている場合ではないフレーム集団におけるカバレッジバイアスが存在することになります。カバレッジエラーが文学ダイジェスト世論調査で主要な欠陥の第一号でした。彼らは、これらの技術の両方アルフレッド・ランドン(リコールをサポートすることが多かった裕福なアメリカ人の上に表現されたことを有権者-その標的集団 - しかしだった、彼らは電話帳や自動車の登録から主にサンプリングフレームを構築し、情報源について学びたいと思いました今日一般的である、時と)米国は大恐慌の真っ只中にあったことは比較的新しかったです。
フレーム集団を定義したら、次のステップは、 サンプル集団を選択するための研究者のためのものです。これらは、研究者がインタビューしようとする人々です。サンプルは、フレーム群とは異なる特性を有している場合、我々は、 サンプリング誤差を導入することができます。これは通常の見積りに伴う誤差の範囲で定量化エラーの一種です。 文学ダイジェスト大失敗の場合には、実際にはサンプルがありませんでした。彼らはフレーム集団の全員に連絡することを試みました。何のサンプリングエラーがなかったにもかかわらず、まだ明らかに誤りがありました。これは、典型的には、調査からの推計で報告されたエラーのマージンが通常誤解を招く小さいことを明確にしています。彼らは、エラーのすべてのソースが含まれていません。
最後に、研究者は、サンプル集団内の全員にインタビューしようとします。正常にインタビューされているそれらの人々は、 回答者と呼ばれます 。理想的には、試料集団との回答者がまったく同じであるが、実際には非応答があるだろう。つまり、サンプルで選択されている人々が参加することを拒否、です。回答の人が応答しない人とは異なっている場合には、 非回答の偏りがあってもよいです。非応答バイアスは文学ダイジェスト世論調査で第二の主な問題でした。投票用紙を受け取った人のわずか24%が回答し、それはランドンを支え、人々が反応する可能性が高かったことが判明しました。
ただ表現のアイデアを紹介する例である以上に、 文学ダイジェスト世論調査では行き当たりばったりサンプリングの危険性についての研究者を警告し、しばしば繰り返さ寓話です。残念ながら、私は多くの人々がこの物語から描くレッスンは間違ったものだと思います。物語の最も一般的な道徳的には、研究者が(参加者を選択するための厳密な確率ベースのルールなしに、すなわち、サンプル)非確率サンプルから何かを学ぶことができないということです。しかし、私はこの章の後半で紹介したように、それはかなり右ではありません。その代わりに、私はこの物語には2つの道徳が本当にあると思います。彼らは1936年第一であったように、今日のような真の道徳は、無計画に収集されたデータの大規模な量が良好な推定値を保証するものではありません。第二に、研究者は、彼らはそれから見積もりを作っているときに、それらのデータが収集された方法を説明するために必要があります。 文学ダイジェスト世論調査でのデータ収集プロセスを体系的にいくつかの回答者に偏ったため、言い換えれば、研究者はいくつかの回答者より他のものよりも、その重みを、より複雑な推定プロセスを使用する必要があります。この章の後半で、私はあなたがそのような重み付け手続き後の成層非確率サンプルとのより良い推定を行うことができますすることができますが表示されます。