2.3.6非代表的

非代表的なデータは、サンプル外の一般化に対しては悪いが、サンプル内の比較には非常に有用である可能性がある。

一部の社会科学者は、特定の国のすべての成人など、明確に定義された母集団からの確率的ランダムサンプルに由来するデータを扱うことに慣れています。この種のデータは代表データと呼ばれ、サンプルがより大きな集団を表すためです。多くの研究者が代理データを賞賛し、代表的なデータは厳密な科学と同義であり、非代表的なデータは不器用さと同義である。極端な場合には、非代表的なデータから何も学ぶことができないと懐疑的に思う人もいます。真の場合、大規模なデータソースから学ぶことができるものは厳しく制限されているようです。その多くは非代表的なものです。幸いにも、これらの懐疑論者は部分的にしか正しくありません。非代表的なデータが明らかに適切ではない特定の研究目標があるが、実際には非常に有用であるかもしれない他の研究目標がある。

この区別を理解するために、科学的な古典を考えてみましょう:John Snowのロンドンでの1853-54コレラ流行の研究。当時、多くの医師はコレラが「悪い空気」によって引き起こされたと信じていましたが、スノーは感染性疾患であると信じていました。このアイデアをテストするために、Snowは自然の実験と呼ばれるものを利用しました。彼はLambethとSouthwark&Vauxhallの2種類の水道会社が提供する世帯のコレラ率を比較した。これらの企業は同様の世帯を抱えていましたが、1つの重要な点で違いました。1849年に、流行が始まる数年前に、ランベスはロンドンの主な下水排水から上流に取水口を移動しましたが、Southwark&Vauxhallは、下水排水。雪が2つの会社の家庭でコレラの死亡率を比較したとき、彼は顧客に汚水汚染水を提供していたサウスウォーク&ボクスホールの顧客がコレラで死亡する可能性が10倍高いことを発見しました。この結果は、たとえそれがロンドンの代表的な人々のサンプルに基づいていないとしても、コレクターの原因に関するスノーの主張について強い科学的証拠を提供する。

しかし、これらの2社のデータは、異なる問題に答えるのに理想的ではありません。発生時にロンドンでコレラが発生した原因は何ですか?重要な第2の質問については、ロンドンの代表的な人々のサンプルを用意する方がはるかに良いでしょう。

スノーの仕事が示すように、非代表的なデータが非常に効果的であり、それに適していない他のものもある科学的な質問があります。これら2種類の質問を区別するための1つの未知の方法は、いくつかの質問はサンプル内の比較に関するものであり、いくつかはサンプル外の一般化に関するものである。この区別は、疫学におけるもう一つの古典的研究、すなわち喫煙ががんを引き起こすことを証明する上で重要な役割を果たすBritish Doctors Studyによってさらに説明することができます。この研究では、リチャード・ドールとA.ブラッドフォード・ヒルが数年間約2万5千人の男性医師を追跡し、調査開始時に喫煙した量に基づいて死亡率を比較しました。 Doll and Hill (1954)は、強い暴露 - 反応関係を見いだした。喫煙者が多いほど、肺がんで死亡する可能性が高い。もちろん、この男性の医師グループに基づいてすべての英国人の肺がんの有病率を推定するのは賢明ではありませんが、サンプル内の比較はまだ喫煙が肺がんを引き起こすという証拠を提供しています。

ここでは、サンプル内の比較とサンプル外の一般化の違いを説明したので、2つの注意事項が順を追って説明されています。第一に、英国の医師のサンプル内で成立する関係が、女性、英国の医師、男性の英国の工場労働者、女性のドイツの工場労働者、または他の多くのグループのサンプル内にも保持される程度について自然に疑問がある。これらの質問は興味深く重要ですが、標本から母集団まで一般化できる程度に関する質問とは異なります。例えば、男性の英国の医師に見られる喫煙とがんの関係がおそらく他のグループでも似ていると思われることに注意してください。この外挿を行うあなたの能力は、男性の英国の医師が任意の人口からの確率的ランダムサンプルであるという事実から来るものではありません。むしろ、それは喫煙と癌とを結びつけるメカニズムの理解から来ている。したがって、標本から集められた集団への一般化は、主に統計的な問題であるが、あるグループで見つかったパターンの別のグループへの移送性に関する質問は、主に非統計的な問題である(Pearl and Bareinboim 2014; Pearl 2015)

この時点で、懐疑的な人は、喫煙と癌との関係よりも、ほとんどの社会パターンがグループ間で伝達されにくい可能性が高いことを指摘するかもしれない。そして私は同意する。パターンが運搬可能であると期待すべき程度は、最終的には理論と証拠に基づいて決定されなければならない科学的問題である。パターンは運搬可能であると自動的に仮定されるべきではないが、運搬可能ではないと仮定されるべきではない。大学生を勉強して人間の行動を知ることができる研究者の数についての議論に従っているならば、トランスポート性についてのやや抽象的な質問はあなたには馴染み深いでしょう(Sears 1986, [@henrich_most_2010] ) 。しかし、これらの議論にもかかわらず、研究者は学部学生の勉強から何も学ぶことができないと言うのは不合理である。

2番目の注意点は、非代表的なデータを持つほとんどの研究者は、雪や人形と丘のように慎重ではないということです。研究者が非代表的なデータからサンプル外の一般化をしようとするときに何がうまくいかないかを説明するために、Andranik Tumasjanら(2010)の2009年のドイツ議会選挙の研究についてお話したいと思います。 10万以上のつぶやきを分析することによって、彼らは、政党に言及するつぶやきの割合が、議会選挙で当事者が受け取った票の割合と一致することを発見した(図2.3)。言い換えれば、本質的に無料だったTwitterデータは、代表的なデータに重点​​を置いているため、高価な伝統的な世論調査に取って代わることができたようだ。

おそらくあなたがすでにTwitterについて知っていることを考えれば、すぐにこの結果に懐疑的でなければなりません。 2009年のTwitterのドイツ人は、ドイツの有権者の確率的ランダムサンプルではなく、ある政党の支持者は他の政党の支持者よりもずっと頻繁に政治についてつぶやくかもしれない。このように、あなたが想像する可能性のある偏見のすべてが何らかの形で相殺され、このデータがドイツの有権者を直接反映するようになることは驚くようです。実際に、 Tumasjan et al. (2010)はあまりにも真実であることが判明した。 Andreas Jungherr氏、PascalJürgens氏、Harald Schoen氏(2012)のフォローアップ・ペーパーは、当初の分析では実際にTwitterで最も多くの言及を受けた政党を除外していたと指摘しています。海賊党は、インターネットの海賊党が分析に含まれたとき、Twitterの言及は選挙結果のひどい予測因子になる(図2.3)。この例が示すように、非代表的な大きなデータソースを使用してサンプル外の一般化を行うことは、非常に間違っている可能性があります。また、10万のつぶやきがあったという事実は、基本的に無関係であることに気づくべきである。多くの非代表的なデータは依然として非代表的なものであり、第3章で調査について論じるときに取り上げるテーマである。

図2.3:2009年のドイツ選挙(Tumasjan et al。2010)の結果を予測するようにTwitterの言及が示されているが、これは最も言及された当事者である海賊党(Jungherr、Jürgens、Schoen 2012)を除いている。 Tumasjan et al。 (2012年)に、海賊党を排除する議論が行われた。 Tumasjan et al。 (2010)、表4およびJungherr、Jürgens、およびSchoen(2012)、表2を参照のこと。

図2.3:2009年のドイツ選挙(Tumasjan et al. 2010)の結果を予測するようにTwitterの言及が(Tumasjan et al. 2010)が、これは最も言及された当事者である海賊党(Jungherr, Jürgens, and Schoen 2012)除いている。 Tumasjan et al. (2012)に、海賊党を排除する議論が行われた。 Tumasjan et al. (2010) 、表4およびJungherr, Jürgens, and Schoen (2012) 、表2を参照のこと。

結論として、多くの大きなデータソースは、明確な人口の代表サンプルではありません。サンプルから得られた結果をそれが描かれた母集団に一般化することを必要とする質問については、これは重大な問題である。しかし、サンプル内の比較についての質問では、研究者がサンプルの特徴について明確であり、理論的または経験的証拠による輸送可能性に関する主張の主張を支持する限り、非代表的なデータは強力であり得る。実際、大きなデータソースは研究者が多くの非代表的なグループでサンプル内の比較を増やすことを可能にし、私の推測では、多くの異なるグループからの推定は確率論的ランダムからの単一の推定よりも社会研究を進歩させるサンプル。