2.3.4不完全

どんなに大きなデータであっても、必要な情報がない可能性があります。

ほとんどのビッグデータソースは、あなたが研究に必要とする情報を持っていないという意味で、 不完全です。これは、研究以外の目的で作成されたデータの共通の特徴です。多くの社会科学者は、必要とされる質問をしなかった既存の調査など、不完全さを扱った経験を既に持っていました。残念なことに、不完全さの問題は大きなデータでは極端になる傾向があります。私の経験では、大きなデータには、ソーシャルリサーチに役立つ3種類の情報が欠落する傾向があります。参加者の人口統計情報、他のプラットフォームでの行動、理論構築物を操作するデータ。

三種類の不完全性のうち、理論的な構造を操作するための不完全なデータの問題は、解決するのが最も難しい。私の経験では、それは間違って見過ごされることがよくあります。大まかに言えば、 理論的構成は、社会科学者が理論的構成を研究し操作する抽象的な概念であり、観察可能なデータでその構成を捕捉する何らかの方法を提案することを意味する。残念なことに、このシンプルなサウンドプロセスはしばしば非常に困難です。たとえば、よりインテリジェントな人々がより多くのお金を稼ぐという明らかに単純な主張を経験的にテストしようとしているとしましょう。この主張をテストするには、「知性」を測定する必要があります。しかし、知性とは何ですか? Gardner (2011)は、実際には8つの異なる形態の知能が存在すると主張している。そして、これらの形態の知性のいずれかを正確に測定することができる手順はありますか?心理学者による膨大な作業にもかかわらず、これらの質問には依然として明確な答えがありません。

したがって、よりインテリジェントな人々がより多くのお金を稼ぐという比較的シンプルな主張でさえ、経験的に評価するのは難しいかもしれません。なぜなら、データの理論的構成を操作するのは難しいかもしれないからです。重要ではあるが操作が難しい理論的構成要素の他の例としては、「規範」、「社会資本」、「民主主義」などがある。社会科学者は、理論構築物とデータ構築の妥当性を一致させる(Cronbach and Meehl 1955) 。この短いリストが示すように、構築の妥当性は、社会科学者が非常に長い間苦労してきた問題です。しかし、私の経験では、研究目的のために作成されていないデータを扱うときには、構造の妥当性の問題がさらに大きくなります(Lazer 2015)

研究成果を評価する場合、構造の妥当性を評価するための迅速かつ有用な方法の1つは、通常は構成要素の観点から表現された結果を取り出し、使用されたデータの観点から再表現することです。例えば、よりインテリジェントな人々がより多くのお金を稼ぐことを示すと主張する2つの仮説研究を考えてみましょう。最初の調査では、Raven Progressive Matrices Test(よく勉強された分析インテリジェンステスト(Carpenter, Just, and Shell 1990)得点の高い人は、納税申告の所得が高くなっています。 2番目の調査では、Twitterで長い単語を使った人が高級ブランドを挙げる可能性が高いことがわかった。どちらの場合でも、これらの研究者は、よりインテリジェントな人々がより多くのお金を稼ぐことを示していると主張することができます。しかし、最初の研究では、理論的構造物はデータによってうまく操作され、2番目の研究ではそうではない。さらに、この例が示すように、より多くのデータは構成の妥当性に関する問題を自動的に解決しません。第2の研究の結果には、百万のつぶやき、十億のつぶやき、または一兆のつぶやきが関わっているかどうかを疑うべきです。構造の妥当性の考え方に精通していない研究者のために、表2.2は、デジタルトレースデータを用いて理論的構成を操作した研究のいくつかの例を提供する。

表2.2:理論構築物を操作するために使用されたデジタルトレースの例
情報元 理論的構成 参考文献
大学からのメールログ(メタデータのみ) 社会関係 Kossinets and Watts (2006)Kossinets and Watts (2009)De Choudhury et al. (2010)
Weiboのソーシャルメディア記事 市民参加 Zhang (2016)
企業からの電子メールログ(メタデータと完全テキスト) 組織における文化的適合 Srivastava et al. (2017)

理論的構造を取り込むための不完全なデータの問題は解決するのが非常に難しいですが、他の一般的な不完全性の一般的な解決策があります。不完全な人口統計情報と他のプラットフォームの不完全な情報です。最初の解決策は、必要なデータを実際に収集することです。私は第3章で調査について話します。第2の主な解決策は、科学者がユーザ属性推論と呼ぶデータを行い、社会科学者が代用と呼ぶことです。このアプローチでは、研究者は、他の人の属性を推測するために、ある人に対して持っている情報を使用します。 3番目に可能な解決策は、複数のデータソースを結合することです。このプロセスは、時折、 レコードリンケージと呼ばれます。この過程の私の好きな隠喩は、 Dunn (1946)が記録的連鎖で書いた最初の論文の最初の段落に書かれています。

"世界の各人は生命の本を作ります。この本は出生から始まり、死で終わる。そのページは、人生における主要な出来事の記録から構成されています。レコードリンケージとは、この本のページをボリュームに組み立てるプロセスの名前です。

ダンがその詩を書いたとき、彼は生命の本に誕生、結婚、離婚、死などの主要な生活イベントが含まれると想像していました。しかし、人々の多くの情報が記録されるようになった今、Book of Lifeは、異なるページ(つまり、デジタルトレース)を結合することができれば、非常に詳細な肖像画になる可能性があります。この生命の本は研究者のためのすばらしい資源になるかもしれません。しかし、それは6章(倫理)で説明するように、すべての種類の非倫理的目的に使用できる破滅のデータベース (Ohm 2010)とも呼ばれます