2.3.9ダーティー

ビッグデータ・ソースは、ジャンクやスパムをロードすることができます。

ある研究者は、ビッグデータソース、特にオンラインソースは、自動的に収集されるため、元気であると考えています。実際、大きなデータソースを扱っている人は、頻繁に汚れていることを知っています。つまり、研究者にとって実際に関心のある行動を反映していないデータが頻繁に含まれています。ほとんどの社会科学者は、すでに大規模な社会調査データを整理するプロセスに精通していますが、大きなデータソースを整理することは難しいようです。私はこの難問の究極の原因は、これらの大きなデータソースの多くが研究目的で使用されることは意図されておらず、データの消去を容易にする方法で収集、保存、文書化されないということです。

汚れたデジタルトレースデータの危険性は、2001年9月11日の攻撃に対する感情的反応のBack and colleagues (2010)研究で説明されています。研究者は、典型的には、数ヶ月または数年にわたって収集された遡及的データを用いて、悲劇的な出来事に対する反応を研究する。しかし、Back氏や同僚たちは、タイムスタンプを付けられた85,000人のアメリカのポケベルから自動的に録音されたメッセージで、デジタルトレースの常時発信源を発見しました。これにより、より精密なタイムスケールで感情的な反応を研究することができました。彼らは、(1)悲しみ(例えば、「泣いている」と「悲しみ」)、(2)心配していること、(2)悲しみに関連する言葉の割合でページャメッセージの感情的な内容をコーディングすることによって、 (3)怒り(例えば、「憎しみ」や「批判的」)などの怒りを引き起こす可能性があります。彼らは、悲しみと不安は、強いパターンなしで日中ずらりと変化したが、1日を通して怒りが著しく増加したことを発見した。この研究は、常時接続のデータソースの力を表す素晴らしい例です:従来のデータソースを使用した場合、予期しないイベントに即座に対応するような高解像度のタイムラインを得ることは不可能でした。

しかし、ちょうど1年後、シンシア・プリー(2011)はデータをより慎重に検討しました。彼女は、おそらく怒っていると思われる多数のメッセージが単一のページャーによって生成され、すべてが同一であることを発見しました。これらの怒ったメッセージが言ったことは次のとおりです。

「再起動NTマシン[名]キャビネット内の[名前]、[場所]で:CRITICAL:[日付と時刻]」

これらのメッセージには、一般に怒りを示しているかもしれないが、この場合はそうではない単語「CRITICAL」が含まれているため、怒っていると表示されました。この単一の自動ページャで生成されたメッセージを削除すると、1日の中で明らかに怒りが増えなくなります(図2.4)。言い換えれば、 Back, Küfner, and Egloff (2010)の主な結果は、1つのページャーの成果物でした。この例が示すように、比較的複雑で扱いにくいデータの比較的単純な分析は、真剣に間違ってしまう可能性があります。

図2.4:85,000人のアメリカのポケベルに基づく2001年9月11日の怒りの推計動向(Back、Küfner、and Egloff 2010、2011; Pury 2011)もともと、Back、Küfner、Egloff(2010)は、1日を通して怒りが増すパターンを報告しています。しかし、これらの怒っているメッセージのほとんどは、単一のページャーによって生成されたもので、次のメッセージを繰り返し送信しました。[location]:CRITICAL:[date and time]のキャビネット[name]のNTマシン[name]を再起動します。このメッセージを削除すると、明らかに怒りの増加がなくなります(Pury 2011; Back、Küfner、and Egloff 2011)。 Pury(2011)、図1bから適応。

図2.4:85,000人のアメリカのポケベルに基づく2001年9月11日の怒りの推計動向(Back, Küfner, and Egloff 2010, 2011; Pury 2011)もともと、 Back, Küfner, and Egloff (2010)は、1日を通して怒りが増すパターンを報告しています。しかし、これらの怒っているメッセージのほとんどは、単一のページャーによって生成されたメッセージで、「[location]:CRITICAL:[date and time]」のキャビネット[name]にNTマシン[name]を再起動しました。このメッセージを削除すると、明らかに怒りの増加がなくなります(Pury 2011; Back, Küfner, and Egloff 2011)Pury (2011) 、図1bから適応。

雑然としたページャからのような意図しないダーティデータは、慎重な調査研究者が検出することができますが、意図的なスパマーを引きつけるオンラインシステムもあります。これらのスパム発信者は積極的に偽のデータを生成します。多くの場合、利益を追求してスパムを隠蔽することを非常に困難にしています。たとえば、Twitterの政治活動には、少なくともいくつかの合理的に洗練されたスパムが含まれているように見えます。これによって、一部の政治的原因が意図的に実際よりも広く見られるようになっています(Ratkiewicz et al. 2011) 。残念ながら、この意図的なスパムを削除することは非常に困難です。

もちろん、汚いデータと見なされるものは、部分的に研究の質問に依存することがあります。たとえば、Wikipediaの多くの編集は、自動化されたボット(Geiger 2014)によって作成されます。 Wikipediaのエコロジーに興味がある場合は、これらのボットで作成された編集が重要です。しかし、人間がWikipediaにどのように貢献しているかに興味があるなら、ボットで作成された編集は除外されるべきです。

あなたが汚いデータを十分にきれいにしたことを保証できる単一の統計的手法またはアプローチはありません。最終的には、汚いデータに惑わされないようにする最良の方法は、データがどのように作成されたかを可能な限り理解することです。