2.3.2.6ダーティ

ビッグデータ・ソースは、ジャンクやスパムをロードすることができます。

一部の研究者は、彼らが自動的に収集されるため、ビッグデータ・ソース、オンラインソースから、特にものは、自然のままであることを信じています。実際には、ビッグデータ・ソースで働いている人々は、彼らが頻繁に汚れていることを知っています。それは、彼らが頻繁に研究者の関心の本当の行動を反映していないデータが含まれています。多くの社会科学者は、すでに大規模な社会調査データをクリーニングする方法に精通しているが、ビッグデータ・ソースをクリーニングすると、2つの理由からより困難である:1)彼らは、研究者と2のための研究者によって作成されていない)研究者は、一般的にどのようにのあまり理解していますそれらが作成されました。

汚れたデジタルトレースデータが戻ると同僚'によって示されているの危険性(2010) 9月11日の攻撃に感情的な反応の研究は、2001年の研究者は、一般的にさえも数ヶ月または数年にわたって収集遡及的データを使用して、悲劇的な出来事への応答を研究します。しかし、戻ると同僚は85000アメリカから常時オンのデジタル・トレース・タイムスタンプ付きのソース、自動的に記録されたメッセージを発​​見したポケットベル-、これははるかに微細な時間スケールでの感情的な反応を研究する研究者を可能にしました。戻ると同僚(1)悲しみ(例えば、泣いて、悲しみ)、(2)不安(例えば、に関連した単語の割合でポケベルメッセージの感情的な内容を符号化することにより、9月11日の分単位の感情的なタイムラインを作成心配して、恐ろしい)、および(3)怒り(例えば、憎悪、クリティカル)。彼らは悲しみや不安が強いパターンなしで終日変動していることを発見しましたが、一日を通して怒りの著しい増加があったこと。本研究では、データソース常時オンの電源の素晴らしいイラストのようです:標準的な方法を用いて、予期しないイベントへの即時応答のような高解像度のタイムラインを持つことは不可能であろう。

ちょうど1年後、しかし、シンシアPury (2011) 、より慎重にデータを見ました。彼女はおそらく怒っている多数のメッセージを単一のページャによって生成された、彼らはすべて同一であったことを発見しました。ここではそれらおそらく怒っているメッセージは言いました:

「再起動NTマシン[名]キャビネット内の[名前]、[場所]で:CRITICAL:[日付と時刻]」

彼らは一般的に怒りを示しているが、この場合にはないかもしれ単語「CRITICAL」を、含まれているため、これらのメッセージは怒って標識しました。この単一の自動化されたポケットベルによって生成されたメッセージを削除すると、完全に一日かけて怒りの明らかな増加(図2.2)を排除します。言い換えれば、の主な結果Back, Küfner, and Egloff (2010) 1ページャのアーティファクトでした。この例が示すように、比較的複雑で厄介なデータの比較的単純な分析が真剣に間違って行く可能性を秘めています。

2.2図:怒りの推定傾向を85000アメリカン・ポケットベルに基づいて2001年9月11日の経過(バック、Küfner、およびエグロッフ2010; Pur​​y 2011;先頭、Küfner、およびエグロッフ2011)。もともと、バック、Küfner、およびエグロッフ(2010)は終日怒りを増大させるパターンを報告しました。 CRITICAL:[日付と時刻] [場所]でキャビネットにリブートNTマシン[名] [名]:しかし、これらの見かけ怒っているメッセージのほとんどを繰り返し、次のメッセージを送った単一のページャによって生成されました。このメッセージは削除すると、怒りの明らかな増加は、(Pury 2011;先頭、Küfner、およびエグロッフ2011)消えます。この図は、Pury(2011)で、図1(b)の再現です。

2.2図:怒りの推定傾向を85000アメリカン・ポケットベルに基づいて2001年9月11日の経過(Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011)もともと、 Back, Küfner, and Egloff (2010)終日怒りを増大させるパターンを報告しました。 「キャビネット内リブートNTマシン[名] [名] [場所]で:CRITICAL:[日付と時刻]」しかし、これらの見かけ怒っているメッセージのほとんどを繰り返し、次のメッセージを送った単一のページャによって生成されました。このメッセージは削除すると、怒りの明らかな増加が消える(Pury 2011; Back, Küfner, and Egloff 2011)この図は、図1Bの再現であるPury (2011)

1騒々しいからのように意図せずに、​​このように作成されたダーティなデータ合理的に慎重な研究者によって検出することがページャは-ことができますが、意図的なスパマーを引き付けるいくつかのオンラインシステムもあります。これらのスパマーは、積極的に偽のデータを生成し、そして、多くの場合、彼らのスパムを隠しておくことは非常に難しい利益作業が動機。例えば、Twitterでの政治活動は、いくつかの政治的な原因は意図的に、彼らが実際よりも多くの人気が見えるように作られていることにより、少なくともいくつかの合理的に洗練されたスパムを含むように思われる(Ratkiewicz et al. 2011)意図的なスパムが含まれている可能性のあるデータを扱う研究者は、彼らが検出され、関連するスパムを削除したことを視聴者を納得させるという課題に直面しています。

最後に、考えられるものダーティデータは、あなたの研究の質問に微妙に依存することができます。たとえば、ウィキペディアへの多くの編集は自動ボットによって作成された(Geiger 2014) 。あなたはウィキペディアの生態に興味を持っている場合、これらのボットが重要です。あなたは人間がウィキペディアに貢献する方法に興味があるなら、これらのボットによって作られたこれらの編集は除外すべきです。

ダーティデータにだまされることを避けるための最善の方法は、あなたのデータは、このような単純な散布図を作成するように、簡単な探索的分析を実行するために作成された方法を理解することです。