2.3.2.3 Nicht-Vertreter

Zwei Quellen von Nicht-Repräsentativität sind verschiedene Populationen und verschiedenen Nutzungsmuster.

Große Daten sind in der Regel systematisch voreingenommen auf zwei Arten zu werden. Das muss nicht ein Problem für alle Arten von Analysen verursachen, aber für einige Analyse kann es ein entscheidender Fehler sein.

Eine erste Quelle der systematischen Fehler ist, dass die gefangenen Menschen sind in der Regel weder ein komplettes Universum aller Menschen oder eine Stichprobe aus einer bestimmten Population. Zum Beispiel, die Amerikaner auf Twitter sind nicht eine zufällige Stichprobe von Amerikanern (Hargittai 2015) . Eine zweite Quelle für systematische Verzerrung ist, dass viele große Datensysteme Aktionen erfassen, und einige Leute tragen viele weitere Aktionen als andere. Zum Beispiel tragen einige Leute auf Twitter hunderte Male mehr Tweets als andere. Daher können die Ereignisse auf einer bestimmten Plattform immer mehr stark reflektierende bestimmter Untergruppen als die Plattform selbst.

Normalerweise wollen die Forscher viel über die Daten zu kennen , die sie haben. Aber angesichts der nicht repräsentativen Charakter der großen Daten, ist es hilfreich, auch Ihr Denken kippen. Sie müssen auch viel über die Daten zu wissen , dass Sie nicht haben. Dies gilt insbesondere, wenn die Daten, die Sie haben nicht systematisch unterscheiden sich von den Daten, die Sie haben. Zum Beispiel, wenn Sie die Anrufdatensätze von einem Mobiltelefon Unternehmen in einem Entwicklungsländern haben, sollten Sie nicht nur über die Menschen in ihrem Datensatz denken, aber auch über die Menschen, die zu arm sein könnten ein Mobiltelefon zu besitzen. Des Weiteren werden wir in Kapitel 3, erfahren, wie Gewichtung Forschern ermöglichen, kann eine bessere Einschätzung von nicht-repräsentative Daten zu machen.