Messungen in großen Datenquellen ändern das Verhalten viel weniger.
Eine Herausforderung der Sozialforschung besteht darin, dass Menschen ihr Verhalten ändern können, wenn sie wissen, dass sie von Forschern beobachtet werden. Diese Reaktivität nennen Sozialwissenschaftler im Allgemeinen (Webb et al. 1966) . Zum Beispiel können Menschen in Laborstudien großzügiger sein als Feldstudien, weil sie sich im ersten Fall sehr bewusst sind, dass sie beobachtet werden (Levitt and List 2007a) . Ein Aspekt der Big Data, den viele Forscher als vielversprechend empfinden, ist, dass den Teilnehmern im Allgemeinen nicht bewusst ist, dass ihre Daten erfasst werden oder dass sie sich so an diese Datenerfassung gewöhnt haben, dass sie ihr Verhalten nicht mehr ändern. Da die Teilnehmer nicht reaktiv sind , können daher viele Big-Data-Quellen verwendet werden, um Verhalten zu untersuchen, das zuvor nicht für eine genaue Messung geeignet war. Zum Beispiel verwendete Stephens-Davidowitz (2014) die Prävalenz rassistischer Begriffe in Suchmaschinenanfragen, um Rassenanimus in verschiedenen Regionen der Vereinigten Staaten zu messen. Die nicht reaktive und große Natur der Suchdaten (siehe Abschnitt 2.3.1) ermöglichte Messungen, die mit anderen Methoden wie Umfragen schwierig wären.
Nonreactivity stellt jedoch nicht sicher, dass diese Daten irgendwie direkt das Verhalten oder die Einstellungen von Menschen widerspiegeln. Zum Beispiel sagte ein Befragter in einer interviewbasierten Studie: "Es ist nicht so, dass ich keine Probleme habe, ich bringe sie einfach nicht auf Facebook" (Newman et al. 2011) . Mit anderen Worten, obwohl einige große Datenquellen nicht reaktiv sind, sind sie nicht immer frei von einer Neigung zur sozialen Erwünschtheit, die Tendenz für die Menschen, sich bestmöglich präsentieren zu wollen. Wie ich später in diesem Kapitel noch beschreiben werde, wird das Verhalten in großen Datenquellen manchmal von den Zielen der Plattformbesitzer beeinflusst, ein Problem, das ich als algorithmisches Confounding bezeichnen werde . Obwohl Nichtreaktivität für die Forschung von Vorteil ist, wirft das Verfolgen des Verhaltens von Menschen ohne ihre Zustimmung und ihr Bewusstsein ethische Bedenken auf, die ich in Kapitel 6 ausführlich beschreiben werde.
Die drei Eigenschaften, die ich gerade beschrieben habe - groß, ständig - und nicht-reaktiv - sind in der Regel, aber nicht immer, vorteilhaft für die Sozialforschung. Als nächstes werde ich mich den sieben Eigenschaften großer Datenquellen zuwenden - unvollständig, unzugänglich, nicht repräsentativ, driftend, algorithmisch verwirrt, schmutzig und sensibel -, die generell, aber nicht immer, Probleme für die Forschung schaffen.