Verhalten in großen Datensystemen ist nicht natürlich; Es wird von den technischen Zielen der Systeme gesteuert.
Obwohl viele große Datenquellen nicht reaktiv sind, weil die Menschen nicht wissen, dass ihre Daten aufgezeichnet werden (Abschnitt 2.3.3), sollten Forscher das Verhalten in diesen Online-Systemen nicht als "natürlich vorkommend" betrachten. In Wirklichkeit sind die digitalen Systeme, die das Verhalten aufzeichnen hoch entwickelt, um bestimmte Verhaltensweisen wie das Klicken auf Anzeigen oder das Posten von Inhalten zu induzieren. Die Art und Weise, wie die Ziele von Systementwicklern Muster in Daten einführen können, wird als algorithmisches Confounding bezeichnet . Algorithmisches Confounding ist Sozialwissenschaftlern relativ unbekannt, aber es ist ein Hauptanliegen sorgfältiger Datenwissenschaftler. Und im Gegensatz zu einigen anderen Problemen mit digitalen Spuren ist die algorithmische Verwechslung weitgehend unsichtbar.
Ein relativ einfaches Beispiel für algorithmisches Confounding ist die Tatsache, dass es auf Facebook eine ungewöhnlich hohe Anzahl von Nutzern mit etwa 20 Freunden gibt, wie von Johan Ugander und Kollegen (2011) . Wissenschaftler, die diese Daten analysieren, ohne zu wissen, wie Facebook funktioniert, können zweifellos viele Geschichten darüber erzählen, wie 20 eine Art magische soziale Zahl ist. Zum Glück hatten Ugander und seine Kollegen ein tiefgreifendes Verständnis für den Prozess, der die Daten generierte, und sie wussten, dass Facebook Menschen mit wenigen Verbindungen auf Facebook dazu ermutigte, mehr Freunde zu finden, bis sie 20 Freunde erreicht hatten. Obwohl Ugander und seine Kollegen dies nicht in ihrer Arbeit sagen, wurde diese Richtlinie vermutlich von Facebook erstellt, um neue Benutzer zu ermutigen, aktiver zu werden. Ohne Kenntnis über die Existenz dieser Politik ist es jedoch leicht, aus den Daten die falsche Schlussfolgerung zu ziehen. Mit anderen Worten, die überraschend hohe Anzahl von Menschen mit etwa 20 Freunden erzählt uns mehr über Facebook als über menschliches Verhalten.
In diesem vorherigen Beispiel ergab algorithmisches Confounding ein skurriles Ergebnis, das ein sorgfältiger Forscher erkennen und weiter untersuchen könnte. Es gibt jedoch eine noch schwierigere Version von algorithmischen Verwirrungen, die auftritt, wenn Designer von Online-Systemen soziale Theorien kennen und diese Theorien dann in das Funktionieren ihrer Systeme einbauen. Sozialwissenschaftler nennen das Performativität : Wenn eine Theorie die Welt so verändert, dass sie die Welt der Theorie näher bringt. Im Falle einer performativen algorithmischen Verwechslung ist die Verwechslung der Daten sehr schwierig zu erkennen.
Ein Beispiel für ein durch Performativität geschaffenes Muster ist Transitivität in sozialen Online-Netzwerken. In den 1970er und 1980er Jahren fanden Forscher wiederholt heraus, dass Alice und Bob, wenn sie mit Alice und Bob befreundet sind, eher miteinander befreundet sind, als wenn sie zwei zufällig ausgewählte Personen wären. Das gleiche Muster wurde in der sozialen Grafik auf Facebook gefunden (Ugander et al. 2011) . Man könnte also zu dem Schluss kommen, dass Muster von Freundschaften auf Facebook Muster von Offline-Freundschaften replizieren, zumindest in Bezug auf Transitivität. Das Ausmaß der Transitivität in der sozialen Facebook-Grafik wird jedoch teilweise durch algorithmisches Confounding bestimmt. Das heißt, Datenwissenschaftler bei Facebook wussten von der empirischen und theoretischen Forschung über Transitivität und bückten sie dann in die Funktionsweise von Facebook ein. Facebook hat eine "Leute, die du weißt" -Funktion, die neue Freunde vorschlägt, und eine Art, wie Facebook entscheidet, wer dir vorschlägt, ist Transitivität. Das heißt, Facebook wird eher vorschlagen, dass Sie Freunde mit Freunden Ihrer Freunde werden. Diese Eigenschaft hat somit den Effekt, dass die Transitivität in der sozialen Facebook-Grafik erhöht wird; Mit anderen Worten, die Theorie der Transitivität bringt die Welt in Einklang mit den Vorhersagen der Theorie (Zignani et al. 2014; Healy 2015) . Wenn große Datenquellen also Vorhersagen der Sozialtheorie zu reproduzieren scheinen, müssen wir sicher sein, dass die Theorie selbst nicht in die Funktionsweise des Systems eingebaut wurde.
Anstatt an große Datenquellen zu denken, wie Menschen in einer natürlichen Umgebung zu beobachten, ist eine treffendere Metapher die Beobachtung von Menschen in einem Casino. Kasinos sind hochentwickelte Umgebungen, die dazu bestimmt sind, bestimmte Verhaltensweisen zu induzieren, und ein Forscher würde niemals erwarten, dass Verhalten in einem Kasino ein ungehindertes Fenster in menschliches Verhalten öffnet. Natürlich könntest du etwas über menschliches Verhalten lernen, indem du Leute in Casinos studierst, aber wenn du die Tatsache ignorierst, dass die Daten in einem Casino erstellt wurden, könntest du einige schlimme Schlüsse ziehen.
Leider ist der Umgang mit algorithmischen Verwirrungen besonders schwierig, da viele Merkmale von Online-Systemen proprietär, schlecht dokumentiert und ständig verändert sind. Zum Beispiel, wie ich später in diesem Kapitel erläutern werde, war algorithmisches Confounding eine mögliche Erklärung für den allmählichen Zusammenbruch von Google Grippe-Trends (Abschnitt 2.4.2), aber diese Behauptung war schwer zu bewerten, da die Funktionsweise des Suchalgorithmus von Google ist Eigentum. Die dynamische Natur der algorithmischen Verwechslung ist eine Form der Systemdrift. Algorithmisches Confounding bedeutet, dass wir in Bezug auf jedes menschliche Verhalten, das von einem einzigen digitalen System kommt, egal wie groß, vorsichtig sein sollten.