Daten von Unternehmen und Regierungen sind für Forscher schwer zugänglich.
Im Mai 2014 eröffnete die nationale Sicherheitsbehörde der USA ein Datenzentrum im ländlichen Utah mit dem Namen "Intelligence Community Comprehensive National Cybersecurity Initiative Data Center". Dieses Rechenzentrum, das als Utah Data Center bekannt wurde, verfügt jedoch über erstaunliche Fähigkeiten. Ein Bericht behauptet, dass er in der Lage ist, alle Arten von Kommunikation zu speichern und zu verarbeiten, einschließlich "den vollständigen Inhalt von privaten E-Mails, Handyanrufen und Google-Suchen sowie alle Arten von persönlichen Datenspuren - Parkscheine, Reiserouten, Buchladenkäufe und andere digitale "Taschenstreu" (Bamford 2012) . Zusätzlich zu den Bedenken bezüglich der Sensibilität eines Großteils der in Big Data erfassten Informationen, die weiter unten beschrieben werden, ist das Utah Data Center ein extremes Beispiel für eine reichhaltige Datenquelle, auf die Forscher keinen Zugriff haben. Allgemeiner betrachtet werden viele Big-Data-Quellen, die nützlich sein könnten, von Regierungen (z. B. Steuerdaten und Bildungsdaten) oder Unternehmen (z. B. Anfragen an Suchmaschinen und Telefonanruf-Metadaten) kontrolliert und eingeschränkt. Obwohl diese Datenquellen existieren, sind sie daher für die Zwecke der Sozialforschung nutzlos, weil sie nicht zugänglich sind.
Meiner Erfahrung nach missverstehen viele Forscher an Universitäten die Quelle dieser Unzugänglichkeit. Diese Daten sind nicht zugänglich, nicht weil Menschen in Unternehmen und Regierungen dumm, faul oder gefühllos sind. Es gibt vielmehr ernsthafte rechtliche, geschäftliche und ethische Hindernisse, die den Datenzugriff verhindern. Zum Beispiel erlauben einige Terms-of-Service-Vereinbarungen für Websites nur, dass Daten von Mitarbeitern verwendet werden oder um den Service zu verbessern. Bestimmte Formen der gemeinsamen Nutzung von Daten können Unternehmen daher legitimen Klagen von Kunden aussetzen. Unternehmen, die Daten austauschen, haben auch erhebliche geschäftliche Risiken. Stellen Sie sich vor, wie die Öffentlichkeit reagieren würde, wenn persönliche Suchdaten im Rahmen eines universitären Forschungsprojekts versehentlich von Google durchgesickert wären. Eine solche Datenverletzung, wenn sie extrem ist, könnte sogar ein existenzielles Risiko für das Unternehmen darstellen. Google und die meisten großen Unternehmen sind daher sehr risikoavers, Daten mit Forschern auszutauschen.
In der Tat kennt fast jeder, der Zugang zu großen Datenmengen hat, die Geschichte von Abdur Chowdhury. Im Jahr 2006, als er Forschungsleiter bei AOL war, gab er der Forschungsgemeinschaft bewusst heraus, was er für anonymisierte Suchanfragen von 650.000 AOL-Nutzern hielt. So weit ich das beurteilen kann, hatten Chowdhury und die Forscher von AOL gute Absichten und dachten, sie hätten die Daten anonymisiert. Aber sie lagen falsch. Es wurde schnell entdeckt, dass die Daten nicht so anonym waren, wie die Forscher dachten, und Reporter der New York Times konnten mit Leichtigkeit jemanden im Datensatz identifizieren (Barbaro and Zeller 2006) . Sobald diese Probleme entdeckt wurden, löschte Chowdhury die Daten von der AOL-Website, aber es war zu spät. Die Daten wurden auf anderen Websites erneut veröffentlicht, und es wird wahrscheinlich noch verfügbar sein, wenn Sie dieses Buch lesen. Chowdhury wurde entlassen und AOLs Chief Technology Officer trat zurück (Hafner 2006) . Wie dieses Beispiel zeigt, sind die Vorteile für bestimmte Personen innerhalb von Unternehmen, die den Datenzugriff erleichtern, ziemlich gering und das Worst-Case-Szenario ist schrecklich.
Forscher können jedoch manchmal Zugang zu Daten erhalten, die für die Öffentlichkeit nicht zugänglich sind. Einige Regierungen verfügen über Verfahren, nach denen Forscher einen Antrag auf Zugang stellen können, und wie die Beispiele in diesem Kapitel zeigen, können Forscher gelegentlich auf Unternehmensdaten zugreifen. Zum Beispiel beschreiben Einav et al. (2015) arbeitete mit einem Forscher bei eBay zusammen, um Online-Auktionen zu studieren. Ich werde später mehr über die Forschung sprechen, die aus dieser Zusammenarbeit hervorging, aber ich erwähne sie jetzt, weil sie alle vier Bestandteile enthält, die ich in erfolgreichen Partnerschaften sehe: Forscherinteresse, Forscherkapazitäten, Firmeninteresse und Unternehmensfähigkeit . Ich habe viele potenzielle Kollaborationen gesehen, die scheitern, weil entweder dem Forscher oder dem Partner - sei es eine Firma oder eine Regierung - eine dieser Zutaten fehlte.
Selbst wenn Sie in der Lage sind, eine Partnerschaft mit einem Unternehmen zu entwickeln oder Zugang zu beschränkten Regierungsdaten zu erhalten, gibt es jedoch einige Nachteile für Sie. Erstens werden Sie wahrscheinlich nicht in der Lage sein, Ihre Daten mit anderen Forschern zu teilen, was bedeutet, dass andere Forscher Ihre Ergebnisse nicht verifizieren und erweitern können. Zweitens können die Fragen, die Sie stellen können, begrenzt sein; Unternehmen werden kaum Forschung zulassen, die sie schlecht aussehen lassen könnte. Schließlich können diese Partnerschaften zumindest den Anschein eines Interessenkonflikts erwecken, bei dem die Leute denken könnten, dass Ihre Ergebnisse von Ihren Partnerschaften beeinflusst wurden. All diese Nachteile können angegangen werden, aber es muss klar sein, dass die Arbeit mit Daten, die für alle nicht zugänglich sind, sowohl positive als auch negative Auswirkungen hat.
Zusammengefasst sind viele große Daten für Forscher nicht zugänglich. Es gibt ernsthafte rechtliche, geschäftliche und ethische Hindernisse, die den Datenzugriff verhindern, und diese Barrieren werden nicht verschwinden, da sich die Technologie verbessert, da sie keine technischen Barrieren sind. Einige nationale Regierungen haben Verfahren eingeführt, um den Datenzugriff für einige Datensätze zu ermöglichen, aber der Prozess ist insbesondere ad hoc auf staatlicher und lokaler Ebene. In einigen Fällen können Forscher auch mit Unternehmen zusammenarbeiten, um Datenzugriff zu erhalten, aber dies kann eine Vielzahl von Problemen für Forscher und Unternehmen schaffen.