Daten von Unternehmen und Regierungen sind schwierig für die Forscher zuzugreifen.
Im Mai 2014 eröffnete die US National Security Agenda ein Rechenzentrum in ländlichen Utah, die einen sperrigen Namen, die Intelligence Community umfassenden nationalen Cyber Security Initiative Data Center hat. Doch dieses Rechenzentrum, das als Utah Data Center bekannt wurde, wird berichtet, erstaunliche Fähigkeiten zu haben. Ein Bericht behauptet, dass die Utah Data Center der Lage ist, zu speichern und zu verarbeiten alle Formen der Kommunikation, einschließlich "den gesamten Inhalt von privaten E-Mails, Handy-Telefonaten und sucht Google, sowie alle Arten von persönlichen Datenspuren Parken Quittungen, Reiserouten , Buchhandlung handlung~~POS=HEADCOMP Einkäufe und andere digitale `Tasche Wurf '" (Bamford 2012) . Zusätzlich zu den Anhebung Bedenken über die Sensibilität der Großteil der Informationen in großen Daten erfasst, die mehr weiter unten beschrieben wird, ist die Utah Data Center ein extremes Beispiel für eine reiche Datenquelle , die den Forschern nicht zugänglich ist. viele Quellen der großen Daten, die nützlich sein würde Forscher kontrolliert und beschränkt durch die Regierungen (zB Steuerdaten und Bildungsdaten) und Unternehmen (zB Anfragen an Suchmaschinen und Telefonanruf Meta-Daten) Allgemeiner. Daher werden diese Daten nicht sofort an die Forscher an den Universitäten zur Verfügung stehen, und die meisten werden nicht einmal den Forschern in den Regierungen oder Unternehmen zur Verfügung stehen.
Nach meiner Erfahrung verkennen viele Forscher an den Hochschulen, die Quelle dieser Unzugänglichkeit. Diese Daten sind nicht unzugänglich, weil die Menschen in Unternehmen und Regierungen sind dumm, faul, oder gefühllos. Vielmehr gibt es ernsthafte rechtliche, technische, geschäftliche und ethische Barrieren, die den Datenzugriff zu verhindern. Zum Beispiel, einige Terms-of-Service-Vereinbarungen für Websites erlauben nur Daten von Mitarbeitern verwendet werden, oder um den Service zu verbessern. So bestimmte Formen der gemeinsamen Nutzung von Daten könnten Unternehmen legitime Klagen von Kunden aus. Es gibt auch erhebliche Geschäftsrisiken für Unternehmen in den Austausch von Daten beteiligt. Versuchen Sie sich vorzustellen, wie die Öffentlichkeit reagieren würde, wenn persönliche Suchdaten versehentlich von Google durchgesickert im Rahmen eines Hochschulforschungsprojekt. Eine solche Datenschutzverletzung, wenn extreme, könnte sogar ein existenzielles Risiko für das Unternehmen sein. So Google-und die meisten großen Unternehmen-sind sehr risikoavers über Daten mit Forschern zu teilen.
In der Tat, die in der Lage ist fast jeder Zugang zu großen Mengen zur Verfügung zu stellen Daten, die die Geschichte von Abdur Chowdhury kennt. Im Jahr 2006, als er an der Spitze von AOL Forschung war, dass er absichtlich freigesetzt, was er dachte, wurden Suchanfragen von 650.000 AOL-Nutzer der Forschungsgemeinschaft anonymisiert. Soweit ich das beurteilen kann, Chowdhury und die Forscher bei AOL hatte gute Absichten und sie dachten, dass sie die Daten anonymisiert hatte. Aber sie waren falsch. Es wurde schnell entdeckt , dass die Daten als die Forscher dachten nicht so anonym waren, und Reporter der New York Times konnten die Menschen in dem Datensatz mit Leichtigkeit zu identifizieren (Barbaro and Zeller Jr 2006) . Sobald diese Probleme entdeckt wurden, entfernt Chowdhury die Daten von der AOL-Website, aber es war zu spät. Die Daten waren auf anderen Webseiten Dritten zugänglich gemacht worden ist, und es wird wahrscheinlich noch verfügbar sein, wenn Sie dieses Buch lesen. Wegen seiner Versuch , Daten mit der Forschungsgemeinschaft zu teilen, wurde Chowdhury gefeuert und Chief Technology Officer von AOL abgefunden (Hafner 2006) . Wie dieses Beispiel zeigt, sind die Vorteile für bestimmte Personen innerhalb von Unternehmen den Datenzugriff zu erleichtern ziemlich klein und das Worst-Case-Szenario ist schrecklich.
Forschung kann jedoch den Zugriff auf Daten erlangen, die für die Öffentlichkeit nicht zugänglich sind. Die Regierungen haben Verfahren, die Forscher folgen können für den Zugang zu gelten, und wie die Beispiele in diesem Kapitel zeigen, können die Forscher gelegentlich Zugriff auf Unternehmensdaten zu gewinnen. Zum Beispiel Einav et al. (2015) eine Partnerschaft mit einem Forscher bei eBay die digitalen Spuren von Online - Auktionen zu studieren. Ich werde mehr über die Forschung sprechen, die später in diesem Kapitel (Abschnitt 2.4.3.2) aus dieser Zusammenarbeit kam, aber ich erwähne es jetzt, weil es alle vier der Zutaten hatte, die ich in erfolgreiche Partnerschaften sehen: Forscher Interesse, Forscher Fähigkeit, Unternehmen Interesse und Unternehmen Fähigkeit. Mit anderen Worten, waren Einav und Kollegen interessiert und fähig ist Online-Auktionen zu studieren. Und war eBay auch. Allerdings habe ich viele mögliche Zusammenarbeit gesehen scheitern, weil entweder der Forscher oder Unternehmen fehlte eine dieser Zutaten.
Auch wenn Sie eine Partnerschaft mit einem Unternehmen zu entwickeln sind in der Lage, gibt es jedoch einige Nachteile für Sie. Zunächst werden die Fragen, die Sie mit den Daten mit wahrscheinlich begrenzt sein zu fragen; Unternehmen sind kaum Forschung zu ermöglichen, die sie schlecht aussehen könnte. Zweitens, werden Sie wahrscheinlich nicht in der Lage sein, Ihre Daten mit anderen Forschern zu teilen, was bedeutet, dass andere Forscher nicht in der Lage sein, Ihre Ergebnisse zu überprüfen und zu erweitern. Ferner können diese Partnerschaften zumindest den Anschein eines Interessenkonflikt, wo die Leute vielleicht denken, dass Ihre Ergebnisse durch Ihre Partnerschaften beeinflusst wurden. können alle diese Nachteile angesprochen werden, aber es ist wichtig, klar zu sein, dass die Arbeit mit Daten, die sowohl Vor- und Nachteile hatte nicht für jedermann zugänglich ist.
Zusammengefasst viele große Daten unzugänglich Forscher. Es gibt ernsthafte rechtliche, technische, geschäftliche und ethische Barrieren, die den Datenzugriff zu verhindern, und diese Hindernisse werden nicht verschwinden. Die nationalen Regierungen haben in der Regel festgelegten Verfahren den Datenzugriff zu ermöglichen, aber der Prozess kann mehr ad hoc an den Landes- und kommunaler Ebene. Auch in einigen Fällen können die Forscher Partnerschaften mit Unternehmen den Datenzugriff zu erhalten, aber diese eine Vielzahl von Problemen für Forscher zu schaffen.