Data som innehas av företag och regeringar är svåra för forskare att få tillgång till.
I maj 2014 öppnade USA: s säkerhetsbyrå ett datacenter på landsbygden Utah med ett besvärligt namn, Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Men detta datacenter, som har kommit att bli känt som Utah Data Center, rapporteras ha förbluffande kapacitet. En rapport hävdar att den kan lagra och bearbeta alla former av kommunikation, inklusive "det fullständiga innehållet i privata e-postmeddelanden, mobilsamtal och Google-sökningar, liksom alla typer av personuppgifter spår-parkering kvitton, resvägar, bokhandel inköp , och annan digital "pocketkull" " (Bamford 2012) . Förutom att öka bekymmer om den känsliga karaktären hos mycket av informationen som fångats i stora data, som kommer att beskrivas längre fram, är Utah Data Center ett extremt exempel på en rik datakälla som är otillgänglig för forskare. Mer allmänt är många källor till stora data som skulle vara användbara styrda och begränsade av regeringar (t.ex. skatteuppgifter och utbildningsdata) eller företag (t.ex. sökningar till sökmotorer och telefonsamtal metadata). Även om dessa datakällor finns, är de därför oanvändbara för social forskning eftersom de är otillgängliga.
Enligt min erfarenhet missförstår många forskare som är baserade på universitetet källan till denna otillgänglighet. Dessa uppgifter är otillgängliga inte för att människor på företag och regeringar är dumma, lat eller otrevliga. Snarare finns det allvarliga rättsliga, affärsmässiga och etiska hinder som hindrar åtkomst till data. Exempelvis tillåter vissa servicevillkoren för webbplatser endast att data används av anställda eller för att förbättra tjänsten. Så vissa typer av datadelning kan exponera företag för legitima rättegångar från kunder. Det finns också stora affärsrisker för företag som deltar i att dela data. Försök att föreställa sig hur allmänheten skulle reagera om personliga sökdata oavsiktligt läckte ut från Google som en del av ett universitetsforskningsprojekt. En sådan dataöverträdelse, om extrem, kan till och med vara en existentiell risk för företaget. Så Google och de flesta stora företag är mycket riskavvisade för att dela data med forskare.
Faktum är att nästan alla som är i stånd att ge tillgång till stora mängder data vet historien om Abdur Chowdhury. Under 2006, när han var forskningsledare vid AOL, lämnade han avsiktligt till forskargruppen vad han trodde var anonymiserade sökfrågor från 650 000 AOL-användare. Såvitt jag kan säga hade Chowdhury och forskarna vid AOL goda intentioner, och de trodde att de hade anonymiserat data. Men de hade fel. Det upptäcktes snabbt att uppgifterna inte var lika anonyma som forskarna tyckte, och reportrar från New York Times kunde enkelt identifiera någon i datasetet (Barbaro and Zeller 2006) . När dessa problem upptäcktes, tog Chowdhury bort data från AOLs hemsida, men det var för sent. Uppgifterna har reposteras på andra webbplatser, och det kommer troligtvis fortfarande att vara tillgängligt när du läser den här boken. Chowdhury blev avfyrade, och AOLs chefs teknikofficer avgick (Hafner 2006) . Som det här exemplet visar, är fördelarna för specifika individer inom företag för att underlätta datatillgänglighet ganska små och värsta scenariot är hemskt.
Forskare kan emellertid ibland få tillgång till data som är otillgängliga för allmänheten. Vissa regeringar har förfaranden som forskare kan följa för att söka tillgång, och som de exempel som visas senare i detta kapitel kan forskare ibland få tillgång till företagsdata. Exempelvis Einav et al. (2015) samarbetade med en forskare på eBay för att studera onlineauktioner. Jag kommer att prata mer om den forskning som kom från detta samarbete senare i kapitlet, men jag nämna det nu eftersom det hade alla fyra ingredienserna som jag ser i framgångsrika partnerskap: forskarintresse, forskarskapacitet, företagsintresse och företagskapacitet . Jag har sett många potentiella samarbeten misslyckas, för att antingen forskaren eller samarbetspartnern, vare sig det är ett företag eller en regering, saknade en av dessa ingredienser.
Även om du kan utveckla ett partnerskap med ett företag eller få tillgång till begränsade regeringsdata, finns det dock några nackdelar för dig. För det första kommer du förmodligen inte att kunna dela dina data med andra forskare, vilket innebär att andra forskare inte kommer att kunna verifiera och utöka dina resultat. För det andra kan de frågor du kan fråga vara begränsade. företag är osannolikt att tillåta forskning som kan få dem att se dåliga ut. Slutligen kan dessa partnerskap skapa minst en intressekonflikt, där folk kanske tror att dina resultat påverkades av dina partnerskap. Alla dessa nackdelar kan åtgärdas, men det är viktigt att vara tydlig att arbeta med data som inte är tillgänglig för alla har både upsides och downsides.
Sammanfattningsvis är många stora data otillgängliga för forskare. Det finns allvarliga rättsliga, affärsmässiga och etiska hinder som förhindrar åtkomst till data, och dessa hinder kommer inte att gå undan, eftersom tekniken förbättras eftersom de inte är tekniska hinder. Vissa nationella regeringar har fastställt förfaranden för att möjliggöra datatillgänglighet för vissa dataset, men processen är särskilt ad hoc på stats och lokal nivå. I vissa fall kan forskare också samarbeta med företag för att få dataåtkomst, men det kan skapa olika problem för forskare och företag.