기업과 정부가 보유한 데이터는 연구자들이 접근하기가 어렵다.
5 월 2014 년 미국 국가 안보 의제는 정보 기관 종합 국가 사이버 보안 이니셔티브 데이터 센터 어색한 이름이 농촌 유타에 데이터 센터를 열었다. 그러나, 유타 데이터 센터로서 알려져왔다 이러한 데이터 센터는, 놀라운 능력을보고한다. 한 보고서는 유타 데이터 센터 저장하고 "전체 개인 이메일의 내용, 휴대 전화, 및 Google 검색을 포함하여 모든 형태의 커뮤니케이션뿐만 아니라 개인 정보 산책로 주차 영수증, 여행 일정의 모든 종류를 처리 할 수 있다는 주장 , 서점 구매 및 기타 디지털`포켓 쓰레기 ' " (Bamford 2012) . 자세히 설명한다 큰 데이터 캡처 된 정보의 대부분의 민감성에 관한 문제의 제기 이외에, 유타 데이터 센터는 연구자에 액세스하는 다양한 데이터 소스의 극단적 인 예이다. 보다 일반적으로, 연구자 제어 및 정부 (예를 들면, 세금 데이터 및 교육 데이터) 및 기업에 의해 제한에 유용 할 것이다 빅 데이터의 많은 소스 (예를 들어, 쿼리 엔진과 전화 통화 메타 데이터를 검색합니다). 따라서 이러한 데이터는 대학의 연구자에 즉시 사용할 수 없습니다, 대부분은 심지어 정부 나 기업의 연구에 사용할 수 없습니다.
내 경험에 의하면, 대학을 기반으로 많은 연구자들은이 어려움의 원인을 오해. 이러한 데이터는 기업과 정부에서 사람들이 바보 게으른 또는 무관 심한 때문에 액세스 할 수 없습니다. 오히려 심각한 법적, 기술, 비즈니스 및 데이터 액세스를 방지 윤리적 장벽있다. 예를 들어, 웹 사이트의 일부 조건의 서비스 계약 데이터 만 직원에 의해 사용될 또는 서비스를 개선 할 수있다. 그래서 데이터 공유의 특정 형태는 고객의 합법적 인 소송에 회사를 노출 할 수 있습니다. 공유 데이터에 관련된 기업들에게 실질적인 비즈니스 위험이있다. 개인 검색 데이터가 실수로 대학 연구 프로젝트의 일환으로 구글로부터 유출 된 경우 대중이 반응하는 방법을 상상해보십시오. 이러한 데이터 유출은 극단적 인 경우에도 회사에 대한 실존 적 위험이있을 수 있습니다. 그래서 구글과 가장 큰 매우 위험 회피 연구자들과의 데이터 공유에 대한 회사-있습니다.
데이터가 Abdur Chowdhury의 이야기를 알고의 사실, 위치에 거의 모든 사람들은 많은 양에 대한 액세스를 제공합니다. 그는 AOL 연구의 머리를 때 2006 년, 그는 의도적으로 자신이 연구 커뮤니티에 650,000 AOL 사용자의 검색 쿼리를 익명 처리 된 무슨 생각을 발표했다. 지금까지 내가 말할 수있는, Chowdhury와 AOL의 연구자들은 좋은 의도를 가지고 있었고, 그들은 데이터를 익명으로 처리했다고 생각했다. 그러나, 그들은 틀렸다. 그것은 신속하게 데이터를 연구자가 생각만큼 익명되지 않은 것을 발견하고 뉴욕 타임즈에서 기자는 쉽게 데이터 세트에있는 사람들을 확인할 수 있었다되었다 (Barbaro and Zeller Jr 2006) . 이러한 문제가 발견 된 후, Chowdhury는 AOL의 웹 사이트에서 데이터를 제거,하지만 너무 늦었다. 데이터는 다른 웹 사이트에 재 게시했다, 당신은이 책을 읽고 때 아마 계속 사용할 수 있습니다. 연구 커뮤니티와 데이터를 공유하는 그의 시도 때문에, Chowdhury 해고하고, AOL의 최고 기술 책임자 (CTO)가 사임 (Hafner 2006) . 이 예와 같이, 내부 데이터 액세스를 용이하게하는 회사 특정 개인에 대한 이점은 매우 작고, 최악의 시나리오는 형편이다.
연구는, 그러나, 일반 대중에 액세스 할 수없는 데이터에 액세스 할 수 있습니다. 정부는 연구자가 접근 신청에 따라 수있는 절차가 있고, 예제이 장 뒷부분 쇼로, 연구진은 때때로 기업 데이터에 액세스 할 수 있습니다. 예를 들어이 Einav et al. (2015) 온라인 경매에서 디지털 흔적을 연구하는 이베이의 연구원과 제휴. 연구원이자, 연구 능력 : 나중에 장 (제 2.4.3.2)이 협력에서 나온 연구에 대해 더 이야기 할 것입니다,하지만 그것은 내가 성공적인 협력 관계에서 볼 성분의 네 있었기 때문에 지금은 그것을 언급 회사이자, 회사 기능을 제공합니다. 즉, Einav와 동료에 관심이 온라인 경매를 공부 할 수 있었다. 그리고, 이베이도했다. 그러나 내가 본 많은 가능한 공동 연구자 또는 회사 중 하나는 이러한 성분 중 하나 부족 실패 때문이다.
당신은 그러나, 사업 파트너십을 개발 할 수있는 경우에도 몇 가지 단점이 있습니다. 첫째, 당신은 가능성이 제한 될 수와 데이터를 요청할 수 있습니다 질문; 회사는 그들이 나쁜 보이게 만들 수있는 연구를 허용하지 않을 수 있습니다. 둘째, 당신은 아마 다른 연구자들이 확인하고 결과를 확장 할 수 없다는 것을 의미 다른 연구자와 데이터를 공유 할 수 없습니다. 또한, 이러한 협력 관계는 사람들이 당신의 결과는 당신의 협력에 의해 영향을받은 것으로 생각하는 관심의 충돌 적어도 모양을 만들 수 있습니다. 이러한 단점이 모두 해결 될 수 있지만, 그것은 모든 사람에게 액세스 할 수없는 데이터로 작업하는 그나과 단점을 모두 가지고 있음을 명확하게하는 것이 중요하다.
요약하면, 빅 데이터의 많은 연구자에 액세스 할 수 없습니다. 이 심각한 법적, 기술적, 사업, 그리고 데이터 액세스를 방지 윤리적 장벽,이 장벽은 사라지지 않을 것입니다. 각국 정부는 일반적으로 데이터 액세스를 가능하게하기위한 절차를 설립,하지만 과정은 더 특별 국가 및 지역 수준에서 할 수 있습니다. 또한, 일부 경우에, 연구자들은 비즈니스 파트너는 데이터 액세스를 수득 할 수 있지만,이 연구자의 다양한 문제를 작성할 수있다.