기업과 정부가 보유한 데이터는 연구자가 접근하기 어렵습니다.
2014 년 5 월, 미국 국가 안보국 (National Security Agency)은 유타 농촌에 데이터 센터를 열었습니다. 지능형 커뮤니티 종합 국가 사이버 보안 이니셔티브 데이터 센터입니다. 그러나 유타 데이터 센터 (Utah Data Center)로 알려지기 시작한이 데이터 센터에는 놀라운 기능이 있다고합니다. 한 보고서는 "개인 이메일, 휴대폰 통화 및 Google 검색의 전체 내용은 물론 모든 종류의 개인 영수증 (주차 영수증, 여행 일정, 서점 구매)을 포함한 모든 형태의 의사 소통을 저장하고 처리 할 수 있다고 주장합니다 , 기타 디지털 '포켓 쓰레기' (Bamford 2012) 있습니다. 유타 데이터 센터는 대용량 데이터에서 수집 된 많은 정보의 민감한 성격에 대한 우려를 제기하는 것 외에도 연구자가 접근 할 수없는 풍부한 데이터 소스의 극단적 인 예입니다. 일반적으로 유용한 대용량 데이터 소스는 정부 (예 : 세금 데이터 및 교육 데이터) 또는 회사 (예 : 검색 엔진 쿼리 및 전화 통화 메타 데이터)에 의해 통제되고 제한됩니다. 따라서 이러한 데이터 소스가 존재하더라도 액세스가 불가능하기 때문에 사회 연구의 목적으로는 유용하지 않습니다.
내 경험에 비추어 볼 때 대학에있는 많은 연구자들은이 접근 불가능 성의 근원을 오해하고 있습니다. 회사와 정부의 사람들이 어리 석고, 게으르거나, 분별력이 없기 때문에 이러한 데이터에 액세스 할 수 없습니다. 오히려 데이터 액세스를 방해하는 심각한 법적, 비즈니스 및 윤리적 장벽이 있습니다. 예를 들어 웹 사이트에 대한 일부 서비스 약관 (terms-of-service agreements)은 직원이 데이터를 사용하거나 서비스를 개선 할 수 있도록 허용합니다. 따라서 특정 형태의 데이터 공유는 기업을 고객으로부터의 합법적 인 소송에 노출시킬 수 있습니다. 또한 데이터 공유에 관련된 기업에게는 상당한 비즈니스 위험이 있습니다. 대학 연구 프로젝트의 일환으로 개인 검색 데이터가 실수로 Google에서 유출 된 경우 대중이 어떻게 대응할 지 상상해보십시오. 이러한 데이터 유출은 극단적 인 경우 회사의 실존 적 위험 일 수도 있습니다. 따라서 Google과 대부분의 대기업은 연구원과 데이터를 공유하는 것에 대해 매우 위험합니다.
사실 많은 양의 데이터에 액세스 할 수있는 위치에있는 거의 모든 사람들이 Abdur Chowdhury의 이야기를 알고 있습니다. 2006 년 그는 AOL의 연구 책임자 였을 때 의도적으로 연구 커뮤니티에 65 만 명의 AOL 사용자의 익명 검색 쿼리를 공개했습니다. 제가 말할 수있는 한, Chowdhury와 AOL의 연구자들은 좋은 의도를 가지고 있었고 그들은 데이터를 익명으로 처리했다고 생각했습니다. 그러나 그들은 틀 렸습니다. 연구자들이 생각한 것처럼 데이터가 익명 성이 아니 었으며 뉴욕 타임즈의 기자들은 데이터 세트의 누군가를 쉽게 식별 할 수 있었다 (Barbaro and Zeller 2006) . 이러한 문제가 발견되면 Chowdhury는 AOL의 웹 사이트에서 데이터를 삭제했지만 너무 늦었습니다. 이 데이터는 다른 웹 사이트에서 재 게시되었으며이 책을 읽는 중에도 계속 사용할 수 있습니다. Chowdhury가 해고되고 AOL의 CTO가 사임했다 (Hafner 2006) . 이 예에서 알 수 있듯이 회사 내부의 특정 개인이 데이터 액세스를 용이하게하는 이점은 매우 적으며 최악의 시나리오는 끔찍합니다.
그러나 연구원은 때로는 일반 대중이 접근 할 수없는 데이터에 액세스 할 수 있습니다. 일부 정부는 연구자가 액세스를 신청할 때 따라야하는 절차를 가지고 있으며,이 장의 뒷부분에 나오는 예와 같이 연구원은 때때로 기업 데이터에 액세스 할 수 있습니다. 예를 들어, Einav et al. (2015) 는 온라인 경매를 연구하기 위해 eBay의 한 연구원과 파트너십을 맺었다. 이 장의 뒷부분에서이 공동 연구를 통해 얻은 연구에 대해 더 이야기 할 것이지만 성공적인 파트너십에서 볼 수있는 네 가지 요소가 모두 포함되어 있기 때문에 지금 언급합니다. 연구원 관심사, 연구원 역량, 회사 관심도 및 회사 역량 . 연구자 또는 파트너 - 회사 또는 정부 -가 이러한 재료 중 하나가 없기 때문에 많은 잠재적 인 협력이 실패한 것을 목격했습니다.
그러나 비즈니스와 파트너십을 맺거나 제한된 정부 데이터에 액세스 할 수있는 경우에도 몇 가지 단점이 있습니다. 첫째, 다른 연구자와 데이터를 공유하지 못할 가능성이 높습니다. 이는 다른 연구자가 결과를 확인하고 확장 할 수 없음을 의미합니다. 둘째로, 여러분이 물을 수있는 질문은 제한적일 수 있습니다. 기업들은 자신들을 악화시킬 수있는 연구를 허용하지 않을 것입니다. 마지막으로, 이러한 파트너십은 최소한 귀하의 결과가 파트너십의 영향을 받았다고 생각할 수있는 이해 상충의 모양을 만들 수 있습니다. 이러한 단점을 모두 해결할 수는 있지만 모든 사람이 접근 할 수없는 데이터로 작업하는 것이 장단점이 있다는 점을 분명히하는 것이 중요합니다.
요약하면, 많은 양의 큰 데이터는 연구자가 접근 할 수 없다. 데이터 접근을 막는 법적, 사업 적, 윤리적 장벽이 심각합니다. 이러한 장벽은 기술 장벽이 아니기 때문에 기술이 향상됨에 따라 사라지지 않을 것입니다. 일부 국가의 정부는 일부 데이터 세트에 대해 데이터 액세스를 가능하게하는 절차를 수립했으나이 프로세스는 특히 주 및 지방 수준에서 특별합니다. 또한 경우에 따라 연구원은 데이터 액세스를 얻기 위해 회사와 파트너를 맺을 수 있지만 연구원과 회사에게는 다양한 문제를 야기 할 수 있습니다.