이 섹션은 서술로 읽을 수보다는 기준으로서 사용되도록 설계된다.
그이 장에 포함되지 않은 관찰 한 종류의 민족 지학이다. 디지털 공간에서 민족 지학에 대한 자세한 내용은 참조 Boellstorff et al. (2012) , 혼합 디지털 및 물리적 공간에서 민족 지학에 대한 자세한 내용은 참조 Lane (2016) .
데이터를 용도 변경하는 경우, 당신은 당신이 발생할 수있는 가능한 문제를 이해하는 데 도움이 정신 트릭이있다. 첫째, 당신은 당신의 문제에 대한 이상적인 데이터 집합을 상상하려고 할 수 있으며, 사용중인 데이터 집합에 그 비교. 그들은 어떻게 유사하고 서로 다른 방법입니까? 당신이 당신의 데이터를 직접 수집하지 않은 경우, 당신이 원하는 무엇을 당신이 무슨 차이가 될 가능성이 있습니다. 그러나, 이러한 차이는 사소하거나 중요한 경우 결정해야합니다.
둘째, 누군가가 만들어지고 어떤 이유로 데이터를 수집 기억 해요. 당신은 자신의 추론을 이해하려고 노력한다. 리버스 엔지니어링의이 종류는 당신이 당신의 용도 변경 데이터의 문제와 편견을 식별 할 수 있습니다.
가 "빅 데이터"의 단일 컨센서스 정의는 없지만, 다양한 정의가 3 대에 집중하는 것 (예를 들면, 볼륨, 다양한 속도와 Japec et al. (2015) ). 오히려 데이터의 특성에 초점을보다, 나의 정의는 데이터가 제작 한 이유에 더 초점을 맞추고있다.
빅 데이터의 범주 안에 정부 관리 데이터를 내 포함은 약간 비정상적이다. 이 사건을 만든 기타는, Legewie (2015) , Connelly et al. (2016) , 및 Einav and Levin (2014) . 연구에 대한 정부의 관리 데이터의 가치에 대한 자세한 내용은 참조 Card et al. (2010) , Taskforce (2012) , 및 Grusky, Smeeding, and Snipp (2015) .
정부 통계 시스템, 특히 미국 인구 조사국 내부에서 관리 연구의 전망은 다음을 참조 Jarmin and O'Hara (2016) . 통계 스웨덴에서 관리 기록 연구의 책 길이 처리에 대한 내용은 Wallgren and Wallgren (2007) .
장에서 나는 간단히 같은 트위터와 같은 소셜 미디어 데이터 소스에 대한 일반 사회 조사 (GSS)와 같은 전통적인 설문 조사를 비교했다. 기존의 설문 조사 및 소셜 미디어 데이터 사이의 철저하고주의 깊은 비교를 위해 참조 Schober et al. (2016) .
큰 데이터 열 특성이 다른 다양한 작가에 의해 다양한 방법으로 설명되었다. 이러한 문제에 대한 내 생각에 영향을 쓰기는 다음과 같습니다 Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , 그리고 Goldstone and Lupyan (2016) .
이 장 전반에 걸쳐, 나는 비교적 중립적 인 생각 용어 디지털 트레이스를 사용했습니다. 디지털 흔적에 대한 또 다른 인기있는 용어는 디지털 발자국은 (Golder and Macy 2014) ,하지만이 핼 아벨, 켄 Ledeen, 해리 루이스로 (2008) 지적, 더 적절한 용어는 아마도 디지털 지문입니다. 당신이 발자국을 만들 때, 당신은 무슨 일이 일어나고 당신의 발자국은 일반적으로 개인적으로 추적 할 수없는 것을 알고 있습니다. 동일은 디지털 트레이스 사실이 아니다. 사실, 당신은 추적 당신이 약간의 지식을 가지고있는 대한 모든 시간을 떠나고있다. 이러한 흔적은 그들에 당신의 이름을 가지고 있지 않지만 그리고, 그들은 자주 다시 연결할 수 있습니다. 즉, 그들은 더 많은 지문과 같다 : 보이지 개인 식별.
큰
대규모 데이터 세트가 문제가 통계적 테스트를 렌더링하는 이유에 대한 자세한 내용은 참조 Lin, Lucas, and Shmueli (2013) 과 McFarland and McFarland (2015) . 이러한 문제는 실용적인 의미보다는 통계적 유의성에 집중하는 연구원을지도한다.
항상에
고려할 때 항상 데이터, 당신이 시간이 지남에 따라 동일한 사람을 비교하는 여부를 당신이 사람의 일부 변경 그룹을 비교할지 여부를 고려하는 것이 중요합니다; 예를 들어 참조 Diaz et al. (2016) .
비 반응성
비 반응성 조치에 고전적인 책은 Webb et al. (1966) . 책 미리 날짜의 예 디지털 시대,하지만 그들은 여전히 조명된다. 때문에 대량 감시의 존재의 행동을 변화 사람들의 예를 참조 Penney (2016) 및 Brayne (2014) .
불완전한
레코드 연결에 대한 자세한 내용을 참조하십시오 Dunn (1946) 과 Fellegi and Sunter (1969) (역사)와 Larsen and Winkler (2014) (현대)를. 유사 같은 데이터 중복 제거, 인스턴스 식별, 이름 일치로도 이름에서 컴퓨터 과학에서 개발 된 접근, 기록 검출 검출을 복제하고, 복제 (Elmagarmid, Ipeirotis, and Verykios 2007) . 개인 식별 정보의 송신을 필요로하지 않는 결합을 기록하는 방법을 보존 프라이버시도있다 (Schnell 2013) . 페이스 북은 또한이 투표 동작으로 자신의 기록을 연결하는 계속 개발하고있다; 이것은 내가 4 장에 대해 말씀 드리죠 실험 평가하기 위해 수행되었다 (Bond et al. 2012; Jones et al. 2013) .
구성 타당도에 대한 자세한 내용은 참조 Shadish, Cook, and Campbell (2001) , 제 3 장.
액세스 할 수없는
AOL의 검색 로그 사태에 대한 자세한 내용은 참조 Ohm (2010) . 내가 실험을 설명 할 때 나는 회사와 제 4 장 정부와 협력에 대한 조언을 제공합니다. 저자의 숫자에 액세스 할 수없는 데이터에 의존하는 연구에 대한 우려를 표명 한 참조 Huberman (2012) 과 boyd and Crawford (2012) .
대학 연구자들이 데이터 액세스 권한을 획득하기위한 하나의 좋은 방법은 인턴 또는 방문 연구원으로 회사에서 일을하는 것입니다. 데이터 액세스를 가능하게하는 것 외에도,이 과정은 연구자가 데이터 분석을 위해 중요하다, 작성 방법에 대한 자세한 내용은 도움이 될 것입니다.
비 대표
비 대표성은 전체 인구에 대한 진술을하고자하는 연구자와 정부의 주요 문제이다. 이것은 일반적으로 사용자들에 초점을 맞추고있다 회사에 대한 우려가 적다. 통계 네덜란드 비즈니스 빅 데이터의 비 대표성의 문제를 고려하는 방법에 대한 자세한 내용은 참조 Buelens et al. (2014) .
제 3 장에서는, 나는 훨씬 더 상세하게 샘플링 및 추정을 설명 할 것이다. 데이터는 특정 조건 하에서 비 대표하더라도, 이들은 양호한 추정치를 생성하기 위해 가중 될 수있다.
표류
시스템 드리프트는 외부에서 보는 것은 매우 어렵다. 그러나, (더 제 4 장에서 설명)을 MovieLens 프로젝트는 학술 연구 그룹에 의해 15 년 이상을 실행하고있다. 따라서, 그들은 문서화하고 시스템이 시간이 지남에 진화 방법과 방법에 대한 정보를 공유 한이 영향을 줄 수 분석 (Harper and Konstan 2015) .
학자의 숫자는 트위터에서 드리프트에 초점을 맞추고있다 : Liu, Kliman-Silver, and Mislove (2014) 및 Tufekci (2014) .
알고리즘 혼동
내가 먼저 용어가 이야기에서 존 클라인 베르그에서 사용하는 "알고리즘 혼동"들었다. performativity 뒤에 주요 아이디어는 어떤 사회 과학 이론이 "엔진없는 카메라"는 것이다 (Mackenzie 2008) . 즉, 그들은 실제로 세계를 형성하기보다는 그냥 캡처합니다.
더러운
정부 통계 기관은 데이터 정제, 통계 데이터 편집에 문의하십시오. De Waal, Puts, and Daas (2014) 조사 자료 용으로 개발 된 통계 데이터 편집 기술을 설명하고있는 범위가 큰 데이터 소스에 적용하고 있습니다 위해 검사 Puts, Daas, and Waal (2015) 보다 일반 고객에 대해 동일한 아이디어의 일부를 제공합니다.
트위터에 스팸에 초점을 맞춘 연구의 몇 가지 예를 들어 Clark et al. (2016) 및 Chu et al. (2012) . 마지막 Subrahmanian et al. (2016) DARPA의 트위터 봇 도전의 결과를 설명합니다.
민감한
Ohm (2015) 민감한 정보의 아이디어에 대한 이전 연구를 검토하고 다중 요소 테스트를 제공합니다. 그가 제안하는 네 가지 요소는 다음과 같습니다 피해의 가능성; 피해의 가능성; 비밀 관계의 존재; 및 위험 여부를 다수결 우려를 반영합니다.
뉴욕의 택시 파버의 연구에 의해 이전 연구에 기반 Camerer et al. (1997) 여행 시작 시간을 기록하기 위해 드라이버가 사용 된 종이 시트 트립 페이퍼 형태, 종료 시간 및 요금 세 가지 편의 샘플을 사용할 것이다. 그들의 임금이 높았다 일에 적은 일이 이전 연구는 드라이버가 대상 근로자 보입니다 것으로 나타났습니다.
Kossinets and Watts (2009) 소셜 네트워크에 homophily의 기원에 집중했다. 참조 Wimmer and Lewis (2010) 페이스 북의 데이터를 사용하는 것과 같은 문제에 대한 다른 접근 방식.
후속 연구에서, 왕과 동료들은 또한 중국의 온라인 검열을 살펴 보았다 (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . 중국의 온라인 검열을 측정하는 관련 방법을 참조 Bamman, O'Connor, and Smith (2012) . 에 사용 된 것과 같은 통계적 방법에 대한 자세한 내용은 King, Pan, and Roberts (2013) 참조 11000000 게시물의 감정을 추정하기 위해 Hopkins and King (2010) . 지도 학습에 대한 자세한 내용은 참조 James et al. (2013) (이하 기술) 및 Hastie, Tibshirani, and Friedman (2009) (기술적).
예측 산업 데이터 과학의 큰 부분 (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . 일반적 사회 연구원에 의해 수행되는 예측 한 가지 유형은 예를 들어, 인구 통계 학적 예측이다 Raftery et al. (2012) .
Google 독감 트렌드는 인플루엔자 유행을 nowcast하기 위해 검색 데이터를 사용하는 첫 번째 프로젝트 아니었다. 사실, 미국의 연구자 (Polgreen et al. 2008; Ginsberg et al. 2009) , 스웨덴 (Hulth, Rydevik, and Linde 2009) 특정 검색어 (예를 들어, "독감")는 국가 공중 보건 감시를 예측 것을 발견했다 그 전에 데이터를 발표했다. 그 후 많은 다른 많은 프로젝트 참조, 질병 감시 검출을위한 디지털 트레이스 데이터를 사용하는 것을 시도했다 Althouse et al. (2015) 를 검토합니다.
건강 결과를 예측하기 위해 디지털 추적 데이터를 사용하는 것 외에도, 또한 선거 결과를 예측하는 데이터 센터를 사용하는 작업의 많은 양이 있었다; 리뷰에 대한 참조 Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (장. 7), 및 Huberty (2015) .
인플루엔자 유행을 예측하고 선거 세계 이벤트의 어떤 예측 디지털 트레이스의 일종을 이용하여 두 예 예측 트위터 데이터를 이용하여 검색 정보를 사용. 이이 일반적인 구조를 가지고 연구의 엄청난 숫자입니다. 표 2.5은 몇 가지 다른 예를 포함한다.
디지털 추적 | 결과 | 소환 |
---|---|---|
지저귀다 | 미국 영화의 박스 오피스 수익 | Asur and Huberman (2010) |
검색 로그 | 미국의 영화, 음악, 책, 비디오 게임의 판매 | Goel et al. (2010) |
지저귀다 | 다우 존스 산업 평균 (미국 주식 시장) | Bollen, Mao, and Zeng (2011) |
저널 PS 정치학은 빅 데이터, 인과 관계 추론, 형식적인 이론에 대한 심포지엄을했고, Clark and Golder (2015) 각각의 기여를 요약 한 것입니다. 미국의 국립 과학 아카데미의 저널 절차는 인과 추론 및 빅 데이터에 대한 심포지엄이 있고, Shiffrin (2016) 각각의 기여를 요약 한 것입니다.
천연의 실험 조건에서, Dunning (2012) 우수한 책 길이 치료를 제공한다. 자연 실험으로 베트남 초안 추첨 사용에 대한 자세한 내용은 참조 Berinsky and Chatfield (2015) . 내부 빅 데이터 소스의 자연 실험을 자동으로 발견하려고 기계 학습 방법을 참조 Jensen et al. (2008) 와 Sharma, Hofman, and Watts (2015) .
일치의 측면에서 낙관적 인 검토를 참조 Stuart (2010) , 그리고 비관적 인 검토를 참조 Sekhon (2009) . 가지 치기의 일종으로 일치에 대한 자세한 내용은 참조 Ho et al. (2007) . 일치의 우수한 치료를 제공하는 책을 참조 Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , 및 Imbens and Rubin (2015) .