이 장에 포함되지 않은 한 가지 종류의 관찰은 민족지학입니다. 디지털 공간에서의 민족 지학에 대한 더 자세한 내용은 Boellstorff et al. (2012) , 혼합 디지털 및 물리적 공간에서의 민족 지학에 대한 더 자세한 내용은 Lane (2016) 참조하십시오.
"빅 데이터 (big data)"에 대한 하나의 합의 된 정의는 없지만 많은 정의는 "3 Vs"에 초점을 맞추는 것처럼 보인다 : 볼륨, 다양성 및 속도 (예 : Japec et al. (2015) ). De Mauro et al. (2015) 의 정의 검토를 위해.
큰 데이터 카테고리에 정부 행정 데이터를 포함시킨 것은 다소 특이한 일이지만 다른 사람들도 Legewie (2015) , Connelly et al. (2016) , Einav and Levin (2014) . 연구를위한 정부 행정 데이터의 가치에 대한 자세한 내용은 Card et al. (2010) , Adminstrative Data Taskforce (2012) 및 Grusky, Smeeding, and Snipp (2015) .
정부 통계 시스템, 특히 미국 인구 조사국 내부의 행정 연구에 대한 내용은 Jarmin and O'Hara (2016) 참조하십시오. 통계 스웨덴의 행정 기록 연구에 대한 책자 길이의 처리에 대해서는 Wallgren and Wallgren (2007) 참조하십시오.
이 장에서는 일반 사회 조사 (GSS)와 같은 전통적인 조사를 Twitter와 같은 소셜 미디어 데이터 소스와 간단히 비교했습니다. 전통적인 설문 조사와 소셜 미디어 데이터를 철저하고 신중하게 비교하려면 Schober et al. (2016) .
빅 데이터의 이러한 10 가지 특성은 다양한 저자에 의해 다양한 방식으로 설명되었습니다. 이 문제에 대한 저의 생각에 영향을 준 글들은 Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Goldstone and Lupyan (2016) .
이 장에서 필자는 상대적으로 중립적 인 디지털 흔적 이라는 용어를 사용했습니다. 디지털 흔적에 대한 또 다른 인기있는 용어는 디지털 발자국 (Golder and Macy 2014) 이지만 Hal Abelson, Ken Ledeen 및 Harry Lewis (2008) 지적했듯이보다 적절한 용어는 아마도 디지털 지문 입니다. 발자국을 만들 때 일어나는 일을 인식하고 발자국을 일반적으로 개인적으로 추적 할 수 없습니다. 디지털 추적에 대해서도 마찬가지입니다. 사실, 당신은 거의 지식이없는 흔적을 항상 남기고 있습니다. 그리고 이러한 흔적에는 귀하의 이름이 없지만 종종 귀하와 연결될 수 있습니다. 다른 말로하면, 그들은 지문과 비슷합니다 : 보이지 않고 개인적으로 식별합니다.
대규모 데이터 세트가 통계적 테스트에 문제가되는 이유에 대한 자세한 내용은 M. Lin, Lucas, and Shmueli (2013) 및 McFarland and McFarland (2015) . 이러한 문제는 연구원들이 통계적 중요성보다는 실용적인 의미에 집중하도록 유도해야합니다.
Raj Chetty와 동료들이 세금 기록에 액세스하는 방법에 대한 자세한 내용은 Mervis (2014) 참조하십시오.
대규모 데이터 집합은 일반적으로 단일 컴퓨터의 기능을 넘어서는 계산 문제를 생성 할 수도 있습니다. 따라서 대용량 데이터 집합에 대한 계산을 수행하는 연구원은 종종 병렬 프로그래밍 이라고하는 프로세스 인 많은 컴퓨터에서 작업을 분산시킵니다. 병렬 프로그래밍, 특히 Hadoop이라는 언어에 대한 소개는 Vo and Silvia (2016) 참조하십시오.
항시 온 데이터를 고려할 때, 시간이 지남에 따라 정확히 동일한 사람들을 비교하는지, 또는 변화하는 사람들 집단을 비교하는지 여부를 고려하는 것이 중요합니다. 예를 들어, Diaz et al. (2016) .
비 반응 측정에 대한 고전 서적은 Webb et al. (1966) . 그 책의 예는 디지털 시대 이전이지만, 여전히 조명하고 있습니다. 대량 감시가 있기 때문에 행동을 바꾸는 사람들의 사례는 Penney (2016) 와 Brayne (2014) 참조하십시오.
반응성은 연구자가 요구 효과 (Orne 1962; Zizzo 2010) 및 Hawthorne 효과 (Adair 1984; Levitt and List 2011) 밀접한 관련이 있습니다.
레코드 링키지에 대한 자세한 내용은 Dunn (1946) 과 Fellegi and Sunter (1969) (역사적) 및 Larsen and Winkler (2014) (현대)를 참조하십시오. 데이터 중복 제거, 인스턴스 식별, 이름 일치, 중복 탐지 및 중복 레코드 탐지 (Elmagarmid, Ipeirotis, and Verykios 2007) 같은 이름으로 컴퓨터 과학에서도 유사한 접근법이 개발되었습니다. 또한 개인 식별 정보의 전송을 요구하지 않는 연계를 기록하기위한 개인 정보 보호 보존 방법이 있습니다 (Schnell 2013) . Facebook은 또한 투표 기록에 자신의 기록을 연결하는 프로세스를 개발했습니다. 이것은 제가 4 장에서 이야기 할 실험을 평가하기 위해 수행되었습니다 (Bond et al. 2012; Jones et al. 2013) .
구조 타당성에 대한 더 자세한 내용은 Shadish, Cook, and Campbell (2001) 3 장을 참조하십시오.
AOL 검색 로그 오류에 대한 자세한 내용은 Ohm (2010) 참조하십시오. 실험을 설명 할 때 4 장의 기업 및 정부와의 협력에 관한 조언을 제공합니다. 많은 저자들이 접근하기 어려운 데이터에 의존하는 연구에 대한 우려를 표명했습니다. Huberman (2012) 과 boyd and Crawford (2012) .
대학 연구자들이 데이터 액세스 권한을 획득하기위한 하나의 좋은 방법은 인턴 또는 방문 연구원으로 회사에서 일을하는 것입니다. 데이터 액세스를 가능하게하는 것 외에도,이 과정은 연구자가 데이터 분석을 위해 중요하다, 작성 방법에 대한 자세한 내용은 도움이 될 것입니다.
Mervis (2014) 는 정부 데이터에 대한 접근성 측면에서 Raj Chetty와 동료들이 사회 이동성 연구에 사용 된 세금 기록에 어떻게 접근했는지에 대해 논의합니다.
'대표성'의 역사 등의 개념을 참조 Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , 및 Kruskal and Mosteller (1980) .
눈의 일과 인형과 언덕의 일을 요약 한 것은 간단합니다. 콜레라에 관한 스노우의 연구에 대한 자세한 내용은 Freedman (1991) 참조하십시오. British Doctors Study에 대한 자세한 내용은 Doll et al. (2004) , Keating (2014) .
Doll과 Hill은 여성 의사와 35 세 미만의 의사로부터 데이터를 수집했지만 의도적으로는 첫 번째 분석에서이 데이터를 사용하지 않았다는 사실에 많은 사람들이 놀라게 될 것입니다. 그들은 "35 세 미만의 여성과 남성에서 폐암이 비교적 드물기 때문에 향후 몇 년 동안이 그룹에서 유용한 수치를 얻지 못할 것입니다. 따라서이 예비 보고서에서 우리는 35 세 이상 남성들에게 관심을 기울였습니다. "왜 대표성을 피해야 만 하는가"라는 도발적인 제목을 가진 Rothman, Gallacher, and Hatch (2013) 는 비 대표적 데이터를 의도적으로 생성합니다.
비 대표성은 전체 인구에 관한 진술을하고자하는 연구자 및 정부의 주요 문제입니다. 이는 일반적으로 사용자를 중점으로하는 기업의 관심사입니다. 통계청이 비즈니스 빅 데이터의 비 대표성 문제를 어떻게 고려하는지에 대한 자세한 내용은 Buelens et al. (2014) .
큰 데이터 소스의 비 - 대표적 성격에 대한 우려를 표명 한 연구자의 사례는 boyd and Crawford (2012) , K. Lewis (2015b) 및 Hargittai (2015) .
사회 조사와 역학 조사의 목표를보다 자세히 비교하려면 Keiding and Louis (2016) 참조하십시오.
트위터를 사용하여 유권자에 대한 샘플을 벗어난 일반화, 특히 2009 년 독일 선거에서의 사례를 확인하려는 시도에 대한 자세한 내용은 Jungherr (2013) 및 Jungherr (2015) 참조하십시오. Tumasjan et al. (2010) 의 연구에 Tumasjan et al. (2010) 전세계의 연구자들은 트위터 데이터가 다양한 유형의 선거를 예측할 수있는 능력을 향상시키기 위해 정당 분석을 사용하여 정당 분석의 긍정적 인면과 부정적인면을 구분하는 등의 더 멋진 방법을 사용했습니다 (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Huberty (2015) 선거를 예측하려는 이러한 시도의 결과를 요약 한 방법은 다음과 같습니다.
"소셜 미디어를 기반으로 한 모든 알려진 예측 방법은 진정한 미래 지향적 인 선거 예측의 요구를받을 때 실패했습니다. 이러한 실패는 방법 론적 또는 알고리즘 적 어려움보다는 소셜 미디어의 근본적인 특성으로 인한 것으로 보입니다. 간단히 말해서, 소셜 미디어는 유권자에 대한 안정적이고 공정한 대표적인 그림을 제공하지 않으며, 아마도 그렇게하지 않을 것입니다. 사회적 미디어의 편의성 샘플에는 이러한 문제를 해결할 수있는 충분한 데이터가 없습니다. "
3 장에서는 샘플링과 추정에 대해보다 자세히 설명 할 것이다. 데이터가 비 대표성이라 할지라도 특정 조건 하에서는 좋은 예측을하기 위해 가중치를 적용 할 수 있습니다.
시스템 드리프트는 바깥에서보기가 매우 어렵습니다. 그러나 MovieLens 프로젝트 (4 장에서 더 자세히 논의 됨)는 학술 연구 그룹에서 15 년 이상 운영되었습니다. 따라서 시간이 지남에 따라 시스템이 진화 한 방식과 이것이 분석에 미치는 영향에 대한 정보를 문서화하고 공유 할 수있었습니다 (Harper and Konstan 2015) .
많은 학자들이 Liu, Kliman-Silver, and Mislove (2014) 및 Tufekci (2014) 와 Tufekci (2014) 트위터의 표류에 관심을 Tufekci (2014) 있습니다.
인구 표류를 다루는 한 가지 접근법은 연구원들이 시간이 지남에 따라 동일한 사람들을 연구 할 수있게하는 사용자 패널을 만드는 것입니다 ( Diaz et al. (2016) .
Jon Kleinberg가 말하기에 "algorithmically confounded"라는 용어를 처음 들었지만 유감스럽게도 언제 어디에서 이야기를했는지 기억하지 못합니다. 처음으로 인쇄본에서 용어를 본 것은 Anderson et al. (2015) . 데이트 사이트에서 사용 된 알고리즘이 어떻게 이들 웹 사이트의 데이터를 사용하여 사회적 선호를 연구하는 연구자의 능력을 복잡하게 만들 수 있는지에 대한 흥미로운 토론입니다. 이 우려는 Anderson et al. (2014) K. Lewis (2015a) 에 대한 K. Lewis (2015a) 에 의해 제기되었다 Anderson et al. (2014) .
페이스 북 외에도, 트위터는 사용자가 3 인 폐쇄에 대한 아이디어를 토대로 따라 할 것을 권고합니다. Su, Sharma, and Goel (2016) . 따라서 트위터에서의 3면 폐쇄의 수준은 3 인 폐쇄에 대한 인간의 경향과 3면 폐쇄를 촉진하는 알고리즘 적 경향의 조합입니다.
특히 사회 과학 이론이 "엔진이 아닌 카메라"(즉, 세계를 형상화하는 것이 아니라 형상화하는 것)라는 생각 - Mackenzie (2008) .
정부 통계 기관은 통계 데이터 편집을 데이터 정리라고 부릅니다. De Waal, Puts, and Daas (2014) 는 조사 데이터를 위해 개발 된 통계 데이터 편집 기술을 설명하고 큰 데이터 소스에 적용 할 수있는 범위를 조사하며 Puts, Daas, and Waal (2015) 는 좀 더 일반적인 청중.
소셜 봇의 개요는 Ferrara et al. (2016) . 트위터에서 스팸을 찾는 데 중점을 둔 몇 가지 사례는 Clark et al. (2016) 및 Chu et al. (2012) . 마지막으로, Subrahmanian et al. (2016) 는 DARPA 트위터 봇 챌린지 (Twitter Bot Challenge Subrahmanian et al. (2016) 의 결과를 설명합니다.이 봇 챌린지는 트위터에서 봇을 탐지하는 접근법을 비교하기 위해 고안되었습니다.
Ohm (2015) 은 민감한 정보에 대한 초기 연구를 검토하고 다중 요소 테스트를 제공합니다. 그가 제안하는 네 가지 요소는 해로움의 크기, 위험 가능성, 기밀 관계의 존재 여부, 위험이 다수 주의적 관심사를 반영하는지 여부입니다.
파버 (Farber)의 뉴욕 택시 연구는 Camerer et al. (1997) 는 종이 여행지의 세 가지 다른 편의 샘플을 사용했습니다. 이 초기 연구는 운전자가 표적 근로자 인 것으로 나타났습니다. 즉, 임금이 더 높은 날에 일하는 사람이 적었습니다.
후속 연구에서 King과 동료들은 중국에서 온라인 검열을 더 조사했습니다 (King, Pan, and Roberts 2014, [@king_how_2016] ) . 중국에서 온라인 검열을 측정하는 관련 방법에 대해서는 Bamman, O'Connor, and Smith (2012) 참조하십시오. King, Pan, and Roberts (2013) 에서 1,100 만 개 게시물의 정서를 추정하는 데 사용되는 것과 같은 통계 방법에 대한 자세한 내용은 Hopkins and King (2010) 참조하십시오. 감독 학습에 대한 자세한 내용은 James et al. (2013) (덜 기술) 및 Hastie, Tibshirani, and Friedman (2009) (보다 기술적).
예측은 산업 데이터 과학의 중요한 부분입니다 (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . 사회 연구자가 일반적으로 수행하는 한 가지 유형의 예측은 인구 통계 학적 예측입니다. 예를 들어, Raftery et al. (2012) .
Google 독감 트렌드는 유행성 독감을 유행시키기 위해 검색 데이터를 사용한 첫 번째 프로젝트가 아니 었습니다. 실제로 미국의 연구자들 (Polgreen et al. 2008; Ginsberg et al. 2009) 과 스웨덴 (Hulth, Rydevik, and Linde 2009) 은 특정 검색 용어 (예 : "독감")가 전국 공중 보건 감시 데이터가 공개되기 전에 그 후 많은 다른 많은 프로젝트가 질병 감시 탐지에 디지털 추적 데이터를 사용하려고 시도했습니다. Althouse et al. (2015) 검토.
건강 결과를 예측하기 위해 디지털 추적 데이터를 사용하는 것 외에도, 선거 결과를 예측하기 위해 Twitter 데이터를 사용하는 엄청난 양의 작업이있었습니다. 리뷰는 Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7 장) 및 Huberty (2015) . 국내 총생산 (GDP)과 같은 경제 지표의 발표는 중앙 은행에서도 일반적으로 발생 Bańbura et al. (2013) . 표 2.8은 일종의 디지털 추적을 사용하여 세계에서 어떤 종류의 사건을 예측하는 몇 가지 사례의 연구를 포함합니다.
디지털 추적 | 결과 | 소환 |
---|---|---|
지저귀다 | 미국 영화의 흥행 수입 | Asur and Huberman (2010) |
검색 로그 | 미국에서 영화, 음악, 서적 및 비디오 게임 판매 | Goel et al. (2010) |
지저귀다 | 다우 존스 산업 평균 지수 (미국 주식 시장) | Bollen, Mao, and Zeng (2011) |
소셜 미디어 및 검색 로그 | 미국, 영국, 캐나다 및 중국의 투자 심리 및 주식 시장 설문 조사 | Mao et al. (2015) |
검색 로그 | 싱가포르 및 방콕의 뎅기열 발병률 | Althouse, Ng, and Cummings (2011) |
마지막으로 존 클라인 버그 (2015) Jon Kleinberg)와 동료 (2015) 는 예측 문제가 두 가지, 미묘하게 다른 범주로 분류되며 사회 과학자들은 하나에 집중하고 다른 하나는 무시하는 경향이 있다고 지적했습니다. 한 정책 입안자가 가뭄에 직면 해있는 그녀의 애나에게 전화해서 비가 올 기회를 높이기 위해 무당을 고용 할 것인지를 결정해야한다고 상상해보십시오. 또 다른 정책 담당자 인 베티 (Becty)를 집으로 데려가는 것을 피하기 위해 우산을 가져갈 지 여부를 결정해야합니다. 애나와 베티는 모두 날씨를 이해하면 더 나은 결정을 내릴 수 있지만 서로 다른 점을 알아야합니다. 애나는 비가 내리는 비가 비를 내리는 지 이해해야합니다. 반면 베티는 인과 관계에 대해 아무 것도 이해할 필요가 없습니다. 그녀는 정확한 예측이 필요합니다. 사회 연구자들은 클라인 버그 (Kleinberg)와 동료들이 인과 관계 문제와 관련하여 "비 댄스와 같은"정책 문제라고 부르는 안나 (Anna)와 같은 문제에 집중합니다. 클라인 버그 (Kleinberg)와 동료들이 "우산과 같은"정책 문제라고 부르는 베티 (Betty)가 직면 한 문제와 같은 질문도 매우 중요 할 수 있지만 사회 연구원의 관심은 훨씬 적습니다.
PS Political Science 지에 는 빅 데이터, 인과 관계 추론 및 공식 이론에 대한 심포지엄이 있었으며 Clark and Golder (2015) 는 각 공헌을 요약했습니다. 미국 국립 과학 아카데미 (National Academy of Sciences) 지에는 인과 관계 추론과 빅 데이터에 관한 심포지엄이 있었으며, Shiffrin (2016) 은 각 공헌을 요약했다. 큰 데이터 소스 내에서 자연스러운 실험을 자동으로 발견하려고 시도하는 기계 학습 접근법에 대해서는 Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) .
자연적인 실험의 측면에서, Dunning (2012) 은 많은 예제로 서적, 책자 길이의 치료법을 제공합니다. 자연적 실험에 대한 회의적인 견해에 대해서는 Rosenzweig and Wolpin (2000) (경제학) 또는 Sekhon and Titiunik (2012) (정치학)을 참조하십시오. Deaton (2010) 과 Heckman and Urzúa (2010) 는 자연 실험에 초점을 두어 연구자가 중요하지 않은 인과 관계 영향을 추정하는 데 집중할 수 있다고 주장한다. Imbens (2010) 이러한 논거에 자연 실험의 가치에 대해보다 낙관적 인 시각을 제시합니다.
연구원이 초안의 효과를 추정하는 것에서 서빙의 효과를 추정하는 방법을 설명 할 때, 필자는 도구 변수 라고하는 기술을 설명하고있었습니다. Imbens and Rubin (2015) 은 23 장과 24 장에서 추첨 초안을 소개하고 사용합니다. 병역 기피자에 대한 군 복무의 효과는 때때로 컴파일러 평균 인과 관계 (CAcE)라고하며 때로는 지역 평균 치료 효과 (LATE)라고도합니다. Sovey and Green (2011) , Angrist and Krueger (2001) , Bollen (2012) 은 정치 과학, 경제 및 사회학에서 도구 변수의 사용에 대한 리뷰를 제공하고 Sovey and Green (2011) 은 도구 변수를 사용한 연구 평가.
실제로 1970 년 초안 추첨은 실제로 무작위로 추출 된 것이 아니 었습니다. 순수한 무작위성에서 작은 편차가 있었다 (Fienberg 1971) . Berinsky and Chatfield (2015) 는이 작은 편차가 실질적으로 중요하지 않으며 적절하게 수행 된 무작위 화의 중요성을 논의한다고 주장한다.
매칭 측면에서 Stuart (2010) 는 낙관적 인 리뷰를, Sekhon (2009) 은 비관적 인 리뷰를 보았습니다. 가지 치기의 일종으로 매치하는 것에 대한 더 자세한 내용은 Ho et al. (2007) . 각 사람에 대해 하나의 완벽한 일치를 찾는 일은 종종 어렵 기 때문에 여러 가지 복잡성이 있습니다. 첫째, 정확한 일치를 사용할 수없는 경우 연구자는 두 단위 사이의 거리를 측정하는 방법과 주어진 거리가 충분히 근접한 경우를 결정해야합니다. 두 번째 복잡성은 연구 그룹이 치료 그룹의 각 사례에 대해 여러 개의 일치 항목을 사용하려는 경우 더 정확한 추정치로 이어질 수 있기 때문에 발생합니다. 이 두 가지 문제는 Imbens and Rubin (2015) 18 장에 자세히 설명되어 있습니다. ( ??? ) II ( ??? ) 참조하십시오.
예를 들어 Dehejia and Wahba (1999) 는 무작위 대조 실험과 유사한 추정치를 산출 할 수있는 예를 보여주고있다. 그러나 매칭 방법이 실험적 벤치 마크를 재현하지 못하는 사례에 대해서는 Arceneaux, Gerber, and Green (2006) 및 Arceneaux, Gerber, and Green (2010) 을 참조하십시오.
Rosenbaum (2015) 과 Hernán and Robins (2016) 는 큰 데이터 소스 내에서 유용한 비교를 발견하기위한 다른 조언을 제공합니다.