비 대표적인 데이터는 샘플 밖의 일반화에 좋지 않지만 샘플 내 비교에 유용 할 수 있습니다.
일부 사회 과학자들은 특정 국가의 모든 성인과 같이 잘 정의 된 인구의 확률 론적 표본에서 나온 데이터로 작업하는 데 익숙합니다. 이러한 종류의 데이터는 표본이 더 큰 인구를 대표하기 때문에 대표 데이터라고합니다. 많은 연구자들이 대표 데이터를 선정하고 대표 데이터는 엄격한 과학과 동의어이며 비 대표 데이터는 부주의와 동의어입니다. 가장 극단적 인 관점에서, 회의론자들은 비 대표성 데이터로부터 배울 수있는 것이 없다고 믿는 것처럼 보입니다. 사실이라면 대용량 데이터 소스에서 배울 수있는 것을 심각하게 제한하는 것처럼 보일 수 있습니다. 그 이유는 대다수가 비현실적이기 때문입니다. 다행히도 이러한 회의론자들은 부분적으로 만 옳다. 비 대표성 데이터가 분명히 적합하지 않은 연구 목표가 있지만 실제로 유용 할 수있는 다른 연구 목표가 있습니다.
이 구별을 이해하기 위해 과학적 고전을 고려해 봅시다. John Snow의 런던에서의 1853-54 콜레라 발생에 대한 연구. 당시 많은 의사들은 콜레라가 "나쁜 공기"에 의한 것이라고 믿었지만 스노우는 그것이 콜레라가 전염병이었으며 아마도 하수도가있는 식수로 전염 된 것이라고 믿었습니다. 이 아이디어를 테스트하기 위해 스노우는 자연스러운 실험이라고 부를 수있는 것을 이용했습니다. 그는 두 개의 다른 상수도 회사 인 램버스 (Lambeth)와 사우스 워크 (Southwark) 및 복스 홀 (Vauxhall)이 제공하는 가정의 콜레라 비율을 비교했습니다. 이들 회사는 유사한 가정을 제공했지만 한 가지 중요한 차이가있었습니다. 1849 년에 전염병이 시작되기 몇 년 전에 Lambeth는 런던의 주요 하수 배출구에서 상류쪽으로 입구 지점을 옮겼습니다. 반면 Southwark & Vauxhall은 하수도 배출. 스노우는 두 회사가 제공 한 가구에서 콜레라 사망률을 비교했을 때 그는 고객에게 하수 오염 수질을 제공하는 회사 인 사우스 워크 앤 복스 홀 (Southwark & Vauxhall)의 고객이 콜레라로 인해 사망 할 확률이 10 배 더 높다는 것을 발견했다. 이 결과는 콜레라의 원인에 관한 스노우의 주장에 대해 과학적 증거를 제공한다. 비록 그것이 런던에있는 사람들의 표본을 바탕으로 한 것은 아니지만.
그러나이 두 회사의 자료는 런던의 콜레라가 발병 한 때의 콜레라의 유행은 무엇인가? 중요한 두 번째 질문에 대해서는 런던 출신의 사람들을 대표하는 샘플을 갖는 것이 훨씬 낫습니다.
스노우의 연구에서 알 수 있듯이 비 대표성 데이터가 매우 효과적 일 수있는 과학적 질문이 있으며 적절하지 않은 다른 것들도있다. 이 두 가지 종류의 질문을 구별하는 한 가지 기본적인 방법은 일부 질문은 샘플 내 비교에 관한 것이고 일부는 샘플 밖의 일반화에 관한 것입니다. 이러한 구분은 전염병학에 대한 또 다른 고전적 연구 인 흡연에 암을 유발한다는 사실을 입증하는 데 중요한 역할을 한 영국 의사 연구 (British Doctors Study)에서 자세히 설명 할 수 있습니다. 이 연구에서는 Richard Doll과 A. Bradford Hill이 수년 동안 약 2 만 5 천명의 남성 의사를 추적하고 연구가 시작되었을 때 훈제 한 양을 기준으로 사망률을 비교했습니다. Doll and Hill (1954) 은 강한 노출 - 반응 관계를 발견했다. 흡연이 심할수록 폐암으로 사망 할 확률이 높다. 물론이 남성 의사 집단을 기반으로 모든 영국인들 사이에서 폐암의 유행을 예측하는 것은 현명하지 않을 수 있지만 샘플 내 비교는 여전히 흡연이 폐암을 유발한다는 증거를 제공합니다.
이제 샘플 내 비교와 샘플 외 일반화의 차이점을 설명 했으므로 두 가지주의 사항이 순서대로 적용됩니다. 첫째, 여성 영국 의사 또는 남성 영국 공장 근로자 또는 여성 독일 공장 근로자 또는 다른 여러 그룹의 샘플에서 남성 영국 의사의 견본에 포함되는 관계가 어느 정도 유지되는지에 대한 자연스러운 질문이 있습니다. 이 질문은 흥미롭고 중요하지만, 샘플에서 일반 인구로 일반화 할 수있는 정도에 대한 질문과 다릅니다. 예를 들어, 남성 영국인 의사에서 발견 된 흡연과 암의 관계가 다른 그룹에서도 비슷할 것으로 추측됩니다. 이 외삽 법을 수행 할 수있는 능력은 남성 영국 의사가 모든 인구 집단의 확률 론적 표본이라는 사실에서 비롯된 것이 아닙니다. 오히려 그것은 흡연과 암을 연결하는 메커니즘에 대한 이해에서 비롯된 것입니다. 따라서 표본에서 인구 집단으로 일반화하는 것은 통계적으로 큰 문제이지만 한 그룹에서 다른 그룹으로 이동 하는 패턴의 이동성 에 대한 질문은 주로 통계적이지 않은 문제입니다 (Pearl and Bareinboim 2014; Pearl 2015) .
이 시점에서 회의론자는 대부분의 사회적 패턴이 흡연과 암의 관계보다 그룹을 통해 이동하기가 쉽지 않다는 것을 지적 할 수 있습니다. 그리고 나는 동의한다. 패턴을 이동 가능한 것으로 기대해야하는 정도는 궁극적으로 이론과 증거를 바탕으로 결정되어야하는 과학적 문제입니다. 자동으로 패턴을 운송 할 수 있다고 가정해서는 안되지만 패턴을 운송 할 수 없다고 가정해서는 안됩니다. 학부생을 연구하여 연구원이 인간 행동에 대해 배울 수있는 연구원 수에 대한 토론을 수행 한 경우 (Sears 1986, [@henrich_most_2010] ) 운송 능력에 대한 다소 추상적 인 질문이 익숙 할 것입니다. 그러나 이러한 논쟁에도 불구하고 연구자들은 학부생을 공부하는 것으로부터 아무것도 배울 수 없다고 말하는 것은 무리 일 것입니다.
두 번째 경고는 비 대표적인 데이터를 가진 대부분의 연구원이 눈이나 인형과 언덕처럼주의하지 않는다는 것입니다. 연구자가 대표성이없는 데이터를 사용하여 샘플 밖의 일반화를 시도 할 때 잘못 될 수있는 것을 설명하기 위해 Andranik Tumasjan 및 동료 (2010) 의 2009 독일 의회 선거에 대한 연구에 대해 말씀 드리고자합니다. 10 만 건 이상의 짹짹을 분석함으로써 그들은 정당을 언급하는 짹짹의 비율이 의회 선거에서 파티가받은 득표율과 일치한다는 것을 발견했다 (그림 2.3). 즉, 본질적으로 무료 인 트위터 데이터가 대표적인 데이터에 중점을두고 있기 때문에 값 비싼 전통적인 여론 조사를 대체 할 수있는 것으로 나타났습니다.
트위터에 대해 이미 알고있는 것을 감안할 때 즉시이 결과에 회의적이어야합니다. 2009 년 트위터에 오른 독일인들은 독일 유권자의 확률 론적 표본이 아니며, 일부 정당의 지지자들은 다른 정당의 지지자 들보 다 정치에 대해 훨씬 더 자주 트위터를 붙일 수 있습니다. 따라서 여러분이 상상할 수있는 가능한 모든 편향이 어떻게 든 상쇄되어이 데이터가 독일 유권자를 직접 반영 할 수 있다는 것은 놀랍습니다. 사실, Tumasjan et al. (2010) 너무 사실로 밝혀졌습니다. Andreas Jungherr, Pascal Jürgens, Harald Schoen (2012) 의 후속 논문은 원래의 분석이 사실상 트위터에서 가장 많이 언급 된 정당을 배제했다고 지적했다. 해적 파티는 정부 규제와 싸우는 작은 파티 다. 인터넷의 해적당이 분석에 포함되었을 때, 트위터는 선거 결과의 끔찍한 예측자가되었다 (그림 2.3). 이 예제에서 알 수 있듯이 비표준 큰 데이터 소스를 사용하여 샘플 밖의 일반화를 수행하는 것은 매우 잘못 될 수 있습니다. 또한, 10 만개의 트윗이 있다는 사실은 기본적으로 부적합하다는 사실을 알아야합니다. 설득력있는 데이터가 많지는 않지만, 설문 조사에 대해 3 장에서 다시 돌아가겠습니다.
결론적으로 많은 큰 데이터 소스는 잘 정의 된 인구 집단의 대표 샘플이 아닙니다. 표본 추출 결과를 일반화 된 결과로 일반화해야하는 질문은 심각한 문제입니다. 그러나 샘플 내 비교에 대한 질문에 대해서는 연구자가 표본의 특성에 대해 명확하고 이론적 또는 경험적 증거로 운송 가능성에 대한 주장을 뒷받침하는 한 비 대표성 데이터가 강력 할 수 있습니다. 실제로 큰 데이터 소스를 사용하면 연구자는 많은 대표성이없는 그룹에서 더 많은 샘플 내 비교를 할 수 있으며, 여러 그룹의 추정치가 확률 론적 랜덤의 단일 추정치보다 사회 조사를 발전시키는 데 더 많은 도움이된다고 생각합니다. 견본.